Estudo comparativo de diferentes classificadores baseados em aprendizagem de m?quina para o processo de Reconhecimento de Entidades Nomeadas

Detalhes bibliográficos
Ano de defesa: 2016
Autor(a) principal: Santos, Jadson da Silva lattes
Orientador(a): Rocha J?nior, Jo?o Batista da lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual de Feira de Santana
Programa de Pós-Graduação: Mestrado em Computa??o Aplicada
Departamento: DEPARTAMENTO DE TECNOLOGIA
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://localhost:8080/tede/handle/tede/554
Resumo: The Named Entity Recognition (NER) process is the task of identifying relevant termsintextsandassigningthemalabel.Suchwordscanreferencenamesofpeople, organizations, and places. The variety of techniques that can be used in the named entityrecognitionprocessislarge.Thetechniquescanbeclassifiedintothreedistinct approaches: rule-based, machine learning and hybrid. Concerning to the machine learningapproaches,severalfactorsmayinfluenceitsaccuracy,includingtheselected classifier, the set of features extracted from the terms, the characteristics of the textual bases, and the number of entity labels. In this work, we compared classifiers that use machine learning applied to the NER task. The comparative study includes classifiers based on CRF (Conditional Random Fields), MEMM (MaximumEntropy Markov Model) and HMM (Hidden Markov Model), which are compared in two corpora in Portuguese derived from WikiNer, and HAREM, and two corporas in English derived from CoNLL-03 and WikiNer. The comparison of the classifiers shows that the CRF is superior to the other classifiers, both with Portuguese and English texts. This study also includes the comparison of the individual and joint contribution of features, including contextual features, besides the comparison ofthe NER per named entity labels, between classifiers andcorpora.
id UEFS_e4c5e2260c55957ee192bbc5dbab96e6
oai_identifier_str oai:tede2.uefs.br:8080:tede/554
network_acronym_str UEFS
network_name_str Biblioteca Digital de Teses e Dissertações da UEFS
repository_id_str
spelling Rocha J?nior, Jo?o Batista da02778818464http://lattes.cnpq.br/630437754910179205274276598http://lattes.cnpq.br/7921666581215863Santos, Jadson da Silva2018-01-24T22:42:26Z2016-09-09SANTOS, Jadson da Silva. Estudo comparativo de diferentes classificadores baseados em aprendizagem de m?quina para o processo de Reconhecimento de Entidades Nomeadas. 2016. 81 f. Disserta??o (Mestrado em Computa??o Aplicada) - Universidade Estadual de Feira de Santana, Feira de Santana, 2016.http://localhost:8080/tede/handle/tede/554The Named Entity Recognition (NER) process is the task of identifying relevant termsintextsandassigningthemalabel.Suchwordscanreferencenamesofpeople, organizations, and places. The variety of techniques that can be used in the named entityrecognitionprocessislarge.Thetechniquescanbeclassifiedintothreedistinct approaches: rule-based, machine learning and hybrid. Concerning to the machine learningapproaches,severalfactorsmayinfluenceitsaccuracy,includingtheselected classifier, the set of features extracted from the terms, the characteristics of the textual bases, and the number of entity labels. In this work, we compared classifiers that use machine learning applied to the NER task. The comparative study includes classifiers based on CRF (Conditional Random Fields), MEMM (MaximumEntropy Markov Model) and HMM (Hidden Markov Model), which are compared in two corpora in Portuguese derived from WikiNer, and HAREM, and two corporas in English derived from CoNLL-03 and WikiNer. The comparison of the classifiers shows that the CRF is superior to the other classifiers, both with Portuguese and English texts. This study also includes the comparison of the individual and joint contribution of features, including contextual features, besides the comparison ofthe NER per named entity labels, between classifiers andcorpora.O processo de Reconhecimento de Entidades Nomeadas (REN) ? a tarefa de iden- tificar termos relevantes em textos e atribu?-los um r?tulo. Tais palavras podem referenciar nomes de pessoas, organiza??es e locais. A variedade de t?cnicas que podem ser usadas no processo de reconhecimento de entidades nomeadas ? grande. As t?cnicas podem ser classificadas em tr?s abordagens distintas: baseadas em regras, baseadas em aprendizagem de m?quina e h?bridas. No que diz respeito as abordagens de aprendizagem de m?quina, diversos fatores podem influenciar sua exatida?, incluindo o classificador selecionado, o conjunto de features extra?das dos termos, as caracter?sticas das bases textuais e o n?mero de r?tulos de entidades. Neste trabalho, comparamos classificadores que utilizam aprendizagem de m?quina aplicadas a tarefa do REN. O estudo comparativo inclui classificadores baseados no CRF (Condicional Random Fields), MEMM (Maximum Entropy Markov Model) e HMM (Hidden Markov Model), os quais s?o comparados em dois corporas em portugu?s derivados do WikiNer, e HAREM, e dois corporas em ingl?s derivados doCoNLL-03 e WikiNer. A compara??o dos classificadores demonstra que o CRF ? superior aos demais classificadores, tanto com textos em portugu?s, quanto ingl?s. Este estudo tamb?m inclui a compara??o da contribui??o, individual e em conjunto de features, incluindo features de contexto, al?m da compara??o do REN por r?otulos de entidades nomeadas, entre os classificadores e os corpora.Submitted by Jadson Francisco de Jesus SILVA (jadson@uefs.br) on 2018-01-24T22:42:26Z No. of bitstreams: 1 JadsonDisst.pdf: 3499973 bytes, checksum: 5deaf9020f758e9c07f86e9e62890129 (MD5)Made available in DSpace on 2018-01-24T22:42:26Z (GMT). No. of bitstreams: 1 JadsonDisst.pdf: 3499973 bytes, checksum: 5deaf9020f758e9c07f86e9e62890129 (MD5) Previous issue date: 2016-09-09application/pdfhttp://tede2.uefs.br:8080/retrieve/5266/JadsonDisst.pdf.jpgporUniversidade Estadual de Feira de SantanaMestrado em Computa??o AplicadaUEFSBrasilDEPARTAMENTO DE TECNOLOGIAReconhecimento de Entidades NomeadasAprendizagem de M?quinaExtra??o de Informa??oProcessamento de Linguagem NaturalNamed Entity RecognitionMachine LearningInformation ExtractionNatural Linguage ProcessMETODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAOEstudo comparativo de diferentes classificadores baseados em aprendizagem de m?quina para o processo de Reconhecimento de Entidades Nomeadasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis3033172823111442046006006004335108523020347051-651669516009542875info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UEFSinstname:Universidade Estadual de Feira de Santana (UEFS)instacron:UEFSTHUMBNAILJadsonDisst.pdf.jpgJadsonDisst.pdf.jpgimage/jpeg3699http://tede2.uefs.br:8080/bitstream/tede/554/4/JadsonDisst.pdf.jpgbc863a46faa532f945a004bbbd39fef1MD54TEXTJadsonDisst.pdf.txtJadsonDisst.pdf.txttext/plain178568http://tede2.uefs.br:8080/bitstream/tede/554/3/JadsonDisst.pdf.txt401def434029d4b279f90c0651f3777eMD53ORIGINALJadsonDisst.pdfJadsonDisst.pdfapplication/pdf3499973http://tede2.uefs.br:8080/bitstream/tede/554/2/JadsonDisst.pdf5deaf9020f758e9c07f86e9e62890129MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82089http://tede2.uefs.br:8080/bitstream/tede/554/1/license.txt7b5ba3d2445355f386edab96125d42b7MD51tede/5542025-09-10 01:10:44.728oai:tede2.uefs.br:8080:tede/554Tk9UQTogQ09MT1FVRSBBUVVJIEEgU1VBIFBSP1BSSUEgTElDRU4/QQpFc3RhIGxpY2VuP2EgZGUgZXhlbXBsbyA/IGZvcm5lY2lkYSBhcGVuYXMgcGFyYSBmaW5zIGluZm9ybWF0aXZvcy4KCkxJQ0VOP0EgREUgRElTVFJJQlVJPz9PIE4/Ty1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YT8/byBkZXN0YSBsaWNlbj9hLCB2b2M/IChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSA/IFVuaXZlcnNpZGFkZSAKWFhYIChTaWdsYSBkYSBVbml2ZXJzaWRhZGUpIG8gZGlyZWl0byBuP28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdSAKZGlzdHJpYnVpciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhPz9vIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyP25pY28gZSAKZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zID91ZGlvIG91IHY/ZGVvLgoKVm9jPyBjb25jb3JkYSBxdWUgYSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZT9kbywgdHJhbnNwb3IgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YT8/byAKcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhPz9vLgoKVm9jPyB0YW1iP20gY29uY29yZGEgcXVlIGEgU2lnbGEgZGUgVW5pdmVyc2lkYWRlIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGM/cGlhIGEgc3VhIHRlc2Ugb3UgCmRpc3NlcnRhPz9vIHBhcmEgZmlucyBkZSBzZWd1cmFuP2EsIGJhY2stdXAgZSBwcmVzZXJ2YT8/by4KClZvYz8gZGVjbGFyYSBxdWUgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YT8/byA/IG9yaWdpbmFsIGUgcXVlIHZvYz8gdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgCm5lc3RhIGxpY2VuP2EuIFZvYz8gdGFtYj9tIGRlY2xhcmEgcXVlIG8gZGVwP3NpdG8gZGEgc3VhIHRlc2Ugb3UgZGlzc2VydGE/P28gbj9vLCBxdWUgc2VqYSBkZSBzZXUgCmNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3U/bS4KCkNhc28gYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YT8/byBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jPyBuP28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jPyAKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzcz9vIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgPyBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgCm9zIGRpcmVpdG9zIGFwcmVzZW50YWRvcyBuZXN0YSBsaWNlbj9hLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3Q/IGNsYXJhbWVudGUgCmlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIG91IG5vIGNvbnRlP2RvIGRhIHRlc2Ugb3UgZGlzc2VydGE/P28gb3JhIGRlcG9zaXRhZGEuCgpDQVNPIEEgVEVTRSBPVSBESVNTRVJUQT8/TyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0M/TklPIE9VIApBUE9JTyBERSBVTUEgQUc/TkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTyBRVUUgTj9PIFNFSkEgQSBTSUdMQSBERSAKVU5JVkVSU0lEQURFLCBWT0M/IERFQ0xBUkEgUVVFIFJFU1BFSVRPVSBUT0RPUyBFIFFVQUlTUVVFUiBESVJFSVRPUyBERSBSRVZJUz9PIENPTU8gClRBTUI/TSBBUyBERU1BSVMgT0JSSUdBPz9FUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKQSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIApkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHRlc2Ugb3UgZGlzc2VydGE/P28sIGUgbj9vIGZhcj8gcXVhbHF1ZXIgYWx0ZXJhPz9vLCBhbD9tIGRhcXVlbGFzIApjb25jZWRpZGFzIHBvciBlc3RhIGxpY2VuP2EuCg==Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.uefs.br:8080/PUBhttp://tede2.uefs.br:8080/oai/requestbcuefs@uefs.br|| bcref@uefs.br||bcuefs@uefs.bropendoar:2025-09-10T04:10:44Biblioteca Digital de Teses e Dissertações da UEFS - Universidade Estadual de Feira de Santana (UEFS)false
dc.title.por.fl_str_mv Estudo comparativo de diferentes classificadores baseados em aprendizagem de m?quina para o processo de Reconhecimento de Entidades Nomeadas
title Estudo comparativo de diferentes classificadores baseados em aprendizagem de m?quina para o processo de Reconhecimento de Entidades Nomeadas
spellingShingle Estudo comparativo de diferentes classificadores baseados em aprendizagem de m?quina para o processo de Reconhecimento de Entidades Nomeadas
Santos, Jadson da Silva
Reconhecimento de Entidades Nomeadas
Aprendizagem de M?quina
Extra??o de Informa??o
Processamento de Linguagem Natural
Named Entity Recognition
Machine Learning
Information Extraction
Natural Linguage Process
METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO
title_short Estudo comparativo de diferentes classificadores baseados em aprendizagem de m?quina para o processo de Reconhecimento de Entidades Nomeadas
title_full Estudo comparativo de diferentes classificadores baseados em aprendizagem de m?quina para o processo de Reconhecimento de Entidades Nomeadas
title_fullStr Estudo comparativo de diferentes classificadores baseados em aprendizagem de m?quina para o processo de Reconhecimento de Entidades Nomeadas
title_full_unstemmed Estudo comparativo de diferentes classificadores baseados em aprendizagem de m?quina para o processo de Reconhecimento de Entidades Nomeadas
title_sort Estudo comparativo de diferentes classificadores baseados em aprendizagem de m?quina para o processo de Reconhecimento de Entidades Nomeadas
author Santos, Jadson da Silva
author_facet Santos, Jadson da Silva
author_role author
dc.contributor.advisor1.fl_str_mv Rocha J?nior, Jo?o Batista da
dc.contributor.advisor1ID.fl_str_mv 02778818464
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6304377549101792
dc.contributor.authorID.fl_str_mv 05274276598
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/7921666581215863
dc.contributor.author.fl_str_mv Santos, Jadson da Silva
contributor_str_mv Rocha J?nior, Jo?o Batista da
dc.subject.por.fl_str_mv Reconhecimento de Entidades Nomeadas
Aprendizagem de M?quina
Extra??o de Informa??o
Processamento de Linguagem Natural
topic Reconhecimento de Entidades Nomeadas
Aprendizagem de M?quina
Extra??o de Informa??o
Processamento de Linguagem Natural
Named Entity Recognition
Machine Learning
Information Extraction
Natural Linguage Process
METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO
dc.subject.eng.fl_str_mv Named Entity Recognition
Machine Learning
Information Extraction
Natural Linguage Process
dc.subject.cnpq.fl_str_mv METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO
description The Named Entity Recognition (NER) process is the task of identifying relevant termsintextsandassigningthemalabel.Suchwordscanreferencenamesofpeople, organizations, and places. The variety of techniques that can be used in the named entityrecognitionprocessislarge.Thetechniquescanbeclassifiedintothreedistinct approaches: rule-based, machine learning and hybrid. Concerning to the machine learningapproaches,severalfactorsmayinfluenceitsaccuracy,includingtheselected classifier, the set of features extracted from the terms, the characteristics of the textual bases, and the number of entity labels. In this work, we compared classifiers that use machine learning applied to the NER task. The comparative study includes classifiers based on CRF (Conditional Random Fields), MEMM (MaximumEntropy Markov Model) and HMM (Hidden Markov Model), which are compared in two corpora in Portuguese derived from WikiNer, and HAREM, and two corporas in English derived from CoNLL-03 and WikiNer. The comparison of the classifiers shows that the CRF is superior to the other classifiers, both with Portuguese and English texts. This study also includes the comparison of the individual and joint contribution of features, including contextual features, besides the comparison ofthe NER per named entity labels, between classifiers andcorpora.
publishDate 2016
dc.date.issued.fl_str_mv 2016-09-09
dc.date.accessioned.fl_str_mv 2018-01-24T22:42:26Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SANTOS, Jadson da Silva. Estudo comparativo de diferentes classificadores baseados em aprendizagem de m?quina para o processo de Reconhecimento de Entidades Nomeadas. 2016. 81 f. Disserta??o (Mestrado em Computa??o Aplicada) - Universidade Estadual de Feira de Santana, Feira de Santana, 2016.
dc.identifier.uri.fl_str_mv http://localhost:8080/tede/handle/tede/554
identifier_str_mv SANTOS, Jadson da Silva. Estudo comparativo de diferentes classificadores baseados em aprendizagem de m?quina para o processo de Reconhecimento de Entidades Nomeadas. 2016. 81 f. Disserta??o (Mestrado em Computa??o Aplicada) - Universidade Estadual de Feira de Santana, Feira de Santana, 2016.
url http://localhost:8080/tede/handle/tede/554
dc.language.iso.fl_str_mv por
language por
dc.relation.program.fl_str_mv 303317282311144204
dc.relation.confidence.fl_str_mv 600
600
600
dc.relation.department.fl_str_mv 4335108523020347051
dc.relation.cnpq.fl_str_mv -651669516009542875
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual de Feira de Santana
dc.publisher.program.fl_str_mv Mestrado em Computa??o Aplicada
dc.publisher.initials.fl_str_mv UEFS
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv DEPARTAMENTO DE TECNOLOGIA
publisher.none.fl_str_mv Universidade Estadual de Feira de Santana
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UEFS
instname:Universidade Estadual de Feira de Santana (UEFS)
instacron:UEFS
instname_str Universidade Estadual de Feira de Santana (UEFS)
instacron_str UEFS
institution UEFS
reponame_str Biblioteca Digital de Teses e Dissertações da UEFS
collection Biblioteca Digital de Teses e Dissertações da UEFS
bitstream.url.fl_str_mv http://tede2.uefs.br:8080/bitstream/tede/554/4/JadsonDisst.pdf.jpg
http://tede2.uefs.br:8080/bitstream/tede/554/3/JadsonDisst.pdf.txt
http://tede2.uefs.br:8080/bitstream/tede/554/2/JadsonDisst.pdf
http://tede2.uefs.br:8080/bitstream/tede/554/1/license.txt
bitstream.checksum.fl_str_mv bc863a46faa532f945a004bbbd39fef1
401def434029d4b279f90c0651f3777e
5deaf9020f758e9c07f86e9e62890129
7b5ba3d2445355f386edab96125d42b7
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UEFS - Universidade Estadual de Feira de Santana (UEFS)
repository.mail.fl_str_mv bcuefs@uefs.br|| bcref@uefs.br||bcuefs@uefs.br
_version_ 1845618187170742272