Reconhecimento de entidades nomeadas para o português usando redes neurais
| Ano de defesa: | 2019 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://tede2.pucrs.br/tede2/handle/tede/9050 |
Resumo: | Abordagens modernas para o Reconhecimento de Entidades Nomeadas (REN) utilizam Redes Neurais para automaticamente extrair features de textos e as incorporar no processo de classificação. Word Embeddings, que é um tipo de Modelo de Linguagem (ML), é um ingrediente chave para melhorar a performance dos sistemas de REN. Mais recentemente, ML Contextualizados, que se adaptam de acordo com o contexto em que a palavra aparece, também se mostraram indispensáveis. Nessa dissertação, mostra-se como diferentes combinações de Word Embeddings e ML Contextualizados impactam na tarefa de REN em língua portuguesa. Foi explorado como a diversidade textual e o tama- nho do corpus de treino usado nos ML impactam nos resultados dessa tarefa. Também, é apresentado um estudo comparativo de 16 combinações de diferentes ML entre contextua- lizados e Word Embeddings. As avaliações foram realizadas no corpus Mini-HAREM, am- plamente adotado neste tema. O melhor resultado alcançado nesta pesquisa, ultrapassa a abordagem estado-da-arte em 5,99%, em um cenário de cinco categorias, e 4,31% quando são consideradas as dez categorias do HAREM. Além das avaliações no HAREM, também foram estudados domínios específicos dessa tarefa. Os resultados nestes casos, foram avaliados nos corpora de contexto Clínico, Policial e Geológico. Em todos, foram obtidos resultados superiores ou competitivos em relação a outras abordagens. |
| id |
P_RS_1b91fd4b9f21dc929e9a4b9bbc950db4 |
|---|---|
| oai_identifier_str |
oai:tede2.pucrs.br:tede/9051 |
| network_acronym_str |
P_RS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
| repository_id_str |
|
| spelling |
Reconhecimento de entidades nomeadas para o português usando redes neuraisReconhecimento de Entidades NomeadasModelos de LinguagemRedes NeuraisNamed Entity RecognitionLanguage ModelsNeural NetworksCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOAbordagens modernas para o Reconhecimento de Entidades Nomeadas (REN) utilizam Redes Neurais para automaticamente extrair features de textos e as incorporar no processo de classificação. Word Embeddings, que é um tipo de Modelo de Linguagem (ML), é um ingrediente chave para melhorar a performance dos sistemas de REN. Mais recentemente, ML Contextualizados, que se adaptam de acordo com o contexto em que a palavra aparece, também se mostraram indispensáveis. Nessa dissertação, mostra-se como diferentes combinações de Word Embeddings e ML Contextualizados impactam na tarefa de REN em língua portuguesa. Foi explorado como a diversidade textual e o tama- nho do corpus de treino usado nos ML impactam nos resultados dessa tarefa. Também, é apresentado um estudo comparativo de 16 combinações de diferentes ML entre contextua- lizados e Word Embeddings. As avaliações foram realizadas no corpus Mini-HAREM, am- plamente adotado neste tema. O melhor resultado alcançado nesta pesquisa, ultrapassa a abordagem estado-da-arte em 5,99%, em um cenário de cinco categorias, e 4,31% quando são consideradas as dez categorias do HAREM. Além das avaliações no HAREM, também foram estudados domínios específicos dessa tarefa. Os resultados nestes casos, foram avaliados nos corpora de contexto Clínico, Policial e Geológico. Em todos, foram obtidos resultados superiores ou competitivos em relação a outras abordagens.Modern approaches to Named Entity Recognition (NER) use Neural Networks to automatically extract text features and incorporate them into the classification process. Word Embeddings, a type of Language Model (LM), are a key ingredient for improving the perfor- mance of NER systems. More recently, Contextualized LM, which adapt according to the context in which the word appears, have also proved indispensable. This master’s thesis shows how different combinations of Word Embeddings and Contextualized LM impact the NER task in Portuguese. The impact of textual diversity and size of the training corpus used in the construction of LMs were explored by the results of this task. Also, a compar- ative study of 16 combinations of different LMs, contextualized and Word Embeddings, is presented. Evaluations were performed in the Mini-HAREM corpus, widely adopted in the Portuguese NER task. The best result achieved in this research surpasses the state-of- the-art approach by 5.99% in a five-category scenario and 4.31% when considering the ten HAREM categories. In addition to the HAREM assessments, specific domains of this task were also studied. The results in these cases were evaluated in Clinical, Police and Geolog- ical context corpora. Superior or competitive results were obtained for all corpora in relation to other approaches.Pontifícia Universidade Católica do Rio Grande do SulEscola PolitécnicaBrasilPUCRSPrograma de Pós-Graduação em Ciência da ComputaçãoVieira, RenataSantos Neto, Joaquim Francisco dos2019-12-03T17:20:58Z2019-11-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://tede2.pucrs.br/tede2/handle/tede/9050porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RS2019-12-03T22:00:27Zoai:tede2.pucrs.br:tede/9051Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2019-12-03T22:00:27Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false |
| dc.title.none.fl_str_mv |
Reconhecimento de entidades nomeadas para o português usando redes neurais |
| title |
Reconhecimento de entidades nomeadas para o português usando redes neurais |
| spellingShingle |
Reconhecimento de entidades nomeadas para o português usando redes neurais Santos Neto, Joaquim Francisco dos Reconhecimento de Entidades Nomeadas Modelos de Linguagem Redes Neurais Named Entity Recognition Language Models Neural Networks CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
| title_short |
Reconhecimento de entidades nomeadas para o português usando redes neurais |
| title_full |
Reconhecimento de entidades nomeadas para o português usando redes neurais |
| title_fullStr |
Reconhecimento de entidades nomeadas para o português usando redes neurais |
| title_full_unstemmed |
Reconhecimento de entidades nomeadas para o português usando redes neurais |
| title_sort |
Reconhecimento de entidades nomeadas para o português usando redes neurais |
| author |
Santos Neto, Joaquim Francisco dos |
| author_facet |
Santos Neto, Joaquim Francisco dos |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Vieira, Renata |
| dc.contributor.author.fl_str_mv |
Santos Neto, Joaquim Francisco dos |
| dc.subject.por.fl_str_mv |
Reconhecimento de Entidades Nomeadas Modelos de Linguagem Redes Neurais Named Entity Recognition Language Models Neural Networks CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
| topic |
Reconhecimento de Entidades Nomeadas Modelos de Linguagem Redes Neurais Named Entity Recognition Language Models Neural Networks CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
| description |
Abordagens modernas para o Reconhecimento de Entidades Nomeadas (REN) utilizam Redes Neurais para automaticamente extrair features de textos e as incorporar no processo de classificação. Word Embeddings, que é um tipo de Modelo de Linguagem (ML), é um ingrediente chave para melhorar a performance dos sistemas de REN. Mais recentemente, ML Contextualizados, que se adaptam de acordo com o contexto em que a palavra aparece, também se mostraram indispensáveis. Nessa dissertação, mostra-se como diferentes combinações de Word Embeddings e ML Contextualizados impactam na tarefa de REN em língua portuguesa. Foi explorado como a diversidade textual e o tama- nho do corpus de treino usado nos ML impactam nos resultados dessa tarefa. Também, é apresentado um estudo comparativo de 16 combinações de diferentes ML entre contextua- lizados e Word Embeddings. As avaliações foram realizadas no corpus Mini-HAREM, am- plamente adotado neste tema. O melhor resultado alcançado nesta pesquisa, ultrapassa a abordagem estado-da-arte em 5,99%, em um cenário de cinco categorias, e 4,31% quando são consideradas as dez categorias do HAREM. Além das avaliações no HAREM, também foram estudados domínios específicos dessa tarefa. Os resultados nestes casos, foram avaliados nos corpora de contexto Clínico, Policial e Geológico. Em todos, foram obtidos resultados superiores ou competitivos em relação a outras abordagens. |
| publishDate |
2019 |
| dc.date.none.fl_str_mv |
2019-12-03T17:20:58Z 2019-11-25 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://tede2.pucrs.br/tede2/handle/tede/9050 |
| url |
http://tede2.pucrs.br/tede2/handle/tede/9050 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação |
| publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS |
| instname_str |
Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
| instacron_str |
PUC_RS |
| institution |
PUC_RS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
| collection |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
| repository.mail.fl_str_mv |
biblioteca.central@pucrs.br|| |
| _version_ |
1850041297955454976 |