Exportação concluída — 

Um modelo de classificação para o Reconhecimento de Entidades Nomeadas

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Silva, Andressa Vieira e
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/8/8139/tde-06042021-192617/
Resumo: O Reconhecimento de Entidades Nomeadas (REN) é uma tarefa de Proces- samento de Linguagem Natural (PLN) que busca identificar as Entidades Nomeadas de um texto, tais como nomes de pessoas, cidades e organiza- ções, classificando-as em um conjunto pré-definido de categorias. Essa é considerada uma tarefa difícil, pois as Entidades Nomeadas constituem uma classe gramatical com muita variação lexical e de baixa frequência quando comparadas à massa total de dados textuais. Recentemente, as pesquisas com redes neurais profundas têm mostrado excelentes resultados em diversas aplicações de PLN, incluindo o REN. Nesta pesquisa, foram investigadas duas arquiteturas de redes neurais para o REN no Harem, um corpus de língua portuguesa: BERT (devlin et al., 2018) e uma rede neural bidirecional LSTM (BiLSTM). O objetivo principal foi explorar traços baseados na distribuição contextual das entidades, através de representações vetoriais word embeddings associadas a traços linguísticos. Foram usados traços de etiquetagem morfossintática, forma ortográfica da palavra e recursos lexicais. Esses traços foram concatenados às representações word embeddings para alimentar a BiLSTM. Os resultados mostraram uma melhora estatisticamente significativa no desempenho desse modelo em comparação à BiLSTM apenas com os word embeddings. O modelo BERT, por sua vez, obteve medidas próximas ao estado da arte no Harem.
id USP_de70d8a951ad540105fc7ae30b6ced39
oai_identifier_str oai:teses.usp.br:tde-06042021-192617
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Um modelo de classificação para o Reconhecimento de Entidades NomeadasA classification model for Named Entity RecognitionLinguistic feature representationNamed Entity RecognitionNeural networksReconhecimento de Entidades NomeadasRedes neuraisRepresentações word embeddingsTraços de representação linguísticaWord embeddingsO Reconhecimento de Entidades Nomeadas (REN) é uma tarefa de Proces- samento de Linguagem Natural (PLN) que busca identificar as Entidades Nomeadas de um texto, tais como nomes de pessoas, cidades e organiza- ções, classificando-as em um conjunto pré-definido de categorias. Essa é considerada uma tarefa difícil, pois as Entidades Nomeadas constituem uma classe gramatical com muita variação lexical e de baixa frequência quando comparadas à massa total de dados textuais. Recentemente, as pesquisas com redes neurais profundas têm mostrado excelentes resultados em diversas aplicações de PLN, incluindo o REN. Nesta pesquisa, foram investigadas duas arquiteturas de redes neurais para o REN no Harem, um corpus de língua portuguesa: BERT (devlin et al., 2018) e uma rede neural bidirecional LSTM (BiLSTM). O objetivo principal foi explorar traços baseados na distribuição contextual das entidades, através de representações vetoriais word embeddings associadas a traços linguísticos. Foram usados traços de etiquetagem morfossintática, forma ortográfica da palavra e recursos lexicais. Esses traços foram concatenados às representações word embeddings para alimentar a BiLSTM. Os resultados mostraram uma melhora estatisticamente significativa no desempenho desse modelo em comparação à BiLSTM apenas com os word embeddings. O modelo BERT, por sua vez, obteve medidas próximas ao estado da arte no Harem.Named Entity Recognition (NER) is a Natural Language Processing (NLP) task that aims at identifying Named Entities in a text, such as person, city, and organization names, classifying them into a pre-defined set of categories. NER is considered a hard task as Named Entities are a grammatical class with lots of lexical variation and relatevely low frequency if compared to the total mass of textual data. Nevertheless, deep neural network researches have recently shown excelent results in several NLP applications, including NER. In this work, two neural network archictetures were investigated for Harem, a corpus of Portuguese: BERT (devlin et al., 2018) and a bidirectional neural network LSTM (BiLSTM). The main goal was to explore features based on the entities contextual distribution by means of word embeddings vectors associated with linguistic features. We used as features part-of-speech tagging, spelling formats, and lexical resources. Those features were concatened with word embeddings vectors and fed into the BiLSTM. Our results showed a significant performance improvement with this model if compared to a BiLSTM using only word embeddings. On the other hand, BERT model obtained scores close to the Harem state-of-the-art.Biblioteca Digitais de Teses e Dissertações da USPLopes, Marcos FernandoSilva, Andressa Vieira e2020-12-16info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/8/8139/tde-06042021-192617/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2021-04-07T02:32:02Zoai:teses.usp.br:tde-06042021-192617Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212021-04-07T02:32:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Um modelo de classificação para o Reconhecimento de Entidades Nomeadas
A classification model for Named Entity Recognition
title Um modelo de classificação para o Reconhecimento de Entidades Nomeadas
spellingShingle Um modelo de classificação para o Reconhecimento de Entidades Nomeadas
Silva, Andressa Vieira e
Linguistic feature representation
Named Entity Recognition
Neural networks
Reconhecimento de Entidades Nomeadas
Redes neurais
Representações word embeddings
Traços de representação linguística
Word embeddings
title_short Um modelo de classificação para o Reconhecimento de Entidades Nomeadas
title_full Um modelo de classificação para o Reconhecimento de Entidades Nomeadas
title_fullStr Um modelo de classificação para o Reconhecimento de Entidades Nomeadas
title_full_unstemmed Um modelo de classificação para o Reconhecimento de Entidades Nomeadas
title_sort Um modelo de classificação para o Reconhecimento de Entidades Nomeadas
author Silva, Andressa Vieira e
author_facet Silva, Andressa Vieira e
author_role author
dc.contributor.none.fl_str_mv Lopes, Marcos Fernando
dc.contributor.author.fl_str_mv Silva, Andressa Vieira e
dc.subject.por.fl_str_mv Linguistic feature representation
Named Entity Recognition
Neural networks
Reconhecimento de Entidades Nomeadas
Redes neurais
Representações word embeddings
Traços de representação linguística
Word embeddings
topic Linguistic feature representation
Named Entity Recognition
Neural networks
Reconhecimento de Entidades Nomeadas
Redes neurais
Representações word embeddings
Traços de representação linguística
Word embeddings
description O Reconhecimento de Entidades Nomeadas (REN) é uma tarefa de Proces- samento de Linguagem Natural (PLN) que busca identificar as Entidades Nomeadas de um texto, tais como nomes de pessoas, cidades e organiza- ções, classificando-as em um conjunto pré-definido de categorias. Essa é considerada uma tarefa difícil, pois as Entidades Nomeadas constituem uma classe gramatical com muita variação lexical e de baixa frequência quando comparadas à massa total de dados textuais. Recentemente, as pesquisas com redes neurais profundas têm mostrado excelentes resultados em diversas aplicações de PLN, incluindo o REN. Nesta pesquisa, foram investigadas duas arquiteturas de redes neurais para o REN no Harem, um corpus de língua portuguesa: BERT (devlin et al., 2018) e uma rede neural bidirecional LSTM (BiLSTM). O objetivo principal foi explorar traços baseados na distribuição contextual das entidades, através de representações vetoriais word embeddings associadas a traços linguísticos. Foram usados traços de etiquetagem morfossintática, forma ortográfica da palavra e recursos lexicais. Esses traços foram concatenados às representações word embeddings para alimentar a BiLSTM. Os resultados mostraram uma melhora estatisticamente significativa no desempenho desse modelo em comparação à BiLSTM apenas com os word embeddings. O modelo BERT, por sua vez, obteve medidas próximas ao estado da arte no Harem.
publishDate 2020
dc.date.none.fl_str_mv 2020-12-16
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/8/8139/tde-06042021-192617/
url https://www.teses.usp.br/teses/disponiveis/8/8139/tde-06042021-192617/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257895909982208