Uma abordagem baseada em fluxo de filtros para o reconhecimento de entidades em mensagens do twitter

Detalhes bibliográficos
Ano de defesa: 2012
Autor(a) principal: Diego Marinho de Oliveira
Orientador(a): Alberto Henrique Frade Laender
Banca de defesa: Adriano Alonso Veloso, Gisele Lobo Pappa, Renato Martins Assuncao, Luiz Enrique Zarate
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Minas Gerais
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1843/ESBF-8ZKMCP
Resumo: A tarefa de reconhecimento de entidades consiste em localizar e classificar elementos em um texto não estruturado por meio de técnicas de processamento de linguagem natural apropriadas ao domínio da aplicação. Recentemente, microblogs como o Twitter, por exemplo, tornou-se um fenômeno na Web, representando um novo desafio para o reconhecimento de entidades. Dessa forma, este trabalho propõe uma abordagem alternativa denominada FS-NER (Filter Stream Named Entity Recognition) que se baseia na utilização de filtros de forma independente e rápida, altamente escalável e adequada ao ambiente do Twitter para o reconhecimento de entidades. Os resultados obtidos demonstraram que apesar da simplicidades dos filtros usados, a abordagem FS-NER foi capaz de superar as outras baseadas em Conditional Random Fields com melhoria média de 3% para a métrica F1. Além disso, essa abordagem apresenta ordem de magnitude mais rápida e, portanto, mais apropriada para o paradigma de fluxo de dados do Twitter.
id UFMG_bd4e5546a8f380c17a3c2468399c6ba6
oai_identifier_str oai:repositorio.ufmg.br:1843/ESBF-8ZKMCP
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Alberto Henrique Frade LaenderAdriano Alonso VelosoAdriano Alonso VelosoGisele Lobo PappaRenato Martins AssuncaoLuiz Enrique ZarateDiego Marinho de Oliveira2019-08-09T20:06:57Z2019-08-09T20:06:57Z2012-10-26http://hdl.handle.net/1843/ESBF-8ZKMCPA tarefa de reconhecimento de entidades consiste em localizar e classificar elementos em um texto não estruturado por meio de técnicas de processamento de linguagem natural apropriadas ao domínio da aplicação. Recentemente, microblogs como o Twitter, por exemplo, tornou-se um fenômeno na Web, representando um novo desafio para o reconhecimento de entidades. Dessa forma, este trabalho propõe uma abordagem alternativa denominada FS-NER (Filter Stream Named Entity Recognition) que se baseia na utilização de filtros de forma independente e rápida, altamente escalável e adequada ao ambiente do Twitter para o reconhecimento de entidades. Os resultados obtidos demonstraram que apesar da simplicidades dos filtros usados, a abordagem FS-NER foi capaz de superar as outras baseadas em Conditional Random Fields com melhoria média de 3% para a métrica F1. Além disso, essa abordagem apresenta ordem de magnitude mais rápida e, portanto, mais apropriada para o paradigma de fluxo de dados do Twitter.The task of entity named recognition is to locate and classify elements in unstructured text through techniques of natural language processing appropriate to the application domain. In the Web context, this task is critical to the identification of entities such as people, organizations, places, among others. Recently, microblogs like Twitter and Tumblr became a phenomenon on the Web, representing a new challenge for the recognition of entities. In Twitter, for example, traffic a large volume of messages in a short time, dificulting the task and the extraction of information about a particular subject. Moreover, the Twitter environment is quite dynamic and driven by data stream, requiring thus tools and methods suited to its characteristics. There is not in the literature, however, many works that address this issue, showing a wide area of ​​research to be conducted for named entity recognition in this environment. Thus, this master thesis proposes an alternative approach to perform this task called FS-NER (Filter Stream Named Entity Recognition). The FS-NER approach is based on the use of filters in an independent and fast manner, highly scalable and suitable for the environment of the Twitter for named entity recognition. In order to evaluate the effectiveness of the proposed approach, we carried out an exhaustive set of experiments using messages of Twitter. In these experiments, we used three distinct collections: one containing messages in English, one in Portuguese and third in several languages. The results showed that despite the simplicities of the filters used, the proposed approach was able to outperform the other approach based on Conditional Random Fields with improvement mean of 3% for the F1 metric. Moreover, this approach presents orders of magnitude faster and therefore more suitable for the typical data stream paradigm of Twitter.Universidade Federal de Minas GeraisUFMGComputaçãoRedes sociais on-lineTwitterRedes sociaisMicroblogsTwitterConditional random fieldsReconhecimento de entidadesUma abordagem baseada em fluxo de filtros para o reconhecimento de entidades em mensagens do twitterinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALdisserta__o___diegomoliveira.pdfapplication/pdf2013783https://repositorio.ufmg.br/bitstream/1843/ESBF-8ZKMCP/1/disserta__o___diegomoliveira.pdf6f2802015ad28e7f8744074c44dd63e5MD51TEXTdisserta__o___diegomoliveira.pdf.txtdisserta__o___diegomoliveira.pdf.txtExtracted texttext/plain163203https://repositorio.ufmg.br/bitstream/1843/ESBF-8ZKMCP/2/disserta__o___diegomoliveira.pdf.txtf411b36402da4c0a42db502910608788MD521843/ESBF-8ZKMCP2019-11-14 03:28:34.997oai:repositorio.ufmg.br:1843/ESBF-8ZKMCPRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T06:28:34Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Uma abordagem baseada em fluxo de filtros para o reconhecimento de entidades em mensagens do twitter
title Uma abordagem baseada em fluxo de filtros para o reconhecimento de entidades em mensagens do twitter
spellingShingle Uma abordagem baseada em fluxo de filtros para o reconhecimento de entidades em mensagens do twitter
Diego Marinho de Oliveira
Redes sociais
Microblogs
Twitter
Conditional random fields
Reconhecimento de entidades
Computação
Redes sociais on-line
Twitter
title_short Uma abordagem baseada em fluxo de filtros para o reconhecimento de entidades em mensagens do twitter
title_full Uma abordagem baseada em fluxo de filtros para o reconhecimento de entidades em mensagens do twitter
title_fullStr Uma abordagem baseada em fluxo de filtros para o reconhecimento de entidades em mensagens do twitter
title_full_unstemmed Uma abordagem baseada em fluxo de filtros para o reconhecimento de entidades em mensagens do twitter
title_sort Uma abordagem baseada em fluxo de filtros para o reconhecimento de entidades em mensagens do twitter
author Diego Marinho de Oliveira
author_facet Diego Marinho de Oliveira
author_role author
dc.contributor.advisor1.fl_str_mv Alberto Henrique Frade Laender
dc.contributor.advisor-co1.fl_str_mv Adriano Alonso Veloso
dc.contributor.referee1.fl_str_mv Adriano Alonso Veloso
dc.contributor.referee2.fl_str_mv Gisele Lobo Pappa
dc.contributor.referee3.fl_str_mv Renato Martins Assuncao
dc.contributor.referee4.fl_str_mv Luiz Enrique Zarate
dc.contributor.author.fl_str_mv Diego Marinho de Oliveira
contributor_str_mv Alberto Henrique Frade Laender
Adriano Alonso Veloso
Adriano Alonso Veloso
Gisele Lobo Pappa
Renato Martins Assuncao
Luiz Enrique Zarate
dc.subject.por.fl_str_mv Redes sociais
Microblogs
Twitter
Conditional random fields
Reconhecimento de entidades
topic Redes sociais
Microblogs
Twitter
Conditional random fields
Reconhecimento de entidades
Computação
Redes sociais on-line
Twitter
dc.subject.other.pt_BR.fl_str_mv Computação
Redes sociais on-line
Twitter
description A tarefa de reconhecimento de entidades consiste em localizar e classificar elementos em um texto não estruturado por meio de técnicas de processamento de linguagem natural apropriadas ao domínio da aplicação. Recentemente, microblogs como o Twitter, por exemplo, tornou-se um fenômeno na Web, representando um novo desafio para o reconhecimento de entidades. Dessa forma, este trabalho propõe uma abordagem alternativa denominada FS-NER (Filter Stream Named Entity Recognition) que se baseia na utilização de filtros de forma independente e rápida, altamente escalável e adequada ao ambiente do Twitter para o reconhecimento de entidades. Os resultados obtidos demonstraram que apesar da simplicidades dos filtros usados, a abordagem FS-NER foi capaz de superar as outras baseadas em Conditional Random Fields com melhoria média de 3% para a métrica F1. Além disso, essa abordagem apresenta ordem de magnitude mais rápida e, portanto, mais apropriada para o paradigma de fluxo de dados do Twitter.
publishDate 2012
dc.date.issued.fl_str_mv 2012-10-26
dc.date.accessioned.fl_str_mv 2019-08-09T20:06:57Z
dc.date.available.fl_str_mv 2019-08-09T20:06:57Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/ESBF-8ZKMCP
url http://hdl.handle.net/1843/ESBF-8ZKMCP
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/ESBF-8ZKMCP/1/disserta__o___diegomoliveira.pdf
https://repositorio.ufmg.br/bitstream/1843/ESBF-8ZKMCP/2/disserta__o___diegomoliveira.pdf.txt
bitstream.checksum.fl_str_mv 6f2802015ad28e7f8744074c44dd63e5
f411b36402da4c0a42db502910608788
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1797973291910037504