Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: Abreu, Jean Carlos Oliveira de
Orientador(a): Fileto, Renato
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Link de acesso: https://repositorio.ufsc.br/handle/123456789/193641
Resumo: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2018.
id UFSC_9cb38123b16d3ee30003f1eb91bde1e8
oai_identifier_str oai:repositorio.ufsc.br:123456789/193641
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str
spelling Universidade Federal de Santa CatarinaAbreu, Jean Carlos Oliveira deFileto, Renato2019-03-07T04:02:10Z2019-03-07T04:02:10Z2018356035https://repositorio.ufsc.br/handle/123456789/193641Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2018.Menções (e.g., a entidades, a conceitos) identificadas em textos por ferramentas do estado da arte não raramente apresentam incompatibilidades com as respectivas menções da regra ouro (menções anotadas e validadas por humanos em textos). Esta dissertação propõe uma classificação formal desses problemas de incompatibilidade de menções, incluindo correspondências parciais. Além disso, apresenta evidências de que, em muitos casos, menções mais longas levam a maior precisão e a informações mais específicas que menções mais curtas. Com base nisso, foram desenvolvidos no âmbito deste mestrado algoritmos para melhorar a eficácia de ferramentas de reconhecimento de menções, mediante a expansão de menções em textos quando e o quanto possível. Tais algoritmos funcionam como um passo de pós-processamento, baseado em dicionário de nomes de superfície, para melhorar os resultados retornados por qualquer ferramenta que identifique menções em texto. Experimentos realizados com a Coleção Dourada do HAREM e o Gerbil, framework que integra uma variedade de ferramentas do estado da arte e diversos conjuntos de dados contendo textos do mundo real, mostraram que sobre-segmentação (menções da regra outro contendo uma ou mais menções menores identificadas por ferramentas) é a classe de problema de incompatibilidade de menções mais prevalente dentre as classes formalizadas neste trabalho. Alguns dos algoritmos propostos nesta dissertação solucionaram a maior parte dos casos de sobre-segmentação, sem ocasionar muitos casos do problema oposto, sub-segmentação (i.e., menções maiores que as da regra ouro), com consequentes melhorias na precisão e na cobertura. O algoritmo MInT NoOver também gerou ganhos de medida-F sobre os resultados de ligação de entidades da ferramenta AGDISTIS.Abstract : Mentions (e.g., entities, concepts) identified in texts by state-of-the-art tools sometimes present incompatibilities with the respective mentions of the ground truth. This work proposes a formal classification of mention mismatching problems, including partial matching. In addition, it provides evidence that, in many cases, longer mentions lead to greater accuracy and more specific information than shorter mentions. Based on this, algorithms to improve the effectiveness of mention recognition tools have been developed in this work, by expanding mentions in texts when and as much as possible. Such algorithms works as a post-processing step, based on a surface name dictionary, to improve the results returned by any tool that identifies mentions in text. Experiments with the HAREM Gold Collection and Gerbil, a framework that integrates a variety of state-of-the-art tools and several datasets containing real-world texts, have shown that over-segmentation (mentions of the ground truth containing one or more minor mentions identified by tools) is the most prevalent class of mismatching problems among the formalized in this work. Some of the algorithms proposed in this dissertation solved most of the cases of over-segmentation, without causing many cases of the opposite problem, sub-segmentation (i.e., mentions greater than those of the ground truth), with consequent improvements in accuracy and coverage. The MInT NoOver algorithm also generated F-measure gains over the entity binding results of the AGDISTIS tool.92 p.| il., gráfs.porComputaçãoMineração de dados (Computação)Processamento de linguagem natural (Computação)Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINALPGCC1120-D.pdfPGCC1120-D.pdfapplication/pdf1888316https://repositorio.ufsc.br/bitstream/123456789/193641/-1/PGCC1120-D.pdfbb0bed107fd9d2f2869fabaa80d2e84eMD5-1123456789/1936412019-03-07 01:02:10.743oai:repositorio.ufsc.br:123456789/193641Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestsandra.sobrera@ufsc.bropendoar:23732019-03-07T04:02:10Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
title Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
spellingShingle Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
Abreu, Jean Carlos Oliveira de
Computação
Mineração de dados (Computação)
Processamento de linguagem natural (Computação)
title_short Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
title_full Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
title_fullStr Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
title_full_unstemmed Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
title_sort Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
author Abreu, Jean Carlos Oliveira de
author_facet Abreu, Jean Carlos Oliveira de
author_role author
dc.contributor.none.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Abreu, Jean Carlos Oliveira de
dc.contributor.advisor1.fl_str_mv Fileto, Renato
contributor_str_mv Fileto, Renato
dc.subject.classification.none.fl_str_mv Computação
Mineração de dados (Computação)
Processamento de linguagem natural (Computação)
topic Computação
Mineração de dados (Computação)
Processamento de linguagem natural (Computação)
description Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2018.
publishDate 2018
dc.date.issued.fl_str_mv 2018
dc.date.accessioned.fl_str_mv 2019-03-07T04:02:10Z
dc.date.available.fl_str_mv 2019-03-07T04:02:10Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/193641
dc.identifier.other.none.fl_str_mv 356035
identifier_str_mv 356035
url https://repositorio.ufsc.br/handle/123456789/193641
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 92 p.| il., gráfs.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/193641/-1/PGCC1120-D.pdf
bitstream.checksum.fl_str_mv bb0bed107fd9d2f2869fabaa80d2e84e
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv sandra.sobrera@ufsc.br
_version_ 1851759043711860736