Análise de uso de algoritmos de machine learning para desambiguação de entidades

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Castro, William Pires de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/11449/243268
Resumo: O ambiente digital trouxe diversas inovações para a forma com a qual o material científico é consumido. Entretanto, muitas revistas, anais de eventos e afins não se preocupam com a forma de armazenamento dos trabalhos inseridos, permitindo que dados ambíguos sejam cadastrados, como por exemplo as divergências nas abreviaturas de nomes, erros de escrita e atribuições indevidas de trabalhos para autores homônimos, inviabilizando o gerenciamento da base. A área de Desambiguação da Informação estuda formas de se tratar informações ambíguas, contando com técnicas de aprendizado de máquina para desambiguar informação científica. De acordo com o cenário descrito, questiona-se: como a literatura trata a desambiguação de entidades, tais como nomes de autores, utilizando aprendizado de máquina? Esta pesquisa tem como objetivo analisar a abordagem da comunidade científica para a desambiguação de nomes de entidades, buscando compreender a definição dos conceitos da área, identificando as principais formas de execução e lacunas existentes nos métodos de desambiguação avaliados. Quanto à abordagem dos artigos, foram identificadas duas principais divisões: a desambiguação por agrupamento (aprendizado não-supervisionado) e por classificação (aprendizado supervisionado), estendendo-se ao uso de algoritmos para análise dos resultados do processo, visualizando a eficiência do método escolhido. A maior diferença entre os métodos são seus filtros, sendo os mais populares a rede de citações e a rede de co-autoria. Quanto aos desafios científicos, observa-se que a maioria dos textos avaliados sugere a adição de outras formas de desambiguação para ajustar a acurácia, seja por inteligências artificiais bem treinadas ou validação humana dos resultados. Conclui-se que a área de desambiguação de nome de autores tende a processos de agrupamento, mas sem um consenso definido sobre como seguir a partir deste ponto, onde os filtros se tornam a forma principal de distinguir uma pesquisa da outra, podendo levar a novas pesquisas a respeito do assunto.
id UNSP_3ef0097001eee6c895f77cabb05a8e31
oai_identifier_str oai:repositorio.unesp.br:11449/243268
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str
spelling Análise de uso de algoritmos de machine learning para desambiguação de entidadesAnalysis of use of machine learning algorithms for disampiguation of entitiesDesambiguação da informaçãoAmbiguação da informaçãoEntidades nomeadasAprendizado de máquinaInformation disambiguationInformation ambiguationNamed entityMachine learningO ambiente digital trouxe diversas inovações para a forma com a qual o material científico é consumido. Entretanto, muitas revistas, anais de eventos e afins não se preocupam com a forma de armazenamento dos trabalhos inseridos, permitindo que dados ambíguos sejam cadastrados, como por exemplo as divergências nas abreviaturas de nomes, erros de escrita e atribuições indevidas de trabalhos para autores homônimos, inviabilizando o gerenciamento da base. A área de Desambiguação da Informação estuda formas de se tratar informações ambíguas, contando com técnicas de aprendizado de máquina para desambiguar informação científica. De acordo com o cenário descrito, questiona-se: como a literatura trata a desambiguação de entidades, tais como nomes de autores, utilizando aprendizado de máquina? Esta pesquisa tem como objetivo analisar a abordagem da comunidade científica para a desambiguação de nomes de entidades, buscando compreender a definição dos conceitos da área, identificando as principais formas de execução e lacunas existentes nos métodos de desambiguação avaliados. Quanto à abordagem dos artigos, foram identificadas duas principais divisões: a desambiguação por agrupamento (aprendizado não-supervisionado) e por classificação (aprendizado supervisionado), estendendo-se ao uso de algoritmos para análise dos resultados do processo, visualizando a eficiência do método escolhido. A maior diferença entre os métodos são seus filtros, sendo os mais populares a rede de citações e a rede de co-autoria. Quanto aos desafios científicos, observa-se que a maioria dos textos avaliados sugere a adição de outras formas de desambiguação para ajustar a acurácia, seja por inteligências artificiais bem treinadas ou validação humana dos resultados. Conclui-se que a área de desambiguação de nome de autores tende a processos de agrupamento, mas sem um consenso definido sobre como seguir a partir deste ponto, onde os filtros se tornam a forma principal de distinguir uma pesquisa da outra, podendo levar a novas pesquisas a respeito do assunto.Many journals, digital repositories and events have a manual data input of papers, with no previous indexes that carry information from the authors, where ambiguous information can be inserted into the bases, such as divergences in the abbreviations of names, writing errors and allowed attributions of works for authors with homonymous names, making the database management process unfeasible. The Information Disambiguation area has been studying ways to handle similar scenarios, relying on machine learning techniques to disambiguate scientific information. According to the scenario described, the question is: how does the literature treat the disambiguation of entities, such as author names, using machine learning? This research aims to analyze how the Information Science community approaches the disambiguation/ambiguation of entity names, seeking to understand the definition of concepts around the area, identifying the main forms of implementation and gaps in the evaluated disambiguation methods. As for the approach of the articles, two main subdivisions were identified, being disambiguation by grouping (non-supervised learning) and by classification (supervised learning), extending to the use of algorithms for analysis of the process results, visualizing the efficiency of the chosen method. The most important difference between the methods is their filters, the most popular being the citation network and the co-authorship network. Regarding the challenges, it is observed that most of the texts evaluated suggest the addition of other forms of disambiguation to adjust the accuracy, whether by well-trained artificial intelligences, or human validation of the results. It is concluded that the author’s name disambiguation area tends to clustering processes, but without a defined consensus on how to proceed from this point, where filters become the main way of distinguishing one search from another, may lead to many new researches on the subject.Não recebi financiamentoUniversidade Estadual Paulista (Unesp)Santarém Segundo, José Eduardo [UNESP]Universidade Estadual Paulista (Unesp)Castro, William Pires de2023-05-05T12:36:12Z2023-05-05T12:36:12Z2023-03-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfCASTRO, William Pires de. Análise de uso de algoritmos de machine learning para desambiguação de entidades. Universidade Estadual Paulista (Unesp), 2023.http://hdl.handle.net/11449/24326833004110043P4porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-08-12T18:09:46Zoai:repositorio.unesp.br:11449/243268Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462024-08-12T18:09:46Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Análise de uso de algoritmos de machine learning para desambiguação de entidades
Analysis of use of machine learning algorithms for disampiguation of entities
title Análise de uso de algoritmos de machine learning para desambiguação de entidades
spellingShingle Análise de uso de algoritmos de machine learning para desambiguação de entidades
Castro, William Pires de
Desambiguação da informação
Ambiguação da informação
Entidades nomeadas
Aprendizado de máquina
Information disambiguation
Information ambiguation
Named entity
Machine learning
title_short Análise de uso de algoritmos de machine learning para desambiguação de entidades
title_full Análise de uso de algoritmos de machine learning para desambiguação de entidades
title_fullStr Análise de uso de algoritmos de machine learning para desambiguação de entidades
title_full_unstemmed Análise de uso de algoritmos de machine learning para desambiguação de entidades
title_sort Análise de uso de algoritmos de machine learning para desambiguação de entidades
author Castro, William Pires de
author_facet Castro, William Pires de
author_role author
dc.contributor.none.fl_str_mv Santarém Segundo, José Eduardo [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Castro, William Pires de
dc.subject.por.fl_str_mv Desambiguação da informação
Ambiguação da informação
Entidades nomeadas
Aprendizado de máquina
Information disambiguation
Information ambiguation
Named entity
Machine learning
topic Desambiguação da informação
Ambiguação da informação
Entidades nomeadas
Aprendizado de máquina
Information disambiguation
Information ambiguation
Named entity
Machine learning
description O ambiente digital trouxe diversas inovações para a forma com a qual o material científico é consumido. Entretanto, muitas revistas, anais de eventos e afins não se preocupam com a forma de armazenamento dos trabalhos inseridos, permitindo que dados ambíguos sejam cadastrados, como por exemplo as divergências nas abreviaturas de nomes, erros de escrita e atribuições indevidas de trabalhos para autores homônimos, inviabilizando o gerenciamento da base. A área de Desambiguação da Informação estuda formas de se tratar informações ambíguas, contando com técnicas de aprendizado de máquina para desambiguar informação científica. De acordo com o cenário descrito, questiona-se: como a literatura trata a desambiguação de entidades, tais como nomes de autores, utilizando aprendizado de máquina? Esta pesquisa tem como objetivo analisar a abordagem da comunidade científica para a desambiguação de nomes de entidades, buscando compreender a definição dos conceitos da área, identificando as principais formas de execução e lacunas existentes nos métodos de desambiguação avaliados. Quanto à abordagem dos artigos, foram identificadas duas principais divisões: a desambiguação por agrupamento (aprendizado não-supervisionado) e por classificação (aprendizado supervisionado), estendendo-se ao uso de algoritmos para análise dos resultados do processo, visualizando a eficiência do método escolhido. A maior diferença entre os métodos são seus filtros, sendo os mais populares a rede de citações e a rede de co-autoria. Quanto aos desafios científicos, observa-se que a maioria dos textos avaliados sugere a adição de outras formas de desambiguação para ajustar a acurácia, seja por inteligências artificiais bem treinadas ou validação humana dos resultados. Conclui-se que a área de desambiguação de nome de autores tende a processos de agrupamento, mas sem um consenso definido sobre como seguir a partir deste ponto, onde os filtros se tornam a forma principal de distinguir uma pesquisa da outra, podendo levar a novas pesquisas a respeito do assunto.
publishDate 2023
dc.date.none.fl_str_mv 2023-05-05T12:36:12Z
2023-05-05T12:36:12Z
2023-03-15
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv CASTRO, William Pires de. Análise de uso de algoritmos de machine learning para desambiguação de entidades. Universidade Estadual Paulista (Unesp), 2023.
http://hdl.handle.net/11449/243268
33004110043P4
identifier_str_mv CASTRO, William Pires de. Análise de uso de algoritmos de machine learning para desambiguação de entidades. Universidade Estadual Paulista (Unesp), 2023.
33004110043P4
url http://hdl.handle.net/11449/243268
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv repositoriounesp@unesp.br
_version_ 1854954737299881984