Desambiguação léxica por reutilização de dicionários

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Terceros, Hector Montenegro
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-19122024-170223/
Resumo: Dentro da área de Processamento de Linguagem Natural, um problema central e ainda não resolvido é o de Desambiguação Léxica, que consiste em identificar o sentido exprimido por uma palavra polissêmica. Esse desafio é ainda agravado quando um texto possui mais de uma palavra polissêmica, permitindo várias interpretações do contexto. Nesse caso, uma boa solução é considerar a relação entre os possíveis sentidos das palavras ambíguas, escolhendo a combinação de sentidos com melhor proximidade semântica conjunta. Analisando um texto grande essa formulação rapidamente torna-se intratável computacionalmente pela quantidade de combinações a testar, de forma que adota-se uma heurística para aproximar uma boa solução: um grafo cujos vértices são os possíveis sentidos das palavras a se desambiguar, com arestas refletindo em seus pesos a proximidade semântica de cada par de sentidos. Com esse grafo, um algoritmo de centralidade pode escolher qual o sentido mais central de cada palavra ambígua, o que é equiparado à sua relevância semântica dentre os sentidos e portanto define a resposta do modelo. Outra solução no mesmo cenário, desenvolvida a partir dessa primeira, é escolher um caminho que passe uma única vez por cada palavra e maximize a proximidade semântica, numa variação do Problema do Caixeiro Viajante Generalizado. Embora essa metodologia já tenha trazido resultados interessantes na área, seu desempenho nunca atingiu valores satisfatórios, e um dos motivos para tal é a esparsidade de suas arestas: as medidas de proximidade semântica usadas até hoje não conseguem trazer essa informação para qualquer par de sentidos, e é comum que tragam um valor de proximidade para apenas uma pequena parcela das arestas de um grafo, atrapalhando o mecanismo de priorização ou impedindo que certos caminhos sejam considerados. Propomos então uma nova forma de calcular a proximidade entre pares de sentidos, inspirada na forma com que humanos lêem dicionários e entendem seus conceitos. Se uma definição inclui uma palavra desconhecida, essa é pesquisada no mesmo dicionário. Para tanto, usamos o próprio dicionário para entender as definições ali presentes, num processo que pode ser repetido para chegar a definições mais profundas. Nós nos inspiramos nesse processo para melhorar a representação vetorial de cada sentido pelos sentidos em sua definição, tal que a proximidade entre sentidos diferentes possa ser mais facilmente medida. Esse método é testado em profundidade, reaplicando o dicionário múltiplas vezes, e especificidade, escolhendo o melhor sentido de cada definição a considerar. Com ganhos limitados nos dados de teste, concluímos que esse processo isoladamente não basta para produzir melhor desambiguação, já que o dicionário usado é uma parca representaçao do significado ali expresso, e apontamos a pesquisa futura para métodos menos dependentes do entendimento humano da linguagem.
id USP_53c4dc49e56f49a978be24a0afd749a9
oai_identifier_str oai:teses.usp.br:tde-19122024-170223
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Desambiguação léxica por reutilização de dicionáriosWord sense disambiguation by reapplication of dictionariesDesambiguação léxicaNatural language processingProcessamento de linguagem naturalWord sense disambiguationDentro da área de Processamento de Linguagem Natural, um problema central e ainda não resolvido é o de Desambiguação Léxica, que consiste em identificar o sentido exprimido por uma palavra polissêmica. Esse desafio é ainda agravado quando um texto possui mais de uma palavra polissêmica, permitindo várias interpretações do contexto. Nesse caso, uma boa solução é considerar a relação entre os possíveis sentidos das palavras ambíguas, escolhendo a combinação de sentidos com melhor proximidade semântica conjunta. Analisando um texto grande essa formulação rapidamente torna-se intratável computacionalmente pela quantidade de combinações a testar, de forma que adota-se uma heurística para aproximar uma boa solução: um grafo cujos vértices são os possíveis sentidos das palavras a se desambiguar, com arestas refletindo em seus pesos a proximidade semântica de cada par de sentidos. Com esse grafo, um algoritmo de centralidade pode escolher qual o sentido mais central de cada palavra ambígua, o que é equiparado à sua relevância semântica dentre os sentidos e portanto define a resposta do modelo. Outra solução no mesmo cenário, desenvolvida a partir dessa primeira, é escolher um caminho que passe uma única vez por cada palavra e maximize a proximidade semântica, numa variação do Problema do Caixeiro Viajante Generalizado. Embora essa metodologia já tenha trazido resultados interessantes na área, seu desempenho nunca atingiu valores satisfatórios, e um dos motivos para tal é a esparsidade de suas arestas: as medidas de proximidade semântica usadas até hoje não conseguem trazer essa informação para qualquer par de sentidos, e é comum que tragam um valor de proximidade para apenas uma pequena parcela das arestas de um grafo, atrapalhando o mecanismo de priorização ou impedindo que certos caminhos sejam considerados. Propomos então uma nova forma de calcular a proximidade entre pares de sentidos, inspirada na forma com que humanos lêem dicionários e entendem seus conceitos. Se uma definição inclui uma palavra desconhecida, essa é pesquisada no mesmo dicionário. Para tanto, usamos o próprio dicionário para entender as definições ali presentes, num processo que pode ser repetido para chegar a definições mais profundas. Nós nos inspiramos nesse processo para melhorar a representação vetorial de cada sentido pelos sentidos em sua definição, tal que a proximidade entre sentidos diferentes possa ser mais facilmente medida. Esse método é testado em profundidade, reaplicando o dicionário múltiplas vezes, e especificidade, escolhendo o melhor sentido de cada definição a considerar. Com ganhos limitados nos dados de teste, concluímos que esse processo isoladamente não basta para produzir melhor desambiguação, já que o dicionário usado é uma parca representaçao do significado ali expresso, e apontamos a pesquisa futura para métodos menos dependentes do entendimento humano da linguagem.Within the area of Natural Language Processing, a central and still unresolved problem is Word Sense Disambiguation, which aims to identify the meaning expressed by a polysemic word. This challenge is further aggravated when a text has more than one polysemic word, allowing for multiple interpretations of the context. In this case, a good solution is to consider the relationship between the possible meanings of the ambiguous words, choosing the meanings with the best joint semantic proximity. Analyzing a large text, this approach quickly becomes computationally intractable due to the number of combinations to be tested, so that a heuristic is adopted to approximate a good solution: a graph with vertices as the possible meanings of the words to be disambiguated, and edges reflecting in their weights the semantic proximity of each pair of senses. With this graph, a centrality algorithm can choose which is the most central sense of each ambiguous word, which is equated to its presented semantics among the senses and therefore defines a model answer. Another solution in the same scenario, developed from this first one, is to choose a path that passes only once through each word and maximizes semantic proximity, in a variation of the Generalized Traveling Salesman Problem. Although this methodology has already brought interesting results in the area, its performance has never reached satisfactory values, and one of the reasons for this is the sparseness of its edges: the semantic proximity measures used until today cannot bring this information to any pair of senses, and it is common for them to bring a proximity value to only a small portion of the edges of a graph, disrupting the prioritization mechanism or preventing certain paths from being considered. We then propose a new way to calculate the proximity between pairs of senses, inspired by the way humans read and understand their concepts. If a definition includes an unknown word, it is looked up in the same dictionary. In doing so, we use the dictionary itself to understand the definitions present, in a process that can be repeated to achieve deeper definitions. We take inspiration from this process to enhance the vector representation of each sense by the senses in its definition, so that the relatedness between different senses can more easily be measured. This method is tested for depth, reapplying the dictionary multiple times, and specificity, choosing the best senses from each definition to consider. With limited gains on the test dataset, we conclude that this process alone is not enough to produce better disambiguation accuracy, as the information in the dictionary used is a shallow representation of the meaning expressed, and point to further research in approaches less dependent on human understanding of language.Biblioteca Digitais de Teses e Dissertações da USPHashimoto, Ronaldo FumioTerceros, Hector Montenegro2024-10-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-19122024-170223/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-08-22T19:35:06Zoai:teses.usp.br:tde-19122024-170223Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-08-22T19:35:06Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Desambiguação léxica por reutilização de dicionários
Word sense disambiguation by reapplication of dictionaries
title Desambiguação léxica por reutilização de dicionários
spellingShingle Desambiguação léxica por reutilização de dicionários
Terceros, Hector Montenegro
Desambiguação léxica
Natural language processing
Processamento de linguagem natural
Word sense disambiguation
title_short Desambiguação léxica por reutilização de dicionários
title_full Desambiguação léxica por reutilização de dicionários
title_fullStr Desambiguação léxica por reutilização de dicionários
title_full_unstemmed Desambiguação léxica por reutilização de dicionários
title_sort Desambiguação léxica por reutilização de dicionários
author Terceros, Hector Montenegro
author_facet Terceros, Hector Montenegro
author_role author
dc.contributor.none.fl_str_mv Hashimoto, Ronaldo Fumio
dc.contributor.author.fl_str_mv Terceros, Hector Montenegro
dc.subject.por.fl_str_mv Desambiguação léxica
Natural language processing
Processamento de linguagem natural
Word sense disambiguation
topic Desambiguação léxica
Natural language processing
Processamento de linguagem natural
Word sense disambiguation
description Dentro da área de Processamento de Linguagem Natural, um problema central e ainda não resolvido é o de Desambiguação Léxica, que consiste em identificar o sentido exprimido por uma palavra polissêmica. Esse desafio é ainda agravado quando um texto possui mais de uma palavra polissêmica, permitindo várias interpretações do contexto. Nesse caso, uma boa solução é considerar a relação entre os possíveis sentidos das palavras ambíguas, escolhendo a combinação de sentidos com melhor proximidade semântica conjunta. Analisando um texto grande essa formulação rapidamente torna-se intratável computacionalmente pela quantidade de combinações a testar, de forma que adota-se uma heurística para aproximar uma boa solução: um grafo cujos vértices são os possíveis sentidos das palavras a se desambiguar, com arestas refletindo em seus pesos a proximidade semântica de cada par de sentidos. Com esse grafo, um algoritmo de centralidade pode escolher qual o sentido mais central de cada palavra ambígua, o que é equiparado à sua relevância semântica dentre os sentidos e portanto define a resposta do modelo. Outra solução no mesmo cenário, desenvolvida a partir dessa primeira, é escolher um caminho que passe uma única vez por cada palavra e maximize a proximidade semântica, numa variação do Problema do Caixeiro Viajante Generalizado. Embora essa metodologia já tenha trazido resultados interessantes na área, seu desempenho nunca atingiu valores satisfatórios, e um dos motivos para tal é a esparsidade de suas arestas: as medidas de proximidade semântica usadas até hoje não conseguem trazer essa informação para qualquer par de sentidos, e é comum que tragam um valor de proximidade para apenas uma pequena parcela das arestas de um grafo, atrapalhando o mecanismo de priorização ou impedindo que certos caminhos sejam considerados. Propomos então uma nova forma de calcular a proximidade entre pares de sentidos, inspirada na forma com que humanos lêem dicionários e entendem seus conceitos. Se uma definição inclui uma palavra desconhecida, essa é pesquisada no mesmo dicionário. Para tanto, usamos o próprio dicionário para entender as definições ali presentes, num processo que pode ser repetido para chegar a definições mais profundas. Nós nos inspiramos nesse processo para melhorar a representação vetorial de cada sentido pelos sentidos em sua definição, tal que a proximidade entre sentidos diferentes possa ser mais facilmente medida. Esse método é testado em profundidade, reaplicando o dicionário múltiplas vezes, e especificidade, escolhendo o melhor sentido de cada definição a considerar. Com ganhos limitados nos dados de teste, concluímos que esse processo isoladamente não basta para produzir melhor desambiguação, já que o dicionário usado é uma parca representaçao do significado ali expresso, e apontamos a pesquisa futura para métodos menos dependentes do entendimento humano da linguagem.
publishDate 2024
dc.date.none.fl_str_mv 2024-10-22
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45134/tde-19122024-170223/
url https://www.teses.usp.br/teses/disponiveis/45/45134/tde-19122024-170223/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1848370486962028544