Desambiguação léxica por reutilização de dicionários
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/45/45134/tde-19122024-170223/ |
Resumo: | Dentro da área de Processamento de Linguagem Natural, um problema central e ainda não resolvido é o de Desambiguação Léxica, que consiste em identificar o sentido exprimido por uma palavra polissêmica. Esse desafio é ainda agravado quando um texto possui mais de uma palavra polissêmica, permitindo várias interpretações do contexto. Nesse caso, uma boa solução é considerar a relação entre os possíveis sentidos das palavras ambíguas, escolhendo a combinação de sentidos com melhor proximidade semântica conjunta. Analisando um texto grande essa formulação rapidamente torna-se intratável computacionalmente pela quantidade de combinações a testar, de forma que adota-se uma heurística para aproximar uma boa solução: um grafo cujos vértices são os possíveis sentidos das palavras a se desambiguar, com arestas refletindo em seus pesos a proximidade semântica de cada par de sentidos. Com esse grafo, um algoritmo de centralidade pode escolher qual o sentido mais central de cada palavra ambígua, o que é equiparado à sua relevância semântica dentre os sentidos e portanto define a resposta do modelo. Outra solução no mesmo cenário, desenvolvida a partir dessa primeira, é escolher um caminho que passe uma única vez por cada palavra e maximize a proximidade semântica, numa variação do Problema do Caixeiro Viajante Generalizado. Embora essa metodologia já tenha trazido resultados interessantes na área, seu desempenho nunca atingiu valores satisfatórios, e um dos motivos para tal é a esparsidade de suas arestas: as medidas de proximidade semântica usadas até hoje não conseguem trazer essa informação para qualquer par de sentidos, e é comum que tragam um valor de proximidade para apenas uma pequena parcela das arestas de um grafo, atrapalhando o mecanismo de priorização ou impedindo que certos caminhos sejam considerados. Propomos então uma nova forma de calcular a proximidade entre pares de sentidos, inspirada na forma com que humanos lêem dicionários e entendem seus conceitos. Se uma definição inclui uma palavra desconhecida, essa é pesquisada no mesmo dicionário. Para tanto, usamos o próprio dicionário para entender as definições ali presentes, num processo que pode ser repetido para chegar a definições mais profundas. Nós nos inspiramos nesse processo para melhorar a representação vetorial de cada sentido pelos sentidos em sua definição, tal que a proximidade entre sentidos diferentes possa ser mais facilmente medida. Esse método é testado em profundidade, reaplicando o dicionário múltiplas vezes, e especificidade, escolhendo o melhor sentido de cada definição a considerar. Com ganhos limitados nos dados de teste, concluímos que esse processo isoladamente não basta para produzir melhor desambiguação, já que o dicionário usado é uma parca representaçao do significado ali expresso, e apontamos a pesquisa futura para métodos menos dependentes do entendimento humano da linguagem. |
| id |
USP_53c4dc49e56f49a978be24a0afd749a9 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-19122024-170223 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Desambiguação léxica por reutilização de dicionáriosWord sense disambiguation by reapplication of dictionariesDesambiguação léxicaNatural language processingProcessamento de linguagem naturalWord sense disambiguationDentro da área de Processamento de Linguagem Natural, um problema central e ainda não resolvido é o de Desambiguação Léxica, que consiste em identificar o sentido exprimido por uma palavra polissêmica. Esse desafio é ainda agravado quando um texto possui mais de uma palavra polissêmica, permitindo várias interpretações do contexto. Nesse caso, uma boa solução é considerar a relação entre os possíveis sentidos das palavras ambíguas, escolhendo a combinação de sentidos com melhor proximidade semântica conjunta. Analisando um texto grande essa formulação rapidamente torna-se intratável computacionalmente pela quantidade de combinações a testar, de forma que adota-se uma heurística para aproximar uma boa solução: um grafo cujos vértices são os possíveis sentidos das palavras a se desambiguar, com arestas refletindo em seus pesos a proximidade semântica de cada par de sentidos. Com esse grafo, um algoritmo de centralidade pode escolher qual o sentido mais central de cada palavra ambígua, o que é equiparado à sua relevância semântica dentre os sentidos e portanto define a resposta do modelo. Outra solução no mesmo cenário, desenvolvida a partir dessa primeira, é escolher um caminho que passe uma única vez por cada palavra e maximize a proximidade semântica, numa variação do Problema do Caixeiro Viajante Generalizado. Embora essa metodologia já tenha trazido resultados interessantes na área, seu desempenho nunca atingiu valores satisfatórios, e um dos motivos para tal é a esparsidade de suas arestas: as medidas de proximidade semântica usadas até hoje não conseguem trazer essa informação para qualquer par de sentidos, e é comum que tragam um valor de proximidade para apenas uma pequena parcela das arestas de um grafo, atrapalhando o mecanismo de priorização ou impedindo que certos caminhos sejam considerados. Propomos então uma nova forma de calcular a proximidade entre pares de sentidos, inspirada na forma com que humanos lêem dicionários e entendem seus conceitos. Se uma definição inclui uma palavra desconhecida, essa é pesquisada no mesmo dicionário. Para tanto, usamos o próprio dicionário para entender as definições ali presentes, num processo que pode ser repetido para chegar a definições mais profundas. Nós nos inspiramos nesse processo para melhorar a representação vetorial de cada sentido pelos sentidos em sua definição, tal que a proximidade entre sentidos diferentes possa ser mais facilmente medida. Esse método é testado em profundidade, reaplicando o dicionário múltiplas vezes, e especificidade, escolhendo o melhor sentido de cada definição a considerar. Com ganhos limitados nos dados de teste, concluímos que esse processo isoladamente não basta para produzir melhor desambiguação, já que o dicionário usado é uma parca representaçao do significado ali expresso, e apontamos a pesquisa futura para métodos menos dependentes do entendimento humano da linguagem.Within the area of Natural Language Processing, a central and still unresolved problem is Word Sense Disambiguation, which aims to identify the meaning expressed by a polysemic word. This challenge is further aggravated when a text has more than one polysemic word, allowing for multiple interpretations of the context. In this case, a good solution is to consider the relationship between the possible meanings of the ambiguous words, choosing the meanings with the best joint semantic proximity. Analyzing a large text, this approach quickly becomes computationally intractable due to the number of combinations to be tested, so that a heuristic is adopted to approximate a good solution: a graph with vertices as the possible meanings of the words to be disambiguated, and edges reflecting in their weights the semantic proximity of each pair of senses. With this graph, a centrality algorithm can choose which is the most central sense of each ambiguous word, which is equated to its presented semantics among the senses and therefore defines a model answer. Another solution in the same scenario, developed from this first one, is to choose a path that passes only once through each word and maximizes semantic proximity, in a variation of the Generalized Traveling Salesman Problem. Although this methodology has already brought interesting results in the area, its performance has never reached satisfactory values, and one of the reasons for this is the sparseness of its edges: the semantic proximity measures used until today cannot bring this information to any pair of senses, and it is common for them to bring a proximity value to only a small portion of the edges of a graph, disrupting the prioritization mechanism or preventing certain paths from being considered. We then propose a new way to calculate the proximity between pairs of senses, inspired by the way humans read and understand their concepts. If a definition includes an unknown word, it is looked up in the same dictionary. In doing so, we use the dictionary itself to understand the definitions present, in a process that can be repeated to achieve deeper definitions. We take inspiration from this process to enhance the vector representation of each sense by the senses in its definition, so that the relatedness between different senses can more easily be measured. This method is tested for depth, reapplying the dictionary multiple times, and specificity, choosing the best senses from each definition to consider. With limited gains on the test dataset, we conclude that this process alone is not enough to produce better disambiguation accuracy, as the information in the dictionary used is a shallow representation of the meaning expressed, and point to further research in approaches less dependent on human understanding of language.Biblioteca Digitais de Teses e Dissertações da USPHashimoto, Ronaldo FumioTerceros, Hector Montenegro2024-10-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-19122024-170223/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-08-22T19:35:06Zoai:teses.usp.br:tde-19122024-170223Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-08-22T19:35:06Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Desambiguação léxica por reutilização de dicionários Word sense disambiguation by reapplication of dictionaries |
| title |
Desambiguação léxica por reutilização de dicionários |
| spellingShingle |
Desambiguação léxica por reutilização de dicionários Terceros, Hector Montenegro Desambiguação léxica Natural language processing Processamento de linguagem natural Word sense disambiguation |
| title_short |
Desambiguação léxica por reutilização de dicionários |
| title_full |
Desambiguação léxica por reutilização de dicionários |
| title_fullStr |
Desambiguação léxica por reutilização de dicionários |
| title_full_unstemmed |
Desambiguação léxica por reutilização de dicionários |
| title_sort |
Desambiguação léxica por reutilização de dicionários |
| author |
Terceros, Hector Montenegro |
| author_facet |
Terceros, Hector Montenegro |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Hashimoto, Ronaldo Fumio |
| dc.contributor.author.fl_str_mv |
Terceros, Hector Montenegro |
| dc.subject.por.fl_str_mv |
Desambiguação léxica Natural language processing Processamento de linguagem natural Word sense disambiguation |
| topic |
Desambiguação léxica Natural language processing Processamento de linguagem natural Word sense disambiguation |
| description |
Dentro da área de Processamento de Linguagem Natural, um problema central e ainda não resolvido é o de Desambiguação Léxica, que consiste em identificar o sentido exprimido por uma palavra polissêmica. Esse desafio é ainda agravado quando um texto possui mais de uma palavra polissêmica, permitindo várias interpretações do contexto. Nesse caso, uma boa solução é considerar a relação entre os possíveis sentidos das palavras ambíguas, escolhendo a combinação de sentidos com melhor proximidade semântica conjunta. Analisando um texto grande essa formulação rapidamente torna-se intratável computacionalmente pela quantidade de combinações a testar, de forma que adota-se uma heurística para aproximar uma boa solução: um grafo cujos vértices são os possíveis sentidos das palavras a se desambiguar, com arestas refletindo em seus pesos a proximidade semântica de cada par de sentidos. Com esse grafo, um algoritmo de centralidade pode escolher qual o sentido mais central de cada palavra ambígua, o que é equiparado à sua relevância semântica dentre os sentidos e portanto define a resposta do modelo. Outra solução no mesmo cenário, desenvolvida a partir dessa primeira, é escolher um caminho que passe uma única vez por cada palavra e maximize a proximidade semântica, numa variação do Problema do Caixeiro Viajante Generalizado. Embora essa metodologia já tenha trazido resultados interessantes na área, seu desempenho nunca atingiu valores satisfatórios, e um dos motivos para tal é a esparsidade de suas arestas: as medidas de proximidade semântica usadas até hoje não conseguem trazer essa informação para qualquer par de sentidos, e é comum que tragam um valor de proximidade para apenas uma pequena parcela das arestas de um grafo, atrapalhando o mecanismo de priorização ou impedindo que certos caminhos sejam considerados. Propomos então uma nova forma de calcular a proximidade entre pares de sentidos, inspirada na forma com que humanos lêem dicionários e entendem seus conceitos. Se uma definição inclui uma palavra desconhecida, essa é pesquisada no mesmo dicionário. Para tanto, usamos o próprio dicionário para entender as definições ali presentes, num processo que pode ser repetido para chegar a definições mais profundas. Nós nos inspiramos nesse processo para melhorar a representação vetorial de cada sentido pelos sentidos em sua definição, tal que a proximidade entre sentidos diferentes possa ser mais facilmente medida. Esse método é testado em profundidade, reaplicando o dicionário múltiplas vezes, e especificidade, escolhendo o melhor sentido de cada definição a considerar. Com ganhos limitados nos dados de teste, concluímos que esse processo isoladamente não basta para produzir melhor desambiguação, já que o dicionário usado é uma parca representaçao do significado ali expresso, e apontamos a pesquisa futura para métodos menos dependentes do entendimento humano da linguagem. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-10-22 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-19122024-170223/ |
| url |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-19122024-170223/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1848370486962028544 |