Avaliação de representações embeddings para similaridade sentencial no Português

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Rodrigues, Ana Carolina
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
STS
Link de acesso: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-105741/
Resumo: O mapeamento de texto para representações numéricas que possam ser processadas computacionalmente tornou-se uma etapa essencial no processamento de língua natural (PLN). Mais especificamente, representações vetoriais densas de números reais, conhecidas como embeddings, associadas ao uso de algoritmos de aprendizado de máquina baseados em arquiteturas de redes neurais ganharam notoriedade na última década com resultados significativos na área. Existem diversos métodos para gerar estas representações e uma forma tradicionalmente empregada para testá-los é através da identificação de similaridade semântica textual (STS), tarefa na qual o objetivo é determinar o valor de similaridade entre duas sentenças, dado pela anotação humana dos dados a partir de uma escala pré-determinada. Nos últimos anos, o estabelecimento de modelos com arquitetura baseada em Transformers introduziu uma variedade de modelos de embeddings pré-treinados que tem sido utilizados de forma bem-sucedida no Inglês. Para o Português, versões multilíngues e, em menor grau, específicas para língua, recentemente ampliaram as alternativas a serem exploradas para STS. Existem duas formas de empregar modelos de representações pré-treinadas: embeddings podem servir como entrada fixa em algoritmo preditivos ou o modelo que a gera acoplado de forma interativa como parte do algoritmo, permitindo que as representações sejam atualizadas para um fim específico. Desta forma, o papel das representações no processamento de língua para similaridade não fica bem definido, uma vez que os resultados são fruto do sistema como um todo, representações mais algoritmo preditivo. Neste trabalho, investigamos modelos de representações na tarefa de STS considerando diferentes aspectos, sendo os principais: (i) Avaliamos o impacto da escolha do modelo de representação nos resultados em relação aos hiperparâmetros do algoritmo preditivo. (ii) Partindo da hipótese que diferentes modelos codificam características distintas do texto as quais podem ser complementarmente relevantes, testamos combinações de modelos de representações sentenciais pré-treinadas como forma de melhorar o desempenho na predição similaridade sentencial no Português. (iii) Testamos a capacidade de generalização dos resultados de STS no Português de dois modelos para além do dataset original. Os principais resultados obtidos indicam que (i) a escolha do modelo de representação é determinante para o desempenho na tarefa, levando à diferentes faixas de resultados (ii) o uso de modelos em conjunto em uma arquitetura simples é uma alternativa para melhorar o desempenho na tarefa em relação ao uso de modelos sozinhos.
id USP_7db32d3c45e86036e25025d528a1f8b8
oai_identifier_str oai:teses.usp.br:tde-02062023-105741
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Avaliação de representações embeddings para similaridade sentencial no PortuguêsEvaluation of embedding representations for sentential similarity in PortugueseAprendizado de máquinaEmbeddingsEmbeddingsMachine learningPortuguêsPortugueseSentence similaritySimilaridade sentencialSTSSTSO mapeamento de texto para representações numéricas que possam ser processadas computacionalmente tornou-se uma etapa essencial no processamento de língua natural (PLN). Mais especificamente, representações vetoriais densas de números reais, conhecidas como embeddings, associadas ao uso de algoritmos de aprendizado de máquina baseados em arquiteturas de redes neurais ganharam notoriedade na última década com resultados significativos na área. Existem diversos métodos para gerar estas representações e uma forma tradicionalmente empregada para testá-los é através da identificação de similaridade semântica textual (STS), tarefa na qual o objetivo é determinar o valor de similaridade entre duas sentenças, dado pela anotação humana dos dados a partir de uma escala pré-determinada. Nos últimos anos, o estabelecimento de modelos com arquitetura baseada em Transformers introduziu uma variedade de modelos de embeddings pré-treinados que tem sido utilizados de forma bem-sucedida no Inglês. Para o Português, versões multilíngues e, em menor grau, específicas para língua, recentemente ampliaram as alternativas a serem exploradas para STS. Existem duas formas de empregar modelos de representações pré-treinadas: embeddings podem servir como entrada fixa em algoritmo preditivos ou o modelo que a gera acoplado de forma interativa como parte do algoritmo, permitindo que as representações sejam atualizadas para um fim específico. Desta forma, o papel das representações no processamento de língua para similaridade não fica bem definido, uma vez que os resultados são fruto do sistema como um todo, representações mais algoritmo preditivo. Neste trabalho, investigamos modelos de representações na tarefa de STS considerando diferentes aspectos, sendo os principais: (i) Avaliamos o impacto da escolha do modelo de representação nos resultados em relação aos hiperparâmetros do algoritmo preditivo. (ii) Partindo da hipótese que diferentes modelos codificam características distintas do texto as quais podem ser complementarmente relevantes, testamos combinações de modelos de representações sentenciais pré-treinadas como forma de melhorar o desempenho na predição similaridade sentencial no Português. (iii) Testamos a capacidade de generalização dos resultados de STS no Português de dois modelos para além do dataset original. Os principais resultados obtidos indicam que (i) a escolha do modelo de representação é determinante para o desempenho na tarefa, levando à diferentes faixas de resultados (ii) o uso de modelos em conjunto em uma arquitetura simples é uma alternativa para melhorar o desempenho na tarefa em relação ao uso de modelos sozinhos.Mapping text into numerical representations that can be computationally processed has become an essential step in natural language processing (NLP). More specifically, dense vector representations of real numbers, known as embeddings, and associated with machine learning algorithms based on neural network architectures have gained notoriety in the last decade with significant results in the area. There are several methods to generate these representations and a traditional way to test them is through the identification of semantic textual similarity (STS), a task whose objective is to determine the similarity score between two sentences, given by human annotation based on a pre-defined scale. In recent years, the establishment of models based on Transformers introduced a variety of pre-trained embedding models that have been used successfully in English. Concerning Portuguese, multilingual and, to a lesser extent, language specific versions, recently expanded the alternatives to be explored for STS. There are two ways to make use of pre-trained representation models, embeddings can serve as fixed input in predictive algorithms, or the model that generates them being connected as part of the algorithm in an interactive manner, in which representations are tuned for a specific purpose. Since results come from the entire system, representations plus predictive algorithm, the part of representations in language processing for similarity is not well defined. In this work, we investigated representation models in the STS task considering different aspects, mainly: (i) We evaluated the impact of representation models in the results compared with the hyperparameters of the predictive algorithm. (ii) Starting from the hypothesis that different models encode distinct features of the text, and they can be complementarily relevant, we tested combinations of pre-trained sentence representation models as a way to improve the performance of sentence similarity prediction in Portuguese. (iii) We tested the generalizability of STS results in Portuguese of two models in addition to the original dataset. The main results obtained indicate that (i) the choice of the representation model is decisive for the performance in the task, leading to the distinct ranges of results (ii) the use of multiple models combined in a simple architecture is an alternative to improve performance in the task compared to the use of models alone.Biblioteca Digitais de Teses e Dissertações da USPMarcacini, Ricardo MarcondesRodrigues, Ana Carolina2023-03-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-105741/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-06-02T14:02:42Zoai:teses.usp.br:tde-02062023-105741Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-06-02T14:02:42Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Avaliação de representações embeddings para similaridade sentencial no Português
Evaluation of embedding representations for sentential similarity in Portuguese
title Avaliação de representações embeddings para similaridade sentencial no Português
spellingShingle Avaliação de representações embeddings para similaridade sentencial no Português
Rodrigues, Ana Carolina
Aprendizado de máquina
Embeddings
Embeddings
Machine learning
Português
Portuguese
Sentence similarity
Similaridade sentencial
STS
STS
title_short Avaliação de representações embeddings para similaridade sentencial no Português
title_full Avaliação de representações embeddings para similaridade sentencial no Português
title_fullStr Avaliação de representações embeddings para similaridade sentencial no Português
title_full_unstemmed Avaliação de representações embeddings para similaridade sentencial no Português
title_sort Avaliação de representações embeddings para similaridade sentencial no Português
author Rodrigues, Ana Carolina
author_facet Rodrigues, Ana Carolina
author_role author
dc.contributor.none.fl_str_mv Marcacini, Ricardo Marcondes
dc.contributor.author.fl_str_mv Rodrigues, Ana Carolina
dc.subject.por.fl_str_mv Aprendizado de máquina
Embeddings
Embeddings
Machine learning
Português
Portuguese
Sentence similarity
Similaridade sentencial
STS
STS
topic Aprendizado de máquina
Embeddings
Embeddings
Machine learning
Português
Portuguese
Sentence similarity
Similaridade sentencial
STS
STS
description O mapeamento de texto para representações numéricas que possam ser processadas computacionalmente tornou-se uma etapa essencial no processamento de língua natural (PLN). Mais especificamente, representações vetoriais densas de números reais, conhecidas como embeddings, associadas ao uso de algoritmos de aprendizado de máquina baseados em arquiteturas de redes neurais ganharam notoriedade na última década com resultados significativos na área. Existem diversos métodos para gerar estas representações e uma forma tradicionalmente empregada para testá-los é através da identificação de similaridade semântica textual (STS), tarefa na qual o objetivo é determinar o valor de similaridade entre duas sentenças, dado pela anotação humana dos dados a partir de uma escala pré-determinada. Nos últimos anos, o estabelecimento de modelos com arquitetura baseada em Transformers introduziu uma variedade de modelos de embeddings pré-treinados que tem sido utilizados de forma bem-sucedida no Inglês. Para o Português, versões multilíngues e, em menor grau, específicas para língua, recentemente ampliaram as alternativas a serem exploradas para STS. Existem duas formas de empregar modelos de representações pré-treinadas: embeddings podem servir como entrada fixa em algoritmo preditivos ou o modelo que a gera acoplado de forma interativa como parte do algoritmo, permitindo que as representações sejam atualizadas para um fim específico. Desta forma, o papel das representações no processamento de língua para similaridade não fica bem definido, uma vez que os resultados são fruto do sistema como um todo, representações mais algoritmo preditivo. Neste trabalho, investigamos modelos de representações na tarefa de STS considerando diferentes aspectos, sendo os principais: (i) Avaliamos o impacto da escolha do modelo de representação nos resultados em relação aos hiperparâmetros do algoritmo preditivo. (ii) Partindo da hipótese que diferentes modelos codificam características distintas do texto as quais podem ser complementarmente relevantes, testamos combinações de modelos de representações sentenciais pré-treinadas como forma de melhorar o desempenho na predição similaridade sentencial no Português. (iii) Testamos a capacidade de generalização dos resultados de STS no Português de dois modelos para além do dataset original. Os principais resultados obtidos indicam que (i) a escolha do modelo de representação é determinante para o desempenho na tarefa, levando à diferentes faixas de resultados (ii) o uso de modelos em conjunto em uma arquitetura simples é uma alternativa para melhorar o desempenho na tarefa em relação ao uso de modelos sozinhos.
publishDate 2023
dc.date.none.fl_str_mv 2023-03-02
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-105741/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-105741/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257810947014656