Avaliação de representações embeddings para similaridade sentencial no Português
| Ano de defesa: | 2023 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-105741/ |
Resumo: | O mapeamento de texto para representações numéricas que possam ser processadas computacionalmente tornou-se uma etapa essencial no processamento de língua natural (PLN). Mais especificamente, representações vetoriais densas de números reais, conhecidas como embeddings, associadas ao uso de algoritmos de aprendizado de máquina baseados em arquiteturas de redes neurais ganharam notoriedade na última década com resultados significativos na área. Existem diversos métodos para gerar estas representações e uma forma tradicionalmente empregada para testá-los é através da identificação de similaridade semântica textual (STS), tarefa na qual o objetivo é determinar o valor de similaridade entre duas sentenças, dado pela anotação humana dos dados a partir de uma escala pré-determinada. Nos últimos anos, o estabelecimento de modelos com arquitetura baseada em Transformers introduziu uma variedade de modelos de embeddings pré-treinados que tem sido utilizados de forma bem-sucedida no Inglês. Para o Português, versões multilíngues e, em menor grau, específicas para língua, recentemente ampliaram as alternativas a serem exploradas para STS. Existem duas formas de empregar modelos de representações pré-treinadas: embeddings podem servir como entrada fixa em algoritmo preditivos ou o modelo que a gera acoplado de forma interativa como parte do algoritmo, permitindo que as representações sejam atualizadas para um fim específico. Desta forma, o papel das representações no processamento de língua para similaridade não fica bem definido, uma vez que os resultados são fruto do sistema como um todo, representações mais algoritmo preditivo. Neste trabalho, investigamos modelos de representações na tarefa de STS considerando diferentes aspectos, sendo os principais: (i) Avaliamos o impacto da escolha do modelo de representação nos resultados em relação aos hiperparâmetros do algoritmo preditivo. (ii) Partindo da hipótese que diferentes modelos codificam características distintas do texto as quais podem ser complementarmente relevantes, testamos combinações de modelos de representações sentenciais pré-treinadas como forma de melhorar o desempenho na predição similaridade sentencial no Português. (iii) Testamos a capacidade de generalização dos resultados de STS no Português de dois modelos para além do dataset original. Os principais resultados obtidos indicam que (i) a escolha do modelo de representação é determinante para o desempenho na tarefa, levando à diferentes faixas de resultados (ii) o uso de modelos em conjunto em uma arquitetura simples é uma alternativa para melhorar o desempenho na tarefa em relação ao uso de modelos sozinhos. |
| id |
USP_7db32d3c45e86036e25025d528a1f8b8 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-02062023-105741 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Avaliação de representações embeddings para similaridade sentencial no PortuguêsEvaluation of embedding representations for sentential similarity in PortugueseAprendizado de máquinaEmbeddingsEmbeddingsMachine learningPortuguêsPortugueseSentence similaritySimilaridade sentencialSTSSTSO mapeamento de texto para representações numéricas que possam ser processadas computacionalmente tornou-se uma etapa essencial no processamento de língua natural (PLN). Mais especificamente, representações vetoriais densas de números reais, conhecidas como embeddings, associadas ao uso de algoritmos de aprendizado de máquina baseados em arquiteturas de redes neurais ganharam notoriedade na última década com resultados significativos na área. Existem diversos métodos para gerar estas representações e uma forma tradicionalmente empregada para testá-los é através da identificação de similaridade semântica textual (STS), tarefa na qual o objetivo é determinar o valor de similaridade entre duas sentenças, dado pela anotação humana dos dados a partir de uma escala pré-determinada. Nos últimos anos, o estabelecimento de modelos com arquitetura baseada em Transformers introduziu uma variedade de modelos de embeddings pré-treinados que tem sido utilizados de forma bem-sucedida no Inglês. Para o Português, versões multilíngues e, em menor grau, específicas para língua, recentemente ampliaram as alternativas a serem exploradas para STS. Existem duas formas de empregar modelos de representações pré-treinadas: embeddings podem servir como entrada fixa em algoritmo preditivos ou o modelo que a gera acoplado de forma interativa como parte do algoritmo, permitindo que as representações sejam atualizadas para um fim específico. Desta forma, o papel das representações no processamento de língua para similaridade não fica bem definido, uma vez que os resultados são fruto do sistema como um todo, representações mais algoritmo preditivo. Neste trabalho, investigamos modelos de representações na tarefa de STS considerando diferentes aspectos, sendo os principais: (i) Avaliamos o impacto da escolha do modelo de representação nos resultados em relação aos hiperparâmetros do algoritmo preditivo. (ii) Partindo da hipótese que diferentes modelos codificam características distintas do texto as quais podem ser complementarmente relevantes, testamos combinações de modelos de representações sentenciais pré-treinadas como forma de melhorar o desempenho na predição similaridade sentencial no Português. (iii) Testamos a capacidade de generalização dos resultados de STS no Português de dois modelos para além do dataset original. Os principais resultados obtidos indicam que (i) a escolha do modelo de representação é determinante para o desempenho na tarefa, levando à diferentes faixas de resultados (ii) o uso de modelos em conjunto em uma arquitetura simples é uma alternativa para melhorar o desempenho na tarefa em relação ao uso de modelos sozinhos.Mapping text into numerical representations that can be computationally processed has become an essential step in natural language processing (NLP). More specifically, dense vector representations of real numbers, known as embeddings, and associated with machine learning algorithms based on neural network architectures have gained notoriety in the last decade with significant results in the area. There are several methods to generate these representations and a traditional way to test them is through the identification of semantic textual similarity (STS), a task whose objective is to determine the similarity score between two sentences, given by human annotation based on a pre-defined scale. In recent years, the establishment of models based on Transformers introduced a variety of pre-trained embedding models that have been used successfully in English. Concerning Portuguese, multilingual and, to a lesser extent, language specific versions, recently expanded the alternatives to be explored for STS. There are two ways to make use of pre-trained representation models, embeddings can serve as fixed input in predictive algorithms, or the model that generates them being connected as part of the algorithm in an interactive manner, in which representations are tuned for a specific purpose. Since results come from the entire system, representations plus predictive algorithm, the part of representations in language processing for similarity is not well defined. In this work, we investigated representation models in the STS task considering different aspects, mainly: (i) We evaluated the impact of representation models in the results compared with the hyperparameters of the predictive algorithm. (ii) Starting from the hypothesis that different models encode distinct features of the text, and they can be complementarily relevant, we tested combinations of pre-trained sentence representation models as a way to improve the performance of sentence similarity prediction in Portuguese. (iii) We tested the generalizability of STS results in Portuguese of two models in addition to the original dataset. The main results obtained indicate that (i) the choice of the representation model is decisive for the performance in the task, leading to the distinct ranges of results (ii) the use of multiple models combined in a simple architecture is an alternative to improve performance in the task compared to the use of models alone.Biblioteca Digitais de Teses e Dissertações da USPMarcacini, Ricardo MarcondesRodrigues, Ana Carolina2023-03-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-105741/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-06-02T14:02:42Zoai:teses.usp.br:tde-02062023-105741Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-06-02T14:02:42Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Avaliação de representações embeddings para similaridade sentencial no Português Evaluation of embedding representations for sentential similarity in Portuguese |
| title |
Avaliação de representações embeddings para similaridade sentencial no Português |
| spellingShingle |
Avaliação de representações embeddings para similaridade sentencial no Português Rodrigues, Ana Carolina Aprendizado de máquina Embeddings Embeddings Machine learning Português Portuguese Sentence similarity Similaridade sentencial STS STS |
| title_short |
Avaliação de representações embeddings para similaridade sentencial no Português |
| title_full |
Avaliação de representações embeddings para similaridade sentencial no Português |
| title_fullStr |
Avaliação de representações embeddings para similaridade sentencial no Português |
| title_full_unstemmed |
Avaliação de representações embeddings para similaridade sentencial no Português |
| title_sort |
Avaliação de representações embeddings para similaridade sentencial no Português |
| author |
Rodrigues, Ana Carolina |
| author_facet |
Rodrigues, Ana Carolina |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Marcacini, Ricardo Marcondes |
| dc.contributor.author.fl_str_mv |
Rodrigues, Ana Carolina |
| dc.subject.por.fl_str_mv |
Aprendizado de máquina Embeddings Embeddings Machine learning Português Portuguese Sentence similarity Similaridade sentencial STS STS |
| topic |
Aprendizado de máquina Embeddings Embeddings Machine learning Português Portuguese Sentence similarity Similaridade sentencial STS STS |
| description |
O mapeamento de texto para representações numéricas que possam ser processadas computacionalmente tornou-se uma etapa essencial no processamento de língua natural (PLN). Mais especificamente, representações vetoriais densas de números reais, conhecidas como embeddings, associadas ao uso de algoritmos de aprendizado de máquina baseados em arquiteturas de redes neurais ganharam notoriedade na última década com resultados significativos na área. Existem diversos métodos para gerar estas representações e uma forma tradicionalmente empregada para testá-los é através da identificação de similaridade semântica textual (STS), tarefa na qual o objetivo é determinar o valor de similaridade entre duas sentenças, dado pela anotação humana dos dados a partir de uma escala pré-determinada. Nos últimos anos, o estabelecimento de modelos com arquitetura baseada em Transformers introduziu uma variedade de modelos de embeddings pré-treinados que tem sido utilizados de forma bem-sucedida no Inglês. Para o Português, versões multilíngues e, em menor grau, específicas para língua, recentemente ampliaram as alternativas a serem exploradas para STS. Existem duas formas de empregar modelos de representações pré-treinadas: embeddings podem servir como entrada fixa em algoritmo preditivos ou o modelo que a gera acoplado de forma interativa como parte do algoritmo, permitindo que as representações sejam atualizadas para um fim específico. Desta forma, o papel das representações no processamento de língua para similaridade não fica bem definido, uma vez que os resultados são fruto do sistema como um todo, representações mais algoritmo preditivo. Neste trabalho, investigamos modelos de representações na tarefa de STS considerando diferentes aspectos, sendo os principais: (i) Avaliamos o impacto da escolha do modelo de representação nos resultados em relação aos hiperparâmetros do algoritmo preditivo. (ii) Partindo da hipótese que diferentes modelos codificam características distintas do texto as quais podem ser complementarmente relevantes, testamos combinações de modelos de representações sentenciais pré-treinadas como forma de melhorar o desempenho na predição similaridade sentencial no Português. (iii) Testamos a capacidade de generalização dos resultados de STS no Português de dois modelos para além do dataset original. Os principais resultados obtidos indicam que (i) a escolha do modelo de representação é determinante para o desempenho na tarefa, levando à diferentes faixas de resultados (ii) o uso de modelos em conjunto em uma arquitetura simples é uma alternativa para melhorar o desempenho na tarefa em relação ao uso de modelos sozinhos. |
| publishDate |
2023 |
| dc.date.none.fl_str_mv |
2023-03-02 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-105741/ |
| url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-105741/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1815257810947014656 |