Producing synthetic instances for textual classification and natural language inference

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Bencke, Luciana Regina
Orientador(a): Moreira, Viviane Pereira
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/287546
Resumo: A tarefa de Inferência de Linguagem Natural (NLI) é um tipo especial de classificação de textos focada na dedução – um modelo é apresentado a um par de sentenças (premissa e hipótese) e classifica a relação entre os seus significados. Treinar modelos com conjuntos de dados para NLI é fundamental para sistemas semânticos. Além disso, conjuntos de dados de NLI são usados para treinar modelos de sentence-transformers (ST), que usam redes Siamesas para aprender a relação entre o par de sentenças, gerando boas representações (embeddings) em um espaço onde sentenças semelhantes ficam próximas. As embeddings de sentenças podem ser usadas como recursos para treinar outros modelos em tarefas como clustering e classificação. Os recursos existentes para NLI em português são limitados. Criar ou ampliar conjuntos de dados manualmente é custoso e requer conhecimento especializado. O aumento de dados (DA) oferece alternativas para superar essa limitação. DA é o primeiro passo para o desenvolvimento de instâncias sintéticas, e a geração de texto pode ser usada como um método de DA, especialmente ao utilizar o poder dos recentes grandes modelos de linguagens (LLM). Este trabalho se concentra na produção de um conjunto sintético de dados para NLI e na sua utilização para treinar modelos ST para gerar embeddings em português, empregando DA como primeiro passo para avaliar o comportamento da geração de texto. Com o objetivo de suprir a falta de recursos em português, esta tese apresenta o InferBR, um conjunto de dados sintéticos para NLI produzido empregando um processo majoritariamente automático. O InferBR foi utilizado para treinar modelos ST especializados em gerar embeddings em português, que apresentaram melhor desempenho que os modelos multilíngues existentes nas tarefas de clustering, classificação e similaridade semântica.
id URGS_bd33f95bb7a6d837707a15860ba591bf
oai_identifier_str oai:www.lume.ufrgs.br:10183/287546
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Bencke, Luciana ReginaMoreira, Viviane Pereira2025-02-22T06:46:33Z2024http://hdl.handle.net/10183/287546001200976A tarefa de Inferência de Linguagem Natural (NLI) é um tipo especial de classificação de textos focada na dedução – um modelo é apresentado a um par de sentenças (premissa e hipótese) e classifica a relação entre os seus significados. Treinar modelos com conjuntos de dados para NLI é fundamental para sistemas semânticos. Além disso, conjuntos de dados de NLI são usados para treinar modelos de sentence-transformers (ST), que usam redes Siamesas para aprender a relação entre o par de sentenças, gerando boas representações (embeddings) em um espaço onde sentenças semelhantes ficam próximas. As embeddings de sentenças podem ser usadas como recursos para treinar outros modelos em tarefas como clustering e classificação. Os recursos existentes para NLI em português são limitados. Criar ou ampliar conjuntos de dados manualmente é custoso e requer conhecimento especializado. O aumento de dados (DA) oferece alternativas para superar essa limitação. DA é o primeiro passo para o desenvolvimento de instâncias sintéticas, e a geração de texto pode ser usada como um método de DA, especialmente ao utilizar o poder dos recentes grandes modelos de linguagens (LLM). Este trabalho se concentra na produção de um conjunto sintético de dados para NLI e na sua utilização para treinar modelos ST para gerar embeddings em português, empregando DA como primeiro passo para avaliar o comportamento da geração de texto. Com o objetivo de suprir a falta de recursos em português, esta tese apresenta o InferBR, um conjunto de dados sintéticos para NLI produzido empregando um processo majoritariamente automático. O InferBR foi utilizado para treinar modelos ST especializados em gerar embeddings em português, que apresentaram melhor desempenho que os modelos multilíngues existentes nas tarefas de clustering, classificação e similaridade semântica.Natural Language Inference (NLI) is a special type of text classification focused on deduction – a model is presented to a pair of sentences (premise and hypothesis) and classifies the relationship between their meanings. Training models with NLI datasets is key for semantic systems. NLI datasets are also used to train sentence-transformer (ST) models, which use Siamese networks to learn the relationship between the pair of sentences, generating good representations in an embedding space where similar sentences are placed close together. The sentence embeddings can be used as features to train other models for tasks such as clustering and classification. Existing NLI resources in Portuguese are limited. Creating or extending datasets manually is expensive and requires specialized knowledge. Data augmentation (DA) offers alternatives to overcome this issue. DA is the first step towards developing synthetic instances, and text generation can be used as a DA method, especially when utilizing the power of recent large language models (LLM). This work focuses on producing a synthetic NLI dataset and using it to train ST models for Portuguese embeddings, employing DA as the first step to evaluate the behavior of text generation. Aiming to cover the lack of resources in Portuguese, this thesis introduces InferBR, a synthetic NLI dataset produced using a mostly automatic process. InferBR was used to train ST models specialized in generating Portuguese embeddings, which presented better performance than the existing multilingual models in clustering, classification, and semantic similarity.application/pdfengInferência de linguagem naturalDados sintéticosProcessamento de linguagem naturalSemântica computacionalLinguística computacionalEntailment recognitionText generationData augmentationText classificationProducing synthetic instances for textual classification and natural language inferenceProduzindo instâncias sintéticas para classificação textual e inferência de linguagem natural info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2024doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001200976.pdf.txt001200976.pdf.txtExtracted Texttext/plain242214http://www.lume.ufrgs.br/bitstream/10183/287546/2/001200976.pdf.txt4a80f27c5b67a36bfdd83021bed68bd2MD52ORIGINAL001200976.pdfTexto completo (inglês)application/pdf1647931http://www.lume.ufrgs.br/bitstream/10183/287546/1/001200976.pdfccba0be84deeb840ee1d432a2079e612MD5110183/2875462025-02-23 06:39:19.487535oai:www.lume.ufrgs.br:10183/287546Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532025-02-23T09:39:19Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Producing synthetic instances for textual classification and natural language inference
dc.title.alternative.pt.fl_str_mv Produzindo instâncias sintéticas para classificação textual e inferência de linguagem natural
title Producing synthetic instances for textual classification and natural language inference
spellingShingle Producing synthetic instances for textual classification and natural language inference
Bencke, Luciana Regina
Inferência de linguagem natural
Dados sintéticos
Processamento de linguagem natural
Semântica computacional
Linguística computacional
Entailment recognition
Text generation
Data augmentation
Text classification
title_short Producing synthetic instances for textual classification and natural language inference
title_full Producing synthetic instances for textual classification and natural language inference
title_fullStr Producing synthetic instances for textual classification and natural language inference
title_full_unstemmed Producing synthetic instances for textual classification and natural language inference
title_sort Producing synthetic instances for textual classification and natural language inference
author Bencke, Luciana Regina
author_facet Bencke, Luciana Regina
author_role author
dc.contributor.author.fl_str_mv Bencke, Luciana Regina
dc.contributor.advisor1.fl_str_mv Moreira, Viviane Pereira
contributor_str_mv Moreira, Viviane Pereira
dc.subject.por.fl_str_mv Inferência de linguagem natural
Dados sintéticos
Processamento de linguagem natural
Semântica computacional
Linguística computacional
topic Inferência de linguagem natural
Dados sintéticos
Processamento de linguagem natural
Semântica computacional
Linguística computacional
Entailment recognition
Text generation
Data augmentation
Text classification
dc.subject.eng.fl_str_mv Entailment recognition
Text generation
Data augmentation
Text classification
description A tarefa de Inferência de Linguagem Natural (NLI) é um tipo especial de classificação de textos focada na dedução – um modelo é apresentado a um par de sentenças (premissa e hipótese) e classifica a relação entre os seus significados. Treinar modelos com conjuntos de dados para NLI é fundamental para sistemas semânticos. Além disso, conjuntos de dados de NLI são usados para treinar modelos de sentence-transformers (ST), que usam redes Siamesas para aprender a relação entre o par de sentenças, gerando boas representações (embeddings) em um espaço onde sentenças semelhantes ficam próximas. As embeddings de sentenças podem ser usadas como recursos para treinar outros modelos em tarefas como clustering e classificação. Os recursos existentes para NLI em português são limitados. Criar ou ampliar conjuntos de dados manualmente é custoso e requer conhecimento especializado. O aumento de dados (DA) oferece alternativas para superar essa limitação. DA é o primeiro passo para o desenvolvimento de instâncias sintéticas, e a geração de texto pode ser usada como um método de DA, especialmente ao utilizar o poder dos recentes grandes modelos de linguagens (LLM). Este trabalho se concentra na produção de um conjunto sintético de dados para NLI e na sua utilização para treinar modelos ST para gerar embeddings em português, empregando DA como primeiro passo para avaliar o comportamento da geração de texto. Com o objetivo de suprir a falta de recursos em português, esta tese apresenta o InferBR, um conjunto de dados sintéticos para NLI produzido empregando um processo majoritariamente automático. O InferBR foi utilizado para treinar modelos ST especializados em gerar embeddings em português, que apresentaram melhor desempenho que os modelos multilíngues existentes nas tarefas de clustering, classificação e similaridade semântica.
publishDate 2024
dc.date.issued.fl_str_mv 2024
dc.date.accessioned.fl_str_mv 2025-02-22T06:46:33Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/287546
dc.identifier.nrb.pt_BR.fl_str_mv 001200976
url http://hdl.handle.net/10183/287546
identifier_str_mv 001200976
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/287546/2/001200976.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/287546/1/001200976.pdf
bitstream.checksum.fl_str_mv 4a80f27c5b67a36bfdd83021bed68bd2
ccba0be84deeb840ee1d432a2079e612
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1831316195057336320