Producing synthetic instances for textual classification and natural language inference
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Link de acesso: | http://hdl.handle.net/10183/287546 |
Resumo: | A tarefa de Inferência de Linguagem Natural (NLI) é um tipo especial de classificação de textos focada na dedução – um modelo é apresentado a um par de sentenças (premissa e hipótese) e classifica a relação entre os seus significados. Treinar modelos com conjuntos de dados para NLI é fundamental para sistemas semânticos. Além disso, conjuntos de dados de NLI são usados para treinar modelos de sentence-transformers (ST), que usam redes Siamesas para aprender a relação entre o par de sentenças, gerando boas representações (embeddings) em um espaço onde sentenças semelhantes ficam próximas. As embeddings de sentenças podem ser usadas como recursos para treinar outros modelos em tarefas como clustering e classificação. Os recursos existentes para NLI em português são limitados. Criar ou ampliar conjuntos de dados manualmente é custoso e requer conhecimento especializado. O aumento de dados (DA) oferece alternativas para superar essa limitação. DA é o primeiro passo para o desenvolvimento de instâncias sintéticas, e a geração de texto pode ser usada como um método de DA, especialmente ao utilizar o poder dos recentes grandes modelos de linguagens (LLM). Este trabalho se concentra na produção de um conjunto sintético de dados para NLI e na sua utilização para treinar modelos ST para gerar embeddings em português, empregando DA como primeiro passo para avaliar o comportamento da geração de texto. Com o objetivo de suprir a falta de recursos em português, esta tese apresenta o InferBR, um conjunto de dados sintéticos para NLI produzido empregando um processo majoritariamente automático. O InferBR foi utilizado para treinar modelos ST especializados em gerar embeddings em português, que apresentaram melhor desempenho que os modelos multilíngues existentes nas tarefas de clustering, classificação e similaridade semântica. |
| id |
URGS_bd33f95bb7a6d837707a15860ba591bf |
|---|---|
| oai_identifier_str |
oai:www.lume.ufrgs.br:10183/287546 |
| network_acronym_str |
URGS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| repository_id_str |
|
| spelling |
Bencke, Luciana ReginaMoreira, Viviane Pereira2025-02-22T06:46:33Z2024http://hdl.handle.net/10183/287546001200976A tarefa de Inferência de Linguagem Natural (NLI) é um tipo especial de classificação de textos focada na dedução – um modelo é apresentado a um par de sentenças (premissa e hipótese) e classifica a relação entre os seus significados. Treinar modelos com conjuntos de dados para NLI é fundamental para sistemas semânticos. Além disso, conjuntos de dados de NLI são usados para treinar modelos de sentence-transformers (ST), que usam redes Siamesas para aprender a relação entre o par de sentenças, gerando boas representações (embeddings) em um espaço onde sentenças semelhantes ficam próximas. As embeddings de sentenças podem ser usadas como recursos para treinar outros modelos em tarefas como clustering e classificação. Os recursos existentes para NLI em português são limitados. Criar ou ampliar conjuntos de dados manualmente é custoso e requer conhecimento especializado. O aumento de dados (DA) oferece alternativas para superar essa limitação. DA é o primeiro passo para o desenvolvimento de instâncias sintéticas, e a geração de texto pode ser usada como um método de DA, especialmente ao utilizar o poder dos recentes grandes modelos de linguagens (LLM). Este trabalho se concentra na produção de um conjunto sintético de dados para NLI e na sua utilização para treinar modelos ST para gerar embeddings em português, empregando DA como primeiro passo para avaliar o comportamento da geração de texto. Com o objetivo de suprir a falta de recursos em português, esta tese apresenta o InferBR, um conjunto de dados sintéticos para NLI produzido empregando um processo majoritariamente automático. O InferBR foi utilizado para treinar modelos ST especializados em gerar embeddings em português, que apresentaram melhor desempenho que os modelos multilíngues existentes nas tarefas de clustering, classificação e similaridade semântica.Natural Language Inference (NLI) is a special type of text classification focused on deduction – a model is presented to a pair of sentences (premise and hypothesis) and classifies the relationship between their meanings. Training models with NLI datasets is key for semantic systems. NLI datasets are also used to train sentence-transformer (ST) models, which use Siamese networks to learn the relationship between the pair of sentences, generating good representations in an embedding space where similar sentences are placed close together. The sentence embeddings can be used as features to train other models for tasks such as clustering and classification. Existing NLI resources in Portuguese are limited. Creating or extending datasets manually is expensive and requires specialized knowledge. Data augmentation (DA) offers alternatives to overcome this issue. DA is the first step towards developing synthetic instances, and text generation can be used as a DA method, especially when utilizing the power of recent large language models (LLM). This work focuses on producing a synthetic NLI dataset and using it to train ST models for Portuguese embeddings, employing DA as the first step to evaluate the behavior of text generation. Aiming to cover the lack of resources in Portuguese, this thesis introduces InferBR, a synthetic NLI dataset produced using a mostly automatic process. InferBR was used to train ST models specialized in generating Portuguese embeddings, which presented better performance than the existing multilingual models in clustering, classification, and semantic similarity.application/pdfengInferência de linguagem naturalDados sintéticosProcessamento de linguagem naturalSemântica computacionalLinguística computacionalEntailment recognitionText generationData augmentationText classificationProducing synthetic instances for textual classification and natural language inferenceProduzindo instâncias sintéticas para classificação textual e inferência de linguagem natural info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2024doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001200976.pdf.txt001200976.pdf.txtExtracted Texttext/plain242214http://www.lume.ufrgs.br/bitstream/10183/287546/2/001200976.pdf.txt4a80f27c5b67a36bfdd83021bed68bd2MD52ORIGINAL001200976.pdfTexto completo (inglês)application/pdf1647931http://www.lume.ufrgs.br/bitstream/10183/287546/1/001200976.pdfccba0be84deeb840ee1d432a2079e612MD5110183/2875462025-02-23 06:39:19.487535oai:www.lume.ufrgs.br:10183/287546Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532025-02-23T09:39:19Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
| dc.title.pt_BR.fl_str_mv |
Producing synthetic instances for textual classification and natural language inference |
| dc.title.alternative.pt.fl_str_mv |
Produzindo instâncias sintéticas para classificação textual e inferência de linguagem natural |
| title |
Producing synthetic instances for textual classification and natural language inference |
| spellingShingle |
Producing synthetic instances for textual classification and natural language inference Bencke, Luciana Regina Inferência de linguagem natural Dados sintéticos Processamento de linguagem natural Semântica computacional Linguística computacional Entailment recognition Text generation Data augmentation Text classification |
| title_short |
Producing synthetic instances for textual classification and natural language inference |
| title_full |
Producing synthetic instances for textual classification and natural language inference |
| title_fullStr |
Producing synthetic instances for textual classification and natural language inference |
| title_full_unstemmed |
Producing synthetic instances for textual classification and natural language inference |
| title_sort |
Producing synthetic instances for textual classification and natural language inference |
| author |
Bencke, Luciana Regina |
| author_facet |
Bencke, Luciana Regina |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Bencke, Luciana Regina |
| dc.contributor.advisor1.fl_str_mv |
Moreira, Viviane Pereira |
| contributor_str_mv |
Moreira, Viviane Pereira |
| dc.subject.por.fl_str_mv |
Inferência de linguagem natural Dados sintéticos Processamento de linguagem natural Semântica computacional Linguística computacional |
| topic |
Inferência de linguagem natural Dados sintéticos Processamento de linguagem natural Semântica computacional Linguística computacional Entailment recognition Text generation Data augmentation Text classification |
| dc.subject.eng.fl_str_mv |
Entailment recognition Text generation Data augmentation Text classification |
| description |
A tarefa de Inferência de Linguagem Natural (NLI) é um tipo especial de classificação de textos focada na dedução – um modelo é apresentado a um par de sentenças (premissa e hipótese) e classifica a relação entre os seus significados. Treinar modelos com conjuntos de dados para NLI é fundamental para sistemas semânticos. Além disso, conjuntos de dados de NLI são usados para treinar modelos de sentence-transformers (ST), que usam redes Siamesas para aprender a relação entre o par de sentenças, gerando boas representações (embeddings) em um espaço onde sentenças semelhantes ficam próximas. As embeddings de sentenças podem ser usadas como recursos para treinar outros modelos em tarefas como clustering e classificação. Os recursos existentes para NLI em português são limitados. Criar ou ampliar conjuntos de dados manualmente é custoso e requer conhecimento especializado. O aumento de dados (DA) oferece alternativas para superar essa limitação. DA é o primeiro passo para o desenvolvimento de instâncias sintéticas, e a geração de texto pode ser usada como um método de DA, especialmente ao utilizar o poder dos recentes grandes modelos de linguagens (LLM). Este trabalho se concentra na produção de um conjunto sintético de dados para NLI e na sua utilização para treinar modelos ST para gerar embeddings em português, empregando DA como primeiro passo para avaliar o comportamento da geração de texto. Com o objetivo de suprir a falta de recursos em português, esta tese apresenta o InferBR, um conjunto de dados sintéticos para NLI produzido empregando um processo majoritariamente automático. O InferBR foi utilizado para treinar modelos ST especializados em gerar embeddings em português, que apresentaram melhor desempenho que os modelos multilíngues existentes nas tarefas de clustering, classificação e similaridade semântica. |
| publishDate |
2024 |
| dc.date.issued.fl_str_mv |
2024 |
| dc.date.accessioned.fl_str_mv |
2025-02-22T06:46:33Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/287546 |
| dc.identifier.nrb.pt_BR.fl_str_mv |
001200976 |
| url |
http://hdl.handle.net/10183/287546 |
| identifier_str_mv |
001200976 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
| instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
| instacron_str |
UFRGS |
| institution |
UFRGS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/287546/2/001200976.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/287546/1/001200976.pdf |
| bitstream.checksum.fl_str_mv |
4a80f27c5b67a36bfdd83021bed68bd2 ccba0be84deeb840ee1d432a2079e612 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
| repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
| _version_ |
1831316195057336320 |