Métodos computacionais para detecção de incoerências em textos curtos

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Braz Júnior, Osmar de Oliveira
Orientador(a): Fileto, Renato
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Link de acesso: https://repositorio.ufsc.br/handle/123456789/265490
Resumo: Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025.
id UFSC_f443c4e3b07e9c8c0b36e9185106881e
oai_identifier_str oai:repositorio.ufsc.br:123456789/265490
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str
spelling Universidade Federal de Santa CatarinaBraz Júnior, Osmar de OliveiraFileto, Renato2025-06-03T23:28:31Z2025-06-03T23:28:31Z2025392068https://repositorio.ufsc.br/handle/123456789/265490Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025.Incoerências ocasionam dificuldades na interpretação de discursos, comprometendo o desempenho de agentes conversacionais, tutores inteligentes, sistemas de Question Answering (QA) e até humanos em diálogos. Detectar e corrigir automaticamente palavras que causam incoerência semântica é um desafio, pois textos corretos ortográfica e gramaticalmente podem carecer de consistência. Embora existam diversos modelos para medir a coerência semântica, muitos se limitam a distinguir documentos originais de versões com sentenças permutadas aleatoriamente. Tais modelos têm limitações: não funcionam bem com textos curtos, não detectam incoerências semânticas, nem oferecem correções automáticas. Este trabalho investiga o uso de modelos de linguagem para identificar e tratar incoerências semânticas em textos curtos. Inicialmente, foi desenvolvido o CoheBERT (Coherence BERT) para avaliar um classificador BERT que distingue documentos originais daqueles com sentenças permutadas e medidas de (in)coerência calculadas a partir da (dis)similaridade dos embeddings de sentenças adjacentes. Posteriormente, reduzindo a granularidade, desenvolvemos o framework COHEWL (COHErence at Word Level) para analisar a coerência de palavras em textos curtos. Suas funcionalidades incluem a geração de dados contrastivos, substituindo palavras por outras sugeridas por humanos ou previstas pelo BERT Masked Language Model. Por fim, avaliamos o BERT e grandes modelos de linguagem (Large Language Models - LLMs) generativos no COHEWL para classificar e medir a coerência semântica, além de detectar e corrigir incoerências. Os experimentos utilizaram conjuntos de dados em português e inglês, incluindo CSTNews, SQuAD 2.0, FaQuAD, OnlineEduc 1.0 e CohQuAD, sendo os dois últimos montados neste doutorado. O classificador CoheBERT, baseado no BERT, obteve acurácia de até 99,20% na detecção de sentenças permutadas em textos jornalísticos e de um fórum de dúvidas de um ambiente virtual de aprendizagem. Já no COHEWL, o BERT alcançou 80% a 99,88% de acurácia na detecção de perguntas curtas típicas de QA com uma palavra alterada. Os LLMs como LLaMA, GPT, Gemini e Sabiá-3 superaram o BERT na classificação da coerência semântica em nosso corpus de perguntas curtas sobre estruturas de dados. LLMs também geraram medidas de coerência semântica de palavras mais alinhadas à percepção humana de coerência do que as derivadas de embeddings do BERT e foram capazes de corrigir palavras incoerentes com muito melhor desempenho.Abstract: Inconsistencies can lead to difficulties in interpreting discourse, compromising the performance of conversational agents, intelligent tutors, QA systems, and even humans in dialogue. Automatically detecting and correcting words that cause semantic incoherence is a challenge, as orthographically and grammatically correct texts may still lack consistency. Although several models exist for assessing textual coherence, many are limited to distinguishing original documents from versions with randomly permuted sentences. These models have limitations: they do not perform well with short texts, fail to detect semantic incoherence, and do not provide automatic corrections. This work investigates the use of language models to identify and handle semantic inconsistencies in short texts. Initially, we developed CoheBERT (Coherence BERT) to evaluate a BERT-based classifier that distinguishes original documents from those with permuted sentences, and (in)coherence scores computed from the (dis)similarity of adjacent sentence embeddings. Later, by reducing the granularity, we developed the COHEWL (COHErence at Word Level) framework to analyze word-level coherence in short texts. Its functionalities include generating contrastive data by replacing words with alternatives suggested by humans or predicted by the BERT Masked Language Model. Finally, we evaluated BERT and generative large language models (LLMs) within COHEWL to classify and measure semantic coherence and detect and correct incoherent words. The experiments used datasets in both Portuguese and English, including CSTNews, SQuAD 2.0, FaQuAD, OnlineEduc 1.0, and CohQuAD ? the last two created during this PhD research. The CoheBERT classifier, based on BERT, achieved up to 99.20% accuracy in detecting permuted sentences in journalistic texts and a question-and-answer forum from a virtual learning environment. In COHEWL, BERT achieved accuracy ranging from 80% to 99.88% in detecting short QA-style questions with one altered word. LLMs such as LLaMA, GPT, Gemini, and Sabiá-3 outperformed BERT in classifying semantic coherence in our corpus of short questions about data structures. LLMs also produced word-level semantic coherence scores more aligned with human coherence perception than those derived from BERT embeddings, and detected and corrected incoherent words with significantly better performance.138 p.| il., tabs.porComputaçãoCoerência textualLinguagem e lógicaMétodos computacionais para detecção de incoerências em textos curtosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINALPGCC1301-T.pdfPGCC1301-T.pdfapplication/pdf5046720https://repositorio.ufsc.br/bitstream/123456789/265490/-1/PGCC1301-T.pdf04e41d91c3bc195987d737874d0b61d2MD5-1123456789/2654902025-06-03 20:28:31.707oai:repositorio.ufsc.br:123456789/265490Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestsandra.sobrera@ufsc.bropendoar:23732025-06-03T23:28:31Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Métodos computacionais para detecção de incoerências em textos curtos
title Métodos computacionais para detecção de incoerências em textos curtos
spellingShingle Métodos computacionais para detecção de incoerências em textos curtos
Braz Júnior, Osmar de Oliveira
Computação
Coerência textual
Linguagem e lógica
title_short Métodos computacionais para detecção de incoerências em textos curtos
title_full Métodos computacionais para detecção de incoerências em textos curtos
title_fullStr Métodos computacionais para detecção de incoerências em textos curtos
title_full_unstemmed Métodos computacionais para detecção de incoerências em textos curtos
title_sort Métodos computacionais para detecção de incoerências em textos curtos
author Braz Júnior, Osmar de Oliveira
author_facet Braz Júnior, Osmar de Oliveira
author_role author
dc.contributor.none.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Braz Júnior, Osmar de Oliveira
dc.contributor.advisor1.fl_str_mv Fileto, Renato
contributor_str_mv Fileto, Renato
dc.subject.classification.none.fl_str_mv Computação
Coerência textual
Linguagem e lógica
topic Computação
Coerência textual
Linguagem e lógica
description Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025.
publishDate 2025
dc.date.accessioned.fl_str_mv 2025-06-03T23:28:31Z
dc.date.available.fl_str_mv 2025-06-03T23:28:31Z
dc.date.issued.fl_str_mv 2025
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/265490
dc.identifier.other.none.fl_str_mv 392068
identifier_str_mv 392068
url https://repositorio.ufsc.br/handle/123456789/265490
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 138 p.| il., tabs.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/265490/-1/PGCC1301-T.pdf
bitstream.checksum.fl_str_mv 04e41d91c3bc195987d737874d0b61d2
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv sandra.sobrera@ufsc.br
_version_ 1851759049337470976