SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Costa, Rita Carolina Alamino Borges da
Orientador(a): Fileto, Renato
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Link de acesso: https://repositorio.ufsc.br/handle/123456789/264786
Resumo: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025.
id UFSC_a242f1997d8a50e5fd3c70bb423edd8a
oai_identifier_str oai:repositorio.ufsc.br:123456789/264786
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str
spelling Universidade Federal de Santa CatarinaCosta, Rita Carolina Alamino Borges daFileto, Renato2025-05-05T23:25:03Z2025-05-05T23:25:03Z2025391418https://repositorio.ufsc.br/handle/123456789/264786Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025.Textos presentes em plataformas digitais hoje em dia podem ter semelhanças de significado, cuja detecção automática é importante para aplicações como detecção de plágio e análise de movimentos sociais. Contudo, a tarefa de detectar similaridade entre discursos em textos, os quais podem transmitir ideias análogas usando construções léxicas e sintáticas diferentes, representa um desafio. Uma das abordagens encontradas na revisão da literatura é extrair termos relevantes das estruturas discursivas e, então, mensurar e/ou classificar a similaridade dos discursos com base na similaridade semântica de representações estruturais desses termos, tais como embeddings. Por outro lado, o uso de modelos de linguagem atuais para calcular e classificar similaridades discursivas em textos curtos permanece pouco explorado na literatura. Este trabalho investiga diferentes abordagens e a utilização de tecnologias atuais para medir e classificar similaridades semânticas de discursos. As soluções consideradas incluíram o cálculo de similaridade através de embeddings contextualizados de componentes estruturais dos discursos contra modelos de linguagem generativos de grande escala. Os resultados dos experimentais demonstram que o uso de inteligência artificial (LLMs) permite um desempenho superior em alguns casos em comparação com o uso de embeddings de palavras na comparação de componentes do discurso, fornecendo assim uma base comparativa para futuros estudos nesta área e aplicações.Abstract: Texts present in digital platforms today may exhibit semantic similarities, whose automated detection is crucial for applications such as plagiarism detection and social movement analysis. However, detecting discourse similarity between texts, which can convey analogous ideas using different lexical and syntactic constructions, presents a significant challenge. One of the approaches identified in the literature review involves extracting relevant terms from discourse structures and subsequently quantifying and/or classifying discourse similarity based on the semantic similarity of structural representations of these terms, such as embeddings. Conversely, the utilization of contemporary language models for computing and classifying discourse similarities in short texts remains underexplored in the literature. This work investigates various approaches and the application of current technologies for measuring and classifying semantic similarities in discourse. The considered solutions included similarity computation through contextualized embeddings of discourse structural components against large-scale generative language models. The experimental results demonstrate that using artificial intelligence (LLMs) enables superior performance in some instances compared to using word embeddings in comparing discourse components, thus providing a comparative foundation for future studies in this domain and applications.68 p.| il.porComputaçãoProcessamento de linguagem natural (Computação)Computação semânticaAnálise do discursoSIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguageminfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINALPGCC1293-D.pdfPGCC1293-D.pdfapplication/pdf1299033https://repositorio.ufsc.br/bitstream/123456789/264786/-1/PGCC1293-D.pdf0ce463bdbe0be531134c8139e81c8089MD5-1123456789/2647862025-05-05 20:25:03.818oai:repositorio.ufsc.br:123456789/264786Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestsandra.sobrera@ufsc.bropendoar:23732025-05-05T23:25:03Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem
title SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem
spellingShingle SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem
Costa, Rita Carolina Alamino Borges da
Computação
Processamento de linguagem natural (Computação)
Computação semântica
Análise do discurso
title_short SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem
title_full SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem
title_fullStr SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem
title_full_unstemmed SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem
title_sort SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem
author Costa, Rita Carolina Alamino Borges da
author_facet Costa, Rita Carolina Alamino Borges da
author_role author
dc.contributor.none.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Costa, Rita Carolina Alamino Borges da
dc.contributor.advisor1.fl_str_mv Fileto, Renato
contributor_str_mv Fileto, Renato
dc.subject.classification.none.fl_str_mv Computação
Processamento de linguagem natural (Computação)
Computação semântica
Análise do discurso
topic Computação
Processamento de linguagem natural (Computação)
Computação semântica
Análise do discurso
description Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025.
publishDate 2025
dc.date.accessioned.fl_str_mv 2025-05-05T23:25:03Z
dc.date.available.fl_str_mv 2025-05-05T23:25:03Z
dc.date.issued.fl_str_mv 2025
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/264786
dc.identifier.other.none.fl_str_mv 391418
identifier_str_mv 391418
url https://repositorio.ufsc.br/handle/123456789/264786
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 68 p.| il.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/264786/-1/PGCC1293-D.pdf
bitstream.checksum.fl_str_mv 0ce463bdbe0be531134c8139e81c8089
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv sandra.sobrera@ufsc.br
_version_ 1851759127543414784