SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Link de acesso: | https://repositorio.ufsc.br/handle/123456789/264786 |
Resumo: | Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025. |
| id |
UFSC_a242f1997d8a50e5fd3c70bb423edd8a |
|---|---|
| oai_identifier_str |
oai:repositorio.ufsc.br:123456789/264786 |
| network_acronym_str |
UFSC |
| network_name_str |
Repositório Institucional da UFSC |
| repository_id_str |
|
| spelling |
Universidade Federal de Santa CatarinaCosta, Rita Carolina Alamino Borges daFileto, Renato2025-05-05T23:25:03Z2025-05-05T23:25:03Z2025391418https://repositorio.ufsc.br/handle/123456789/264786Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025.Textos presentes em plataformas digitais hoje em dia podem ter semelhanças de significado, cuja detecção automática é importante para aplicações como detecção de plágio e análise de movimentos sociais. Contudo, a tarefa de detectar similaridade entre discursos em textos, os quais podem transmitir ideias análogas usando construções léxicas e sintáticas diferentes, representa um desafio. Uma das abordagens encontradas na revisão da literatura é extrair termos relevantes das estruturas discursivas e, então, mensurar e/ou classificar a similaridade dos discursos com base na similaridade semântica de representações estruturais desses termos, tais como embeddings. Por outro lado, o uso de modelos de linguagem atuais para calcular e classificar similaridades discursivas em textos curtos permanece pouco explorado na literatura. Este trabalho investiga diferentes abordagens e a utilização de tecnologias atuais para medir e classificar similaridades semânticas de discursos. As soluções consideradas incluíram o cálculo de similaridade através de embeddings contextualizados de componentes estruturais dos discursos contra modelos de linguagem generativos de grande escala. Os resultados dos experimentais demonstram que o uso de inteligência artificial (LLMs) permite um desempenho superior em alguns casos em comparação com o uso de embeddings de palavras na comparação de componentes do discurso, fornecendo assim uma base comparativa para futuros estudos nesta área e aplicações.Abstract: Texts present in digital platforms today may exhibit semantic similarities, whose automated detection is crucial for applications such as plagiarism detection and social movement analysis. However, detecting discourse similarity between texts, which can convey analogous ideas using different lexical and syntactic constructions, presents a significant challenge. One of the approaches identified in the literature review involves extracting relevant terms from discourse structures and subsequently quantifying and/or classifying discourse similarity based on the semantic similarity of structural representations of these terms, such as embeddings. Conversely, the utilization of contemporary language models for computing and classifying discourse similarities in short texts remains underexplored in the literature. This work investigates various approaches and the application of current technologies for measuring and classifying semantic similarities in discourse. The considered solutions included similarity computation through contextualized embeddings of discourse structural components against large-scale generative language models. The experimental results demonstrate that using artificial intelligence (LLMs) enables superior performance in some instances compared to using word embeddings in comparing discourse components, thus providing a comparative foundation for future studies in this domain and applications.68 p.| il.porComputaçãoProcessamento de linguagem natural (Computação)Computação semânticaAnálise do discursoSIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguageminfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINALPGCC1293-D.pdfPGCC1293-D.pdfapplication/pdf1299033https://repositorio.ufsc.br/bitstream/123456789/264786/-1/PGCC1293-D.pdf0ce463bdbe0be531134c8139e81c8089MD5-1123456789/2647862025-05-05 20:25:03.818oai:repositorio.ufsc.br:123456789/264786Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestsandra.sobrera@ufsc.bropendoar:23732025-05-05T23:25:03Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false |
| dc.title.none.fl_str_mv |
SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem |
| title |
SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem |
| spellingShingle |
SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem Costa, Rita Carolina Alamino Borges da Computação Processamento de linguagem natural (Computação) Computação semântica Análise do discurso |
| title_short |
SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem |
| title_full |
SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem |
| title_fullStr |
SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem |
| title_full_unstemmed |
SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem |
| title_sort |
SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem |
| author |
Costa, Rita Carolina Alamino Borges da |
| author_facet |
Costa, Rita Carolina Alamino Borges da |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Universidade Federal de Santa Catarina |
| dc.contributor.author.fl_str_mv |
Costa, Rita Carolina Alamino Borges da |
| dc.contributor.advisor1.fl_str_mv |
Fileto, Renato |
| contributor_str_mv |
Fileto, Renato |
| dc.subject.classification.none.fl_str_mv |
Computação Processamento de linguagem natural (Computação) Computação semântica Análise do discurso |
| topic |
Computação Processamento de linguagem natural (Computação) Computação semântica Análise do discurso |
| description |
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025. |
| publishDate |
2025 |
| dc.date.accessioned.fl_str_mv |
2025-05-05T23:25:03Z |
| dc.date.available.fl_str_mv |
2025-05-05T23:25:03Z |
| dc.date.issued.fl_str_mv |
2025 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufsc.br/handle/123456789/264786 |
| dc.identifier.other.none.fl_str_mv |
391418 |
| identifier_str_mv |
391418 |
| url |
https://repositorio.ufsc.br/handle/123456789/264786 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
68 p.| il. |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSC instname:Universidade Federal de Santa Catarina (UFSC) instacron:UFSC |
| instname_str |
Universidade Federal de Santa Catarina (UFSC) |
| instacron_str |
UFSC |
| institution |
UFSC |
| reponame_str |
Repositório Institucional da UFSC |
| collection |
Repositório Institucional da UFSC |
| bitstream.url.fl_str_mv |
https://repositorio.ufsc.br/bitstream/123456789/264786/-1/PGCC1293-D.pdf |
| bitstream.checksum.fl_str_mv |
0ce463bdbe0be531134c8139e81c8089 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC) |
| repository.mail.fl_str_mv |
sandra.sobrera@ufsc.br |
| _version_ |
1851759127543414784 |