Exportação concluída — 

ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Capellaro, Leonardo
Orientador(a): Caseli, Helena de Medeiros lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Câmpus São Carlos
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação - PPGCC
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
LLM
X
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufscar.br/handle/20.500.14289/21352
Resumo: Recently, political discussions in Brazil have gained prominence, becoming one of the most debated topics on social media. Factors such as the diversity of themes, the occurrence of events that attract public attention, and the constant increase in the volume of messages have made it challenging to identify in a clear, concise, and objective manner the main topics of the posts. In this context, this study proposes a new automated method that explores the use of automatic topic generation and multi-level summarization techniques using large-scale language models. The proposed method was evaluated to generate summaries from tweets about Brazilian politics collected during the 2022 presidential elections. In addition to the multi-level summarization method, a new summary evaluation method was also proposed, based on the divide and conquer strategy for applying the BERTScore automatic evaluation measure to lengthy texts, which also incorporates the generated sentence size as a weight in the evaluation score. Qualitative and quantitative analyses indicate that the combination of these techniques was able to successfully extract and summarize the main topics, demonstrating great potential to be a useful informative tool in the assessment of different opinions, issues, and topics publicly discussed.
id SCAR_7ccd5e78cce4c4c42f4bc6df3bd6ec1a
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/21352
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Capellaro, LeonardoCaseli, Helena de Medeiroshttp://lattes.cnpq.br/6608582057810385http://lattes.cnpq.br/1323489363246457https://orcid.org/0009-0009-0514-2976https://orcid.org/0000-0003-3996-8599Branco2025-02-11T18:12:13Z2025-01-30CAPELLARO, Leonardo. ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21352.https://repositorio.ufscar.br/handle/20.500.14289/21352Recently, political discussions in Brazil have gained prominence, becoming one of the most debated topics on social media. Factors such as the diversity of themes, the occurrence of events that attract public attention, and the constant increase in the volume of messages have made it challenging to identify in a clear, concise, and objective manner the main topics of the posts. In this context, this study proposes a new automated method that explores the use of automatic topic generation and multi-level summarization techniques using large-scale language models. The proposed method was evaluated to generate summaries from tweets about Brazilian politics collected during the 2022 presidential elections. In addition to the multi-level summarization method, a new summary evaluation method was also proposed, based on the divide and conquer strategy for applying the BERTScore automatic evaluation measure to lengthy texts, which also incorporates the generated sentence size as a weight in the evaluation score. Qualitative and quantitative analyses indicate that the combination of these techniques was able to successfully extract and summarize the main topics, demonstrating great potential to be a useful informative tool in the assessment of different opinions, issues, and topics publicly discussed.Recentemente, as discussões políticas no Brasil ganharam destaque, tornando-se um dos tópicos mais debatidos nas redes sociais. Fatores como a diversidade de temas, a ocorrência de eventos que atraem a atenção do público e o constante aumento no volume de mensagens tornaram desafiadora a tarefa de identificar de forma clara, concisa e objetiva os principais tópicos das postagens. Nesse contexto, este estudo propõe um novo método automático que explora o uso de técnicas automáticas de geração de tópicos e sumarização em múltiplos níveis utilizando modelos de linguagem de grande escala. O método proposto foi avaliado para gerar resumos (sumários) a partir de \textit{tweets} sobre o domínio da política brasileira coletados durante as eleições presidenciais de 2022. Além do método de sumarização multinível, foi proposto também um novo método de avaliação de sumários baseado na estratégia de divisão e conquista para a aplicação da medida de avaliação automática BERTScore em textos extensos, o qual também agrega o tamanho da sentença gerada como um peso no valor da avaliação. Análises qualitativas e quantitativas indicam que a combinação dessas técnicas foi capaz de extrair e resumir os principais tópicos com sucesso, demonstrando um grande potencial para ser uma ferramenta informativa útil na avaliação de diferentes opiniões, questões e temas discutidos publicamente.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessSummarizationTopic generationBrazilian PoliticsCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOLLMSumarizaçãoGeração de tópicosTwitterXPolítica brasileiraToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMsToMAS: Topic-based multilevel abstractive summarization using large language modelsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8905https://repositorio.ufscar.br/bitstreams/c3892d67-36f7-4119-8ad2-fe52de1e12de/download57e258e544f104f04afb1d5e5b4e53c0MD53falseAnonymousREADTEXTDefesa_Leonardo_Capellaro_Final.pdf.txtDefesa_Leonardo_Capellaro_Final.pdf.txtExtracted texttext/plain104034https://repositorio.ufscar.br/bitstreams/ed0aaf0c-157a-450a-9ad8-7d58e3bc0fe7/download107c0271eb9a16436acd7d43611d6605MD54falseAnonymousREADTHUMBNAILDefesa_Leonardo_Capellaro_Final.pdf.jpgDefesa_Leonardo_Capellaro_Final.pdf.jpgGenerated Thumbnailimage/jpeg3884https://repositorio.ufscar.br/bitstreams/c411d083-1356-4dca-9a71-3dcc11f67b41/downloadebc74db7a39a5adb965c7745b9c462ebMD55falseAnonymousREADORIGINALDefesa_Leonardo_Capellaro_Final.pdfDefesa_Leonardo_Capellaro_Final.pdfapplication/pdf2794530https://repositorio.ufscar.br/bitstreams/37b1b445-f0fa-4d14-918a-91aef8ebe81f/downloadf7e6b540fd96c18a2183537fc83c983eMD51trueAnonymousREAD20.500.14289/213522025-02-12 00:02:44.77http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/21352https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-12T03:02:44Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.none.fl_str_mv ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs
dc.title.alternative.eng.fl_str_mv ToMAS: Topic-based multilevel abstractive summarization using large language models
title ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs
spellingShingle ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs
Capellaro, Leonardo
Summarization
Topic generation
Brazilian Politics
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
LLM
Sumarização
Geração de tópicos
Twitter
X
Política brasileira
title_short ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs
title_full ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs
title_fullStr ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs
title_full_unstemmed ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs
title_sort ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs
author Capellaro, Leonardo
author_facet Capellaro, Leonardo
author_role author
dc.contributor.authorlattes.none.fl_str_mv http://lattes.cnpq.br/1323489363246457
dc.contributor.authororcid.none.fl_str_mv https://orcid.org/0009-0009-0514-2976
dc.contributor.advisor1orcid.none.fl_str_mv https://orcid.org/0000-0003-3996-8599
dc.contributor.authorethnicity.none.fl_str_mv Branco
dc.contributor.author.fl_str_mv Capellaro, Leonardo
dc.contributor.advisor1.fl_str_mv Caseli, Helena de Medeiros
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6608582057810385
contributor_str_mv Caseli, Helena de Medeiros
dc.subject.eng.fl_str_mv Summarization
Topic generation
Brazilian Politics
topic Summarization
Topic generation
Brazilian Politics
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
LLM
Sumarização
Geração de tópicos
Twitter
X
Política brasileira
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.por.fl_str_mv LLM
Sumarização
Geração de tópicos
Twitter
X
Política brasileira
description Recently, political discussions in Brazil have gained prominence, becoming one of the most debated topics on social media. Factors such as the diversity of themes, the occurrence of events that attract public attention, and the constant increase in the volume of messages have made it challenging to identify in a clear, concise, and objective manner the main topics of the posts. In this context, this study proposes a new automated method that explores the use of automatic topic generation and multi-level summarization techniques using large-scale language models. The proposed method was evaluated to generate summaries from tweets about Brazilian politics collected during the 2022 presidential elections. In addition to the multi-level summarization method, a new summary evaluation method was also proposed, based on the divide and conquer strategy for applying the BERTScore automatic evaluation measure to lengthy texts, which also incorporates the generated sentence size as a weight in the evaluation score. Qualitative and quantitative analyses indicate that the combination of these techniques was able to successfully extract and summarize the main topics, demonstrating great potential to be a useful informative tool in the assessment of different opinions, issues, and topics publicly discussed.
publishDate 2025
dc.date.accessioned.fl_str_mv 2025-02-11T18:12:13Z
dc.date.issued.fl_str_mv 2025-01-30
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv CAPELLARO, Leonardo. ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21352.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/21352
identifier_str_mv CAPELLARO, Leonardo. ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21352.
url https://repositorio.ufscar.br/handle/20.500.14289/21352
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/c3892d67-36f7-4119-8ad2-fe52de1e12de/download
https://repositorio.ufscar.br/bitstreams/ed0aaf0c-157a-450a-9ad8-7d58e3bc0fe7/download
https://repositorio.ufscar.br/bitstreams/c411d083-1356-4dca-9a71-3dcc11f67b41/download
https://repositorio.ufscar.br/bitstreams/37b1b445-f0fa-4d14-918a-91aef8ebe81f/download
bitstream.checksum.fl_str_mv 57e258e544f104f04afb1d5e5b4e53c0
107c0271eb9a16436acd7d43611d6605
ebc74db7a39a5adb965c7745b9c462eb
f7e6b540fd96c18a2183537fc83c983e
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688825868255232