ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs

Capellaro, Leonardo

ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs

Detalhes bibliográficos
Ano de defesa:	2025
Autor(a) principal:	Capellaro, Leonardo
Orientador(a):	Caseli, Helena de Medeiros
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de São Carlos Câmpus São Carlos
Programa de Pós-Graduação:	Programa de Pós-Graduação em Ciência da Computação - PPGCC
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	LLM Sumarização Geração de tópicos Twitter X Política brasileira
Palavras-chave em Inglês:	Summarization Topic generation Brazilian Politics
Área do conhecimento CNPq:	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
Link de acesso:	https://repositorio.ufscar.br/handle/20.500.14289/21352
Resumo:	Recently, political discussions in Brazil have gained prominence, becoming one of the most debated topics on social media. Factors such as the diversity of themes, the occurrence of events that attract public attention, and the constant increase in the volume of messages have made it challenging to identify in a clear, concise, and objective manner the main topics of the posts. In this context, this study proposes a new automated method that explores the use of automatic topic generation and multi-level summarization techniques using large-scale language models. The proposed method was evaluated to generate summaries from tweets about Brazilian politics collected during the 2022 presidential elections. In addition to the multi-level summarization method, a new summary evaluation method was also proposed, based on the divide and conquer strategy for applying the BERTScore automatic evaluation measure to lengthy texts, which also incorporates the generated sentence size as a weight in the evaluation score. Qualitative and quantitative analyses indicate that the combination of these techniques was able to successfully extract and summarize the main topics, demonstrating great potential to be a useful informative tool in the assessment of different opinions, issues, and topics publicly discussed.

Metadados do item

id	SCAR_7ccd5e78cce4c4c42f4bc6df3bd6ec1a
oai_identifier_str	oai:repositorio.ufscar.br:20.500.14289/21352
network_acronym_str	SCAR
network_name_str	Repositório Institucional da UFSCAR
repository_id_str
spelling	Capellaro, LeonardoCaseli, Helena de Medeiroshttp://lattes.cnpq.br/6608582057810385http://lattes.cnpq.br/1323489363246457https://orcid.org/0009-0009-0514-2976https://orcid.org/0000-0003-3996-8599Branco2025-02-11T18:12:13Z2025-01-30CAPELLARO, Leonardo. ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21352.https://repositorio.ufscar.br/handle/20.500.14289/21352Recently, political discussions in Brazil have gained prominence, becoming one of the most debated topics on social media. Factors such as the diversity of themes, the occurrence of events that attract public attention, and the constant increase in the volume of messages have made it challenging to identify in a clear, concise, and objective manner the main topics of the posts. In this context, this study proposes a new automated method that explores the use of automatic topic generation and multi-level summarization techniques using large-scale language models. The proposed method was evaluated to generate summaries from tweets about Brazilian politics collected during the 2022 presidential elections. In addition to the multi-level summarization method, a new summary evaluation method was also proposed, based on the divide and conquer strategy for applying the BERTScore automatic evaluation measure to lengthy texts, which also incorporates the generated sentence size as a weight in the evaluation score. Qualitative and quantitative analyses indicate that the combination of these techniques was able to successfully extract and summarize the main topics, demonstrating great potential to be a useful informative tool in the assessment of different opinions, issues, and topics publicly discussed.Recentemente, as discussões políticas no Brasil ganharam destaque, tornando-se um dos tópicos mais debatidos nas redes sociais. Fatores como a diversidade de temas, a ocorrência de eventos que atraem a atenção do público e o constante aumento no volume de mensagens tornaram desafiadora a tarefa de identificar de forma clara, concisa e objetiva os principais tópicos das postagens. Nesse contexto, este estudo propõe um novo método automático que explora o uso de técnicas automáticas de geração de tópicos e sumarização em múltiplos níveis utilizando modelos de linguagem de grande escala. O método proposto foi avaliado para gerar resumos (sumários) a partir de \textit{tweets} sobre o domínio da política brasileira coletados durante as eleições presidenciais de 2022. Além do método de sumarização multinível, foi proposto também um novo método de avaliação de sumários baseado na estratégia de divisão e conquista para a aplicação da medida de avaliação automática BERTScore em textos extensos, o qual também agrega o tamanho da sentença gerada como um peso no valor da avaliação. Análises qualitativas e quantitativas indicam que a combinação dessas técnicas foi capaz de extrair e resumir os principais tópicos com sucesso, demonstrando um grande potencial para ser uma ferramenta informativa útil na avaliação de diferentes opiniões, questões e temas discutidos publicamente.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessSummarizationTopic generationBrazilian PoliticsCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOLLMSumarizaçãoGeração de tópicosTwitterXPolítica brasileiraToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMsToMAS: Topic-based multilevel abstractive summarization using large language modelsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8905https://repositorio.ufscar.br/bitstreams/c3892d67-36f7-4119-8ad2-fe52de1e12de/download57e258e544f104f04afb1d5e5b4e53c0MD53falseAnonymousREADTEXTDefesa_Leonardo_Capellaro_Final.pdf.txtDefesa_Leonardo_Capellaro_Final.pdf.txtExtracted texttext/plain104034https://repositorio.ufscar.br/bitstreams/ed0aaf0c-157a-450a-9ad8-7d58e3bc0fe7/download107c0271eb9a16436acd7d43611d6605MD54falseAnonymousREADTHUMBNAILDefesa_Leonardo_Capellaro_Final.pdf.jpgDefesa_Leonardo_Capellaro_Final.pdf.jpgGenerated Thumbnailimage/jpeg3884https://repositorio.ufscar.br/bitstreams/c411d083-1356-4dca-9a71-3dcc11f67b41/downloadebc74db7a39a5adb965c7745b9c462ebMD55falseAnonymousREADORIGINALDefesa_Leonardo_Capellaro_Final.pdfDefesa_Leonardo_Capellaro_Final.pdfapplication/pdf2794530https://repositorio.ufscar.br/bitstreams/37b1b445-f0fa-4d14-918a-91aef8ebe81f/downloadf7e6b540fd96c18a2183537fc83c983eMD51trueAnonymousREAD20.500.14289/213522025-02-12 00:02:44.77http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/21352https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-12T03:02:44Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.none.fl_str_mv	ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs
dc.title.alternative.eng.fl_str_mv	ToMAS: Topic-based multilevel abstractive summarization using large language models
title	ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs
spellingShingle	ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs Capellaro, Leonardo Summarization Topic generation Brazilian Politics CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO LLM Sumarização Geração de tópicos Twitter X Política brasileira
title_short	ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs
title_full	ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs
title_fullStr	ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs
title_full_unstemmed	ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs
title_sort	ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs
author	Capellaro, Leonardo
author_facet	Capellaro, Leonardo
author_role	author
dc.contributor.authorlattes.none.fl_str_mv	http://lattes.cnpq.br/1323489363246457
dc.contributor.authororcid.none.fl_str_mv	https://orcid.org/0009-0009-0514-2976
dc.contributor.advisor1orcid.none.fl_str_mv	https://orcid.org/0000-0003-3996-8599
dc.contributor.authorethnicity.none.fl_str_mv	Branco
dc.contributor.author.fl_str_mv	Capellaro, Leonardo
dc.contributor.advisor1.fl_str_mv	Caseli, Helena de Medeiros
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/6608582057810385
contributor_str_mv	Caseli, Helena de Medeiros
dc.subject.eng.fl_str_mv	Summarization Topic generation Brazilian Politics
topic	Summarization Topic generation Brazilian Politics CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO LLM Sumarização Geração de tópicos Twitter X Política brasileira
dc.subject.cnpq.fl_str_mv	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.por.fl_str_mv	LLM Sumarização Geração de tópicos Twitter X Política brasileira
description	Recently, political discussions in Brazil have gained prominence, becoming one of the most debated topics on social media. Factors such as the diversity of themes, the occurrence of events that attract public attention, and the constant increase in the volume of messages have made it challenging to identify in a clear, concise, and objective manner the main topics of the posts. In this context, this study proposes a new automated method that explores the use of automatic topic generation and multi-level summarization techniques using large-scale language models. The proposed method was evaluated to generate summaries from tweets about Brazilian politics collected during the 2022 presidential elections. In addition to the multi-level summarization method, a new summary evaluation method was also proposed, based on the divide and conquer strategy for applying the BERTScore automatic evaluation measure to lengthy texts, which also incorporates the generated sentence size as a weight in the evaluation score. Qualitative and quantitative analyses indicate that the combination of these techniques was able to successfully extract and summarize the main topics, demonstrating great potential to be a useful informative tool in the assessment of different opinions, issues, and topics publicly discussed.
publishDate	2025
dc.date.accessioned.fl_str_mv	2025-02-11T18:12:13Z
dc.date.issued.fl_str_mv	2025-01-30
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	CAPELLARO, Leonardo. ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21352.
dc.identifier.uri.fl_str_mv	https://repositorio.ufscar.br/handle/20.500.14289/21352
identifier_str_mv	CAPELLARO, Leonardo. ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21352.
url	https://repositorio.ufscar.br/handle/20.500.14289/21352
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de São Carlos Câmpus São Carlos
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv	UFSCar
publisher.none.fl_str_mv	Universidade Federal de São Carlos Câmpus São Carlos
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR
instname_str	Universidade Federal de São Carlos (UFSCAR)
instacron_str	UFSCAR
institution	UFSCAR
reponame_str	Repositório Institucional da UFSCAR
collection	Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv	https://repositorio.ufscar.br/bitstreams/c3892d67-36f7-4119-8ad2-fe52de1e12de/download https://repositorio.ufscar.br/bitstreams/ed0aaf0c-157a-450a-9ad8-7d58e3bc0fe7/download https://repositorio.ufscar.br/bitstreams/c411d083-1356-4dca-9a71-3dcc11f67b41/download https://repositorio.ufscar.br/bitstreams/37b1b445-f0fa-4d14-918a-91aef8ebe81f/download
bitstream.checksum.fl_str_mv	57e258e544f104f04afb1d5e5b4e53c0 107c0271eb9a16436acd7d43611d6605 ebc74db7a39a5adb965c7745b9c462eb f7e6b540fd96c18a2183537fc83c983e
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv	repositorio.sibi@ufscar.br
_version_	1851688825868255232

ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs

Registros relacionados