ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de São Carlos
Câmpus São Carlos |
| Programa de Pós-Graduação: |
Programa de Pós-Graduação em Ciência da Computação - PPGCC
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://repositorio.ufscar.br/handle/20.500.14289/21352 |
Resumo: | Recently, political discussions in Brazil have gained prominence, becoming one of the most debated topics on social media. Factors such as the diversity of themes, the occurrence of events that attract public attention, and the constant increase in the volume of messages have made it challenging to identify in a clear, concise, and objective manner the main topics of the posts. In this context, this study proposes a new automated method that explores the use of automatic topic generation and multi-level summarization techniques using large-scale language models. The proposed method was evaluated to generate summaries from tweets about Brazilian politics collected during the 2022 presidential elections. In addition to the multi-level summarization method, a new summary evaluation method was also proposed, based on the divide and conquer strategy for applying the BERTScore automatic evaluation measure to lengthy texts, which also incorporates the generated sentence size as a weight in the evaluation score. Qualitative and quantitative analyses indicate that the combination of these techniques was able to successfully extract and summarize the main topics, demonstrating great potential to be a useful informative tool in the assessment of different opinions, issues, and topics publicly discussed. |
| id |
SCAR_7ccd5e78cce4c4c42f4bc6df3bd6ec1a |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/21352 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Capellaro, LeonardoCaseli, Helena de Medeiroshttp://lattes.cnpq.br/6608582057810385http://lattes.cnpq.br/1323489363246457https://orcid.org/0009-0009-0514-2976https://orcid.org/0000-0003-3996-8599Branco2025-02-11T18:12:13Z2025-01-30CAPELLARO, Leonardo. ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21352.https://repositorio.ufscar.br/handle/20.500.14289/21352Recently, political discussions in Brazil have gained prominence, becoming one of the most debated topics on social media. Factors such as the diversity of themes, the occurrence of events that attract public attention, and the constant increase in the volume of messages have made it challenging to identify in a clear, concise, and objective manner the main topics of the posts. In this context, this study proposes a new automated method that explores the use of automatic topic generation and multi-level summarization techniques using large-scale language models. The proposed method was evaluated to generate summaries from tweets about Brazilian politics collected during the 2022 presidential elections. In addition to the multi-level summarization method, a new summary evaluation method was also proposed, based on the divide and conquer strategy for applying the BERTScore automatic evaluation measure to lengthy texts, which also incorporates the generated sentence size as a weight in the evaluation score. Qualitative and quantitative analyses indicate that the combination of these techniques was able to successfully extract and summarize the main topics, demonstrating great potential to be a useful informative tool in the assessment of different opinions, issues, and topics publicly discussed.Recentemente, as discussões políticas no Brasil ganharam destaque, tornando-se um dos tópicos mais debatidos nas redes sociais. Fatores como a diversidade de temas, a ocorrência de eventos que atraem a atenção do público e o constante aumento no volume de mensagens tornaram desafiadora a tarefa de identificar de forma clara, concisa e objetiva os principais tópicos das postagens. Nesse contexto, este estudo propõe um novo método automático que explora o uso de técnicas automáticas de geração de tópicos e sumarização em múltiplos níveis utilizando modelos de linguagem de grande escala. O método proposto foi avaliado para gerar resumos (sumários) a partir de \textit{tweets} sobre o domínio da política brasileira coletados durante as eleições presidenciais de 2022. Além do método de sumarização multinível, foi proposto também um novo método de avaliação de sumários baseado na estratégia de divisão e conquista para a aplicação da medida de avaliação automática BERTScore em textos extensos, o qual também agrega o tamanho da sentença gerada como um peso no valor da avaliação. Análises qualitativas e quantitativas indicam que a combinação dessas técnicas foi capaz de extrair e resumir os principais tópicos com sucesso, demonstrando um grande potencial para ser uma ferramenta informativa útil na avaliação de diferentes opiniões, questões e temas discutidos publicamente.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessSummarizationTopic generationBrazilian PoliticsCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOLLMSumarizaçãoGeração de tópicosTwitterXPolítica brasileiraToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMsToMAS: Topic-based multilevel abstractive summarization using large language modelsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8905https://repositorio.ufscar.br/bitstreams/c3892d67-36f7-4119-8ad2-fe52de1e12de/download57e258e544f104f04afb1d5e5b4e53c0MD53falseAnonymousREADTEXTDefesa_Leonardo_Capellaro_Final.pdf.txtDefesa_Leonardo_Capellaro_Final.pdf.txtExtracted texttext/plain104034https://repositorio.ufscar.br/bitstreams/ed0aaf0c-157a-450a-9ad8-7d58e3bc0fe7/download107c0271eb9a16436acd7d43611d6605MD54falseAnonymousREADTHUMBNAILDefesa_Leonardo_Capellaro_Final.pdf.jpgDefesa_Leonardo_Capellaro_Final.pdf.jpgGenerated Thumbnailimage/jpeg3884https://repositorio.ufscar.br/bitstreams/c411d083-1356-4dca-9a71-3dcc11f67b41/downloadebc74db7a39a5adb965c7745b9c462ebMD55falseAnonymousREADORIGINALDefesa_Leonardo_Capellaro_Final.pdfDefesa_Leonardo_Capellaro_Final.pdfapplication/pdf2794530https://repositorio.ufscar.br/bitstreams/37b1b445-f0fa-4d14-918a-91aef8ebe81f/downloadf7e6b540fd96c18a2183537fc83c983eMD51trueAnonymousREAD20.500.14289/213522025-02-12 00:02:44.77http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/21352https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-12T03:02:44Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.none.fl_str_mv |
ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs |
| dc.title.alternative.eng.fl_str_mv |
ToMAS: Topic-based multilevel abstractive summarization using large language models |
| title |
ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs |
| spellingShingle |
ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs Capellaro, Leonardo Summarization Topic generation Brazilian Politics CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO LLM Sumarização Geração de tópicos X Política brasileira |
| title_short |
ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs |
| title_full |
ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs |
| title_fullStr |
ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs |
| title_full_unstemmed |
ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs |
| title_sort |
ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs |
| author |
Capellaro, Leonardo |
| author_facet |
Capellaro, Leonardo |
| author_role |
author |
| dc.contributor.authorlattes.none.fl_str_mv |
http://lattes.cnpq.br/1323489363246457 |
| dc.contributor.authororcid.none.fl_str_mv |
https://orcid.org/0009-0009-0514-2976 |
| dc.contributor.advisor1orcid.none.fl_str_mv |
https://orcid.org/0000-0003-3996-8599 |
| dc.contributor.authorethnicity.none.fl_str_mv |
Branco |
| dc.contributor.author.fl_str_mv |
Capellaro, Leonardo |
| dc.contributor.advisor1.fl_str_mv |
Caseli, Helena de Medeiros |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/6608582057810385 |
| contributor_str_mv |
Caseli, Helena de Medeiros |
| dc.subject.eng.fl_str_mv |
Summarization Topic generation Brazilian Politics |
| topic |
Summarization Topic generation Brazilian Politics CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO LLM Sumarização Geração de tópicos X Política brasileira |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
| dc.subject.por.fl_str_mv |
LLM Sumarização Geração de tópicos X Política brasileira |
| description |
Recently, political discussions in Brazil have gained prominence, becoming one of the most debated topics on social media. Factors such as the diversity of themes, the occurrence of events that attract public attention, and the constant increase in the volume of messages have made it challenging to identify in a clear, concise, and objective manner the main topics of the posts. In this context, this study proposes a new automated method that explores the use of automatic topic generation and multi-level summarization techniques using large-scale language models. The proposed method was evaluated to generate summaries from tweets about Brazilian politics collected during the 2022 presidential elections. In addition to the multi-level summarization method, a new summary evaluation method was also proposed, based on the divide and conquer strategy for applying the BERTScore automatic evaluation measure to lengthy texts, which also incorporates the generated sentence size as a weight in the evaluation score. Qualitative and quantitative analyses indicate that the combination of these techniques was able to successfully extract and summarize the main topics, demonstrating great potential to be a useful informative tool in the assessment of different opinions, issues, and topics publicly discussed. |
| publishDate |
2025 |
| dc.date.accessioned.fl_str_mv |
2025-02-11T18:12:13Z |
| dc.date.issued.fl_str_mv |
2025-01-30 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
CAPELLARO, Leonardo. ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21352. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/20.500.14289/21352 |
| identifier_str_mv |
CAPELLARO, Leonardo. ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21352. |
| url |
https://repositorio.ufscar.br/handle/20.500.14289/21352 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/c3892d67-36f7-4119-8ad2-fe52de1e12de/download https://repositorio.ufscar.br/bitstreams/ed0aaf0c-157a-450a-9ad8-7d58e3bc0fe7/download https://repositorio.ufscar.br/bitstreams/c411d083-1356-4dca-9a71-3dcc11f67b41/download https://repositorio.ufscar.br/bitstreams/37b1b445-f0fa-4d14-918a-91aef8ebe81f/download |
| bitstream.checksum.fl_str_mv |
57e258e544f104f04afb1d5e5b4e53c0 107c0271eb9a16436acd7d43611d6605 ebc74db7a39a5adb965c7745b9c462eb f7e6b540fd96c18a2183537fc83c983e |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1851688825868255232 |