Sumarização automática de artigos de notícias em português: da extração à abstração com abordagens clássicas e modelos neurais

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Sarmento, Marcio ALves
Orientador(a): Hilário Tomaz Alves de Oliveira
Banca de defesa: Gazolli, Kelly Assis de Souza lattes, Cabral, Luciano de Souza lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Instituto Federal do Espírito Santo
Campus Serra
Programa de Pós-Graduação: Programa de Pós-Graduação em Computação Aplicada
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ifes.edu.br/handle/123456789/8022
Resumo: O aumento na produção de dados digitais tem intensificado os desafios relacionados à leitura e compreensão de grandes volumes de informação, evidenciando a necessidade de métodos capazes de sintetizar conteúdo de forma eficiente. Nesse contexto, a Sumarização Automática de Texto (SAT) destaca-se como uma ferramenta essencial, especialmente em sua vertente abstrativa, que gera resumos mais similares aos escritos por humanos por meio de técnicas de geração de linguagem natural. Apesar dos avanços recentes, os estudos voltados ao português do Brasil ainda são escassos. Este trabalho investigou métodos extrativos e abstrativos aplicados à sumarização de artigos de notícias em português do Brasil. Foram avaliados modelos baseados na arquitetura T5, como PTT5 e Flan-T5, ajustados com o corpus RecognaSumm, além de comparações com baselines clássicos, um sistema extrativo baseado em Programação Linear Inteira (PLI) e modelos de linguagem de larga escala (LLMs) proprietários e de código aberto, incluindo GPT-4o, GPT-3.5 Turbo, Gemma 2, LLaMA 3, LLaMA 4 Maverick, Sabiázinho-3 e Sabiá-3. Os experimentos foram conduzidos nos corpora TeMário, CSTNews e RecognaSumm, contemplando cenários de sumarização monodocumento e multidocumento. A avaliação dos resumos utilizou as métricas de similaridade textual ROUGE-L e BERTScore, além da estratégia G-Eval, que emprega LLMs como juízes automáticos. Os resultados experimentais demonstram que os modelos ajustados PTT5 e Flan-T5 apresentam desempenho competitivo nas medidas de avaliação tradicionais baseadas em similaridade, superando baselines extrativos em diversos cenários. Entretanto, os LLMs demonstraram melhor qualidade discursiva segundo o G-Eval, produzindo textos mais fluentes, coerentes e bem estruturados. As análises também revelam diferenças significativas entre métricas lexicais, semânticas e os valores gerados pelo G-Eval, indicando que essas abordagens capturam dimensões distintas da qualidade dos resumos. De forma geral, o estudo evidencia o potencial dos modelos baseados na arquitetura T5 ajustados para o português, a robustez dos métodos extrativos em contextos com restrições computacionais e o desempenho superior dos LLMs na geração de resumos abstrativos de alta qualidade textual, com destaque para Sabiá-3 e GPT-4o.
id IFES-2_2f260a1135fc4659384e41fe93f2f471
oai_identifier_str oai:repositorio.ifes.edu.br:123456789/8022
network_acronym_str IFES-2
network_name_str Repositório Institucional do IFES
repository_id_str
spelling Sarmento, Marcio ALveshttps://orcid.org/0009-0008-7333-7866http://lattes.cnpq.br/7401663176659423https://orcid.org/0000-0003-0643-7206De Oliveira, Hilário Tomaz AlvesGazolli, Kelly Assis de Souzahttp://lattes.cnpq.br/0343732414150447Cabral, Luciano de Souzahttps://orcid.org/0000-0002-4235-5753http://lattes.cnpq.br/9195362898891079Hilário Tomaz Alves de Oliveira2026-02-25T21:03:32Z2025https://repositorio.ifes.edu.br/handle/123456789/8022O aumento na produção de dados digitais tem intensificado os desafios relacionados à leitura e compreensão de grandes volumes de informação, evidenciando a necessidade de métodos capazes de sintetizar conteúdo de forma eficiente. Nesse contexto, a Sumarização Automática de Texto (SAT) destaca-se como uma ferramenta essencial, especialmente em sua vertente abstrativa, que gera resumos mais similares aos escritos por humanos por meio de técnicas de geração de linguagem natural. Apesar dos avanços recentes, os estudos voltados ao português do Brasil ainda são escassos. Este trabalho investigou métodos extrativos e abstrativos aplicados à sumarização de artigos de notícias em português do Brasil. Foram avaliados modelos baseados na arquitetura T5, como PTT5 e Flan-T5, ajustados com o corpus RecognaSumm, além de comparações com baselines clássicos, um sistema extrativo baseado em Programação Linear Inteira (PLI) e modelos de linguagem de larga escala (LLMs) proprietários e de código aberto, incluindo GPT-4o, GPT-3.5 Turbo, Gemma 2, LLaMA 3, LLaMA 4 Maverick, Sabiázinho-3 e Sabiá-3. Os experimentos foram conduzidos nos corpora TeMário, CSTNews e RecognaSumm, contemplando cenários de sumarização monodocumento e multidocumento. A avaliação dos resumos utilizou as métricas de similaridade textual ROUGE-L e BERTScore, além da estratégia G-Eval, que emprega LLMs como juízes automáticos. Os resultados experimentais demonstram que os modelos ajustados PTT5 e Flan-T5 apresentam desempenho competitivo nas medidas de avaliação tradicionais baseadas em similaridade, superando baselines extrativos em diversos cenários. Entretanto, os LLMs demonstraram melhor qualidade discursiva segundo o G-Eval, produzindo textos mais fluentes, coerentes e bem estruturados. As análises também revelam diferenças significativas entre métricas lexicais, semânticas e os valores gerados pelo G-Eval, indicando que essas abordagens capturam dimensões distintas da qualidade dos resumos. De forma geral, o estudo evidencia o potencial dos modelos baseados na arquitetura T5 ajustados para o português, a robustez dos métodos extrativos em contextos com restrições computacionais e o desempenho superior dos LLMs na geração de resumos abstrativos de alta qualidade textual, com destaque para Sabiá-3 e GPT-4o.The increase in digital data production has intensified challenges related to reading and understanding large volumes of information, highlighting the need for methods capable of efficiently synthesizing content. In this context, Automated Text Summarization (ATS) stands out as an essential tool, particularly in its abstractive approach, which generates summaries more similar to those written by humans through natural language generation techniques. Despite recent advances, studies focused on Brazilian Portuguese remain scarce. This work investigated extractive and abstractive methods for summarizing news articles written in Brazilian Portuguese. Models based on the Transformer architecture, such as PTT5 and Flan-T5, fine-tuned on the RecognaSumm corpus, were evaluated, along with comparisons to classical baselines, an extractive system based on Integer Linear Programming (ILP), and proprietary and open-source Large Language Models (LLMs), including GPT-4o, GPT-3.5 Turbo, Gemma, LLaMA 3, LLaMA 4 Maverick, Sabiázinho-3, and Sabiá-3. The experiments were conducted on the TeMário, CSTNews, and RecognaSumm corpora, covering both single-document and multi-document summarization scenarios. The generated summaries were evaluated using the traditional similarity-based metrics ROUGE-L and BERTScore, as well as the G-Eval strategy, which employs LLMs as automatic judges. The experimental results show that the fine-tuned PTT5 and Flan-T5 models achieve competitive performance on traditional similarity-based evaluation metrics, outperforming extractive baselines in several scenarios. However, LLMs demonstrated superior discursive quality according to G-Eval, producing more fluent, coherent, and well-structured texts. The analyses also reveal significant differences between lexical and semantic similarity metrics and the scores generated by G-Eval, indicating that these approaches capture distinct dimensions of summary quality. Overall, the study highlights the potential of Transformer models optimized for Portuguese, the robustness of extractive methods under computational constraints, and the superior performance of LLMs in generating high-quality abstractive summaries, particularly Sabiá-3 and GPT-4o.Instituto Federal do Espírito SantoCampus SerraPrograma de Pós-Graduação em Computação AplicadaIFESBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessCiências Exatas e da Terra::Ciência da ComputaçãoComputaçãoODS 4 - Educação de QualidadeODS 9 - Indústria, Inovação e InfraestruturaGrandes modelos de linguagem (LLMs)Sumarização AbstrativaSumarização ExtrativaTransformerLLMsG-EvalProcessamento de Linguagem NaturalSumarização automática de texto (SAT)Linguagem naturalSumarização automática de artigos de notícias em português: da extração à abstração com abordagens clássicas e modelos neuraisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional do IFESinstname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)instacron:IFESORIGINALdissertacao_marcio_alves_sarmento.pdfdissertacao_marcio_alves_sarmento.pdfapplication/pdf1526217https://repositorio.ifes.edu.br/bitstreams/8e002595-50f8-4849-a5d0-34940d31fb42/downloadb70a6d72567eac338dcd9df9b598df70MD51trueAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81467https://repositorio.ifes.edu.br/bitstreams/7c64285b-c2e6-4598-a489-3048ae4198c4/download5668f6fd3cfdbfe64685fdfa950fc737MD52falseAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8906https://repositorio.ifes.edu.br/bitstreams/c619b664-fbd6-4ef9-81d6-932f57beff0f/downloadfba754f0467e45ac3862bc2533fb2736MD53falseAnonymousREADTEXTdissertacao_marcio_alves_sarmento.pdf.txtdissertacao_marcio_alves_sarmento.pdf.txtExtracted texttext/plain102952https://repositorio.ifes.edu.br/bitstreams/eda22827-139a-42db-8b72-041feef5bd4b/download411ffe9b8239c2c79164d087309ab7ebMD54falseAnonymousREADTHUMBNAILdissertacao_marcio_alves_sarmento.pdf.jpgdissertacao_marcio_alves_sarmento.pdf.jpgGenerated Thumbnailimage/jpeg2622https://repositorio.ifes.edu.br/bitstreams/7a3fbc4c-2da9-4e45-be5a-da252d434587/download384382a4696e36ef7050502fb74be1deMD55falseAnonymousREAD123456789/80222026-02-26T06:00:52.458643Zhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/Acesso abertoopen.accessoai:repositorio.ifes.edu.br:123456789/8022https://repositorio.ifes.edu.brRepositório InstitucionalPUBhttps://repositorio.ifes.edu.br/server/oai/requestrepositorio@ifes.edu.bropendoar:2026-02-26T06:00:52Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)falseTElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkFvIGFzc2luYXIgZSBlbnRyZWdhciBlc3RhIGF1dG9yaXphw6fDo28sIG8vYSBTci4vU3JhLiAoYXV0b3Igb3UgZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGRlIGF1dG9yKToKCmEpIGNvbmNlZGUgYW8gSW5zdGl0dXRvIEZlZGVyYWwgZG8gRXNww61yaXRvIFNhbnRvIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCBjb252ZXJ0ZXIsIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIgbyBkb2N1bWVudG8gZW50cmVndWUgZW0gZm9ybWF0byBkaWdpdGFsLgoKYikgZGVjbGFyYSBxdWUgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgc2V1IHRyYWJhbGhvIG9yaWdpbmFsLCBlIHF1ZSBkZXTDqW0gbyBkaXJlaXRvIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBEZWNsYXJhIHRhbWLDqW0gcXVlIGEgZW50cmVnYSBkbyBkb2N1bWVudG8gbsOjbyBpbmZyaW5nZSwgdGFudG8gcXVhbnRvIGxoZSDDqSBwb3Nzw612ZWwgc2FiZXIsIG9zIGRpcmVpdG9zIGRlIHF1YWxxdWVyIG91dHJhIHBlc3NvYSBvdSBlbnRpZGFkZS4KCmMpIHNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCBvIGF1dG9yIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlIGF1dG9yLCBkZWNsYXJhIHF1ZSBvYnRldmUgYXV0b3JpemHDp8OjbyBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IgcGFyYSBjb25jZWRlciBhbyBJbnN0aXR1dG8gRmVkZXJhbCBkbyBFc3DDrXJpdG8gU2FudG8gb3MgZGlyZWl0b3MgcmVxdWVyaWRvcyBwb3IgZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBjdWpvcyBkaXJlaXRvcyBzw6NvIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIG91IGNvbnRlw7pkbyBkbyBkb2N1bWVudG8gZW50cmVndWUuCgpkKSBzZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbyBwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUgbsOjbyBvIEluc3RpdHV0byBGZWRlcmFsIGRvIEVzcMOtcml0byBTYW50bywgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgpPIEluc3RpdHV0byBGZWRlcmFsIGRvIEVzcMOtcml0byBTYW50byBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBzZXUgKHMpIG5vbWUgKHMpIGNvbW8gbyAocykgYXV0b3IgKGVzKSBvdSBkZXRlbnRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8gZW50cmVndWUsIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgcGFyYSBhbMOpbSBkYXMgcGVybWl0aWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4K
dc.title.none.fl_str_mv Sumarização automática de artigos de notícias em português: da extração à abstração com abordagens clássicas e modelos neurais
title Sumarização automática de artigos de notícias em português: da extração à abstração com abordagens clássicas e modelos neurais
spellingShingle Sumarização automática de artigos de notícias em português: da extração à abstração com abordagens clássicas e modelos neurais
Sarmento, Marcio ALves
Ciências Exatas e da Terra::Ciência da Computação
Grandes modelos de linguagem (LLMs)
Sumarização Abstrativa
Sumarização Extrativa
Transformer
LLMs
G-Eval
Processamento de Linguagem Natural
Sumarização automática de texto (SAT)
Linguagem natural
Computação
ODS 4 - Educação de Qualidade
ODS 9 - Indústria, Inovação e Infraestrutura
title_short Sumarização automática de artigos de notícias em português: da extração à abstração com abordagens clássicas e modelos neurais
title_full Sumarização automática de artigos de notícias em português: da extração à abstração com abordagens clássicas e modelos neurais
title_fullStr Sumarização automática de artigos de notícias em português: da extração à abstração com abordagens clássicas e modelos neurais
title_full_unstemmed Sumarização automática de artigos de notícias em português: da extração à abstração com abordagens clássicas e modelos neurais
title_sort Sumarização automática de artigos de notícias em português: da extração à abstração com abordagens clássicas e modelos neurais
author Sarmento, Marcio ALves
author_facet Sarmento, Marcio ALves
author_role author
dc.contributor.authorID.none.fl_str_mv https://orcid.org/0009-0008-7333-7866
dc.contributor.authorLattes.none.fl_str_mv http://lattes.cnpq.br/7401663176659423
dc.contributor.advisorID.none.fl_str_mv https://orcid.org/0000-0003-0643-7206
dc.contributor.advisorLattes.none.fl_str_mv De Oliveira, Hilário Tomaz Alves
dc.contributor.author.fl_str_mv Sarmento, Marcio ALves
dc.contributor.referee1.fl_str_mv Gazolli, Kelly Assis de Souza
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/0343732414150447
dc.contributor.referee2.fl_str_mv Cabral, Luciano de Souza
dc.contributor.referee2ID.fl_str_mv https://orcid.org/0000-0002-4235-5753
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/9195362898891079
dc.contributor.advisor1.fl_str_mv Hilário Tomaz Alves de Oliveira
contributor_str_mv Gazolli, Kelly Assis de Souza
Cabral, Luciano de Souza
Hilário Tomaz Alves de Oliveira
dc.subject.cnpq.fl_str_mv Ciências Exatas e da Terra::Ciência da Computação
topic Ciências Exatas e da Terra::Ciência da Computação
Grandes modelos de linguagem (LLMs)
Sumarização Abstrativa
Sumarização Extrativa
Transformer
LLMs
G-Eval
Processamento de Linguagem Natural
Sumarização automática de texto (SAT)
Linguagem natural
Computação
ODS 4 - Educação de Qualidade
ODS 9 - Indústria, Inovação e Infraestrutura
dc.subject.por.fl_str_mv Grandes modelos de linguagem (LLMs)
Sumarização Abstrativa
Sumarização Extrativa
Transformer
LLMs
G-Eval
Processamento de Linguagem Natural
Sumarização automática de texto (SAT)
Linguagem natural
dc.subject.capes.none.fl_str_mv Computação
dc.subject.ods.none.fl_str_mv ODS 4 - Educação de Qualidade
ODS 9 - Indústria, Inovação e Infraestrutura
description O aumento na produção de dados digitais tem intensificado os desafios relacionados à leitura e compreensão de grandes volumes de informação, evidenciando a necessidade de métodos capazes de sintetizar conteúdo de forma eficiente. Nesse contexto, a Sumarização Automática de Texto (SAT) destaca-se como uma ferramenta essencial, especialmente em sua vertente abstrativa, que gera resumos mais similares aos escritos por humanos por meio de técnicas de geração de linguagem natural. Apesar dos avanços recentes, os estudos voltados ao português do Brasil ainda são escassos. Este trabalho investigou métodos extrativos e abstrativos aplicados à sumarização de artigos de notícias em português do Brasil. Foram avaliados modelos baseados na arquitetura T5, como PTT5 e Flan-T5, ajustados com o corpus RecognaSumm, além de comparações com baselines clássicos, um sistema extrativo baseado em Programação Linear Inteira (PLI) e modelos de linguagem de larga escala (LLMs) proprietários e de código aberto, incluindo GPT-4o, GPT-3.5 Turbo, Gemma 2, LLaMA 3, LLaMA 4 Maverick, Sabiázinho-3 e Sabiá-3. Os experimentos foram conduzidos nos corpora TeMário, CSTNews e RecognaSumm, contemplando cenários de sumarização monodocumento e multidocumento. A avaliação dos resumos utilizou as métricas de similaridade textual ROUGE-L e BERTScore, além da estratégia G-Eval, que emprega LLMs como juízes automáticos. Os resultados experimentais demonstram que os modelos ajustados PTT5 e Flan-T5 apresentam desempenho competitivo nas medidas de avaliação tradicionais baseadas em similaridade, superando baselines extrativos em diversos cenários. Entretanto, os LLMs demonstraram melhor qualidade discursiva segundo o G-Eval, produzindo textos mais fluentes, coerentes e bem estruturados. As análises também revelam diferenças significativas entre métricas lexicais, semânticas e os valores gerados pelo G-Eval, indicando que essas abordagens capturam dimensões distintas da qualidade dos resumos. De forma geral, o estudo evidencia o potencial dos modelos baseados na arquitetura T5 ajustados para o português, a robustez dos métodos extrativos em contextos com restrições computacionais e o desempenho superior dos LLMs na geração de resumos abstrativos de alta qualidade textual, com destaque para Sabiá-3 e GPT-4o.
publishDate 2025
dc.date.issued.fl_str_mv 2025
dc.date.accessioned.fl_str_mv 2026-02-25T21:03:32Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ifes.edu.br/handle/123456789/8022
url https://repositorio.ifes.edu.br/handle/123456789/8022
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Instituto Federal do Espírito Santo
Campus Serra
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Computação Aplicada
dc.publisher.initials.fl_str_mv IFES
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Instituto Federal do Espírito Santo
Campus Serra
dc.source.none.fl_str_mv reponame:Repositório Institucional do IFES
instname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
instacron:IFES
instname_str Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
instacron_str IFES
institution IFES
reponame_str Repositório Institucional do IFES
collection Repositório Institucional do IFES
bitstream.url.fl_str_mv https://repositorio.ifes.edu.br/bitstreams/8e002595-50f8-4849-a5d0-34940d31fb42/download
https://repositorio.ifes.edu.br/bitstreams/7c64285b-c2e6-4598-a489-3048ae4198c4/download
https://repositorio.ifes.edu.br/bitstreams/c619b664-fbd6-4ef9-81d6-932f57beff0f/download
https://repositorio.ifes.edu.br/bitstreams/eda22827-139a-42db-8b72-041feef5bd4b/download
https://repositorio.ifes.edu.br/bitstreams/7a3fbc4c-2da9-4e45-be5a-da252d434587/download
bitstream.checksum.fl_str_mv b70a6d72567eac338dcd9df9b598df70
5668f6fd3cfdbfe64685fdfa950fc737
fba754f0467e45ac3862bc2533fb2736
411ffe9b8239c2c79164d087309ab7eb
384382a4696e36ef7050502fb74be1de
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
repository.mail.fl_str_mv repositorio@ifes.edu.br
_version_ 1865654640623747072