Sumarizando múltiplos websites para a geração do Wikipédia PT-BR automaticamente.

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Oliveira, André Seidel
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3141/tde-01032024-090345/
Resumo: A Wikipédia é uma importante fonte gratuita de conhecimento inteligível. Apesar disso, o portal em português do Brasil ainda carece de descrições para muitos assuntos. Em um esforço para expandir a Wikipédia brasileira, apresentamos PLSum, Portuguese Long Summarizer, um arcabouço para gerar resumos abstrativos no estilo da Wikipédia a partir de vários sítios (sites) descritivos. O arcabouço possui uma etapa extrativa seguida por uma abstrativa. Na etapa extrativa, extraem-se trechos de documentos sobre o tema de interesse e, na etapa abstrativa, ´e realizado um ajuste fino, buscando reescrever os trechos em um resumo coeso, correto e significativo. Em particular, para a etapa abstrativa, ajustamos e comparamos duas variações recentes da rede neural do tipo Transformer, a PTT5 e o Longformer. Já na etapa extrativa, inovamos ao propor um método baseado em agrupamento de representações semânticas vetoriais para seleção de sentenças relevantes. Para ajustar e avaliar os modelos, criamos uma base de dados para sumarização multi-documentos com milhares de exemplos, vinculando sítios de referência às páginas do Wikipédia. Nossos resultados mostram que é possível gerar resumos abstrativos significativos a partir do conteúdo da web em português do Brasil. Além disso, mostramos que o PLSum tem sucesso na aplicação da transferência de estilo de escrita, o que não é possível com as técnicas totalmente extrativas, predominantes na literatura. Por fim, nós também concluímos que o método de agrupamento de representações semânticas vetoriais possibilitou a extração de sentenças mais diversas na etapa extrativa.
id USP_6aedf1cf05e00ef2011d288f6720f7d0
oai_identifier_str oai:teses.usp.br:tde-01032024-090345
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Sumarizando múltiplos websites para a geração do Wikipédia PT-BR automaticamente.Summarizing multiple websites for automatic PT-BR wikipedia generation.Abstractive summarizationInteligência artificialMachine learningMulti-document summarizationNatural language processingProcessamento de linguagem naturalRedes neuraisA Wikipédia é uma importante fonte gratuita de conhecimento inteligível. Apesar disso, o portal em português do Brasil ainda carece de descrições para muitos assuntos. Em um esforço para expandir a Wikipédia brasileira, apresentamos PLSum, Portuguese Long Summarizer, um arcabouço para gerar resumos abstrativos no estilo da Wikipédia a partir de vários sítios (sites) descritivos. O arcabouço possui uma etapa extrativa seguida por uma abstrativa. Na etapa extrativa, extraem-se trechos de documentos sobre o tema de interesse e, na etapa abstrativa, ´e realizado um ajuste fino, buscando reescrever os trechos em um resumo coeso, correto e significativo. Em particular, para a etapa abstrativa, ajustamos e comparamos duas variações recentes da rede neural do tipo Transformer, a PTT5 e o Longformer. Já na etapa extrativa, inovamos ao propor um método baseado em agrupamento de representações semânticas vetoriais para seleção de sentenças relevantes. Para ajustar e avaliar os modelos, criamos uma base de dados para sumarização multi-documentos com milhares de exemplos, vinculando sítios de referência às páginas do Wikipédia. Nossos resultados mostram que é possível gerar resumos abstrativos significativos a partir do conteúdo da web em português do Brasil. Além disso, mostramos que o PLSum tem sucesso na aplicação da transferência de estilo de escrita, o que não é possível com as técnicas totalmente extrativas, predominantes na literatura. Por fim, nós também concluímos que o método de agrupamento de representações semânticas vetoriais possibilitou a extração de sentenças mais diversas na etapa extrativa.Wikipedia is an essential free source of intelligible knowledge. Despite that, the Brazilian Portuguese portal still lacks descriptions for many subjects. To expand the Brazilian Wikipedia, we present PLSum, Portuguese Long Summarizer, a framework for generating wiki-like abstractive summaries from multiple descriptive websites. The framework has an extractive stage followed by an abstractive one. In the extractive stage, parts from documents are extracted on the topic of interest. Then in the abstractive step, fine-tuning is performed, seeking to rewrite the excerpts in a cohesive, correct, and meaningful summary. In particular, we fine-tune and compare two recent variations of the Transformer neural network for the abstractive stage, PTT5 and Longformer. In the extractive stage, we propose a new method based on clustering dense semantic representations to select the most relevant sentences. To fine-tune and evaluate the model, we created a dataset with thousands of examples, linking reference websites to Wikipedia. Our final results show that it is possible to generate meaningful abstractive summaries from Brazilian Portuguese web content. PLSum successfully applies style transfer, which is not possible with fully extractive techniques that are predominant in Brazilian literature. Finally, we also concluded that the use of dense semantic representations for the extractive stage enabled the selection of diverse sentences, making a non repetitive extractive summary.Biblioteca Digitais de Teses e Dissertações da USPCosta, Anna Helena RealiOliveira, André Seidel2023-06-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3141/tde-01032024-090345/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-09T12:45:09Zoai:teses.usp.br:tde-01032024-090345Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-09T12:45:09Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Sumarizando múltiplos websites para a geração do Wikipédia PT-BR automaticamente.
Summarizing multiple websites for automatic PT-BR wikipedia generation.
title Sumarizando múltiplos websites para a geração do Wikipédia PT-BR automaticamente.
spellingShingle Sumarizando múltiplos websites para a geração do Wikipédia PT-BR automaticamente.
Oliveira, André Seidel
Abstractive summarization
Inteligência artificial
Machine learning
Multi-document summarization
Natural language processing
Processamento de linguagem natural
Redes neurais
title_short Sumarizando múltiplos websites para a geração do Wikipédia PT-BR automaticamente.
title_full Sumarizando múltiplos websites para a geração do Wikipédia PT-BR automaticamente.
title_fullStr Sumarizando múltiplos websites para a geração do Wikipédia PT-BR automaticamente.
title_full_unstemmed Sumarizando múltiplos websites para a geração do Wikipédia PT-BR automaticamente.
title_sort Sumarizando múltiplos websites para a geração do Wikipédia PT-BR automaticamente.
author Oliveira, André Seidel
author_facet Oliveira, André Seidel
author_role author
dc.contributor.none.fl_str_mv Costa, Anna Helena Reali
dc.contributor.author.fl_str_mv Oliveira, André Seidel
dc.subject.por.fl_str_mv Abstractive summarization
Inteligência artificial
Machine learning
Multi-document summarization
Natural language processing
Processamento de linguagem natural
Redes neurais
topic Abstractive summarization
Inteligência artificial
Machine learning
Multi-document summarization
Natural language processing
Processamento de linguagem natural
Redes neurais
description A Wikipédia é uma importante fonte gratuita de conhecimento inteligível. Apesar disso, o portal em português do Brasil ainda carece de descrições para muitos assuntos. Em um esforço para expandir a Wikipédia brasileira, apresentamos PLSum, Portuguese Long Summarizer, um arcabouço para gerar resumos abstrativos no estilo da Wikipédia a partir de vários sítios (sites) descritivos. O arcabouço possui uma etapa extrativa seguida por uma abstrativa. Na etapa extrativa, extraem-se trechos de documentos sobre o tema de interesse e, na etapa abstrativa, ´e realizado um ajuste fino, buscando reescrever os trechos em um resumo coeso, correto e significativo. Em particular, para a etapa abstrativa, ajustamos e comparamos duas variações recentes da rede neural do tipo Transformer, a PTT5 e o Longformer. Já na etapa extrativa, inovamos ao propor um método baseado em agrupamento de representações semânticas vetoriais para seleção de sentenças relevantes. Para ajustar e avaliar os modelos, criamos uma base de dados para sumarização multi-documentos com milhares de exemplos, vinculando sítios de referência às páginas do Wikipédia. Nossos resultados mostram que é possível gerar resumos abstrativos significativos a partir do conteúdo da web em português do Brasil. Além disso, mostramos que o PLSum tem sucesso na aplicação da transferência de estilo de escrita, o que não é possível com as técnicas totalmente extrativas, predominantes na literatura. Por fim, nós também concluímos que o método de agrupamento de representações semânticas vetoriais possibilitou a extração de sentenças mais diversas na etapa extrativa.
publishDate 2023
dc.date.none.fl_str_mv 2023-06-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/3/3141/tde-01032024-090345/
url https://www.teses.usp.br/teses/disponiveis/3/3141/tde-01032024-090345/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1818279159708778496