Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Fagundes, Matheus José Garcia
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/100/100131/tde-22072024-160036/
Resumo: As notícias falsas são um problema crítico para a sociedade, na medida em que os danos já podem ser vistos em várias partes dela, como democracia e saúde. A medida que as notícias falsas se multiplicam em quantidade e velocidade de propagação, identificá-las através de uma verificação manual de fatos torna-se impraticável. Portanto, um mecanismo de detecção automático de notícias falsas permitiria mitigar o problema. Neste cenário de detecção automática de notícias falsas, embora amplamente explorado na literatura, os trabalhos em sua maioria carecem de demonstrar a capacidade preditiva em corpora que não fizeram parte do treinamento. A fim de contribuir para esse assunto, o presente trabalho teve como objetivo avaliar a capacidade de generalização de classificadores de notícias falsas. Para tal, os modelos propostos foram treinados e avaliados em dois corpora anotados em português, utilizando avaliação intra-corpus tradicional com avaliação cruzada e uma avaliação inter-corpora, treinando em um corpus e avaliando no outro. Na tarefa de classificação, foi explorado informações léxicas, utilizado BERTimbau como modelo de língua, e informações morfossintática, utilizando Part of Speech. O desempenho do modelo foi avaliado em diferentes configurações, incluindo o uso de apenas informações léxicas, apenas informações morfossintáticas e ambas combinadas com a finalidade de encontrar o melhor conjunto. Os resultados demonstraram que os modelos léxicos baseados em BERTimbau foram os mais eficazes na detecção de notícias falsas. O BERTimbau com ajuste fino obteve a melhor acurácia nos dois corpora e um dos melhores F1-scores e o melhor Macro-F1 no outro corpus. No entanto, o desempenho foi significativamente inferior nas avaliações inter-corpus, indicando uma dificuldade em transferir aprendizado de um corpus para outro. Em contraste, a informação morfossintática não se mostrou muito promissora na classificação intra-corpus, contrariando as expectativas, e também não se mostrou útil na transferência de aprendizado entre corpora.
id USP_9215f9110dea6630edeff7bd5700b2be
oai_identifier_str oai:teses.usp.br:tde-22072024-160036
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em portuguêsCombining morphosyntactic and lexical features for fake news detection in PortugueseAutomatic Detection of Fake NewsClassificaçãoClassificationDetecção Automática de Notícias FalsasFake NewsLexicalLéxicoMorfossintáticoMorfossintaxeMorphosyntacticMorphosyntaxNotícias FalsasSintáticoSintaxeSyntacticSyntaxAs notícias falsas são um problema crítico para a sociedade, na medida em que os danos já podem ser vistos em várias partes dela, como democracia e saúde. A medida que as notícias falsas se multiplicam em quantidade e velocidade de propagação, identificá-las através de uma verificação manual de fatos torna-se impraticável. Portanto, um mecanismo de detecção automático de notícias falsas permitiria mitigar o problema. Neste cenário de detecção automática de notícias falsas, embora amplamente explorado na literatura, os trabalhos em sua maioria carecem de demonstrar a capacidade preditiva em corpora que não fizeram parte do treinamento. A fim de contribuir para esse assunto, o presente trabalho teve como objetivo avaliar a capacidade de generalização de classificadores de notícias falsas. Para tal, os modelos propostos foram treinados e avaliados em dois corpora anotados em português, utilizando avaliação intra-corpus tradicional com avaliação cruzada e uma avaliação inter-corpora, treinando em um corpus e avaliando no outro. Na tarefa de classificação, foi explorado informações léxicas, utilizado BERTimbau como modelo de língua, e informações morfossintática, utilizando Part of Speech. O desempenho do modelo foi avaliado em diferentes configurações, incluindo o uso de apenas informações léxicas, apenas informações morfossintáticas e ambas combinadas com a finalidade de encontrar o melhor conjunto. Os resultados demonstraram que os modelos léxicos baseados em BERTimbau foram os mais eficazes na detecção de notícias falsas. O BERTimbau com ajuste fino obteve a melhor acurácia nos dois corpora e um dos melhores F1-scores e o melhor Macro-F1 no outro corpus. No entanto, o desempenho foi significativamente inferior nas avaliações inter-corpus, indicando uma dificuldade em transferir aprendizado de um corpus para outro. Em contraste, a informação morfossintática não se mostrou muito promissora na classificação intra-corpus, contrariando as expectativas, e também não se mostrou útil na transferência de aprendizado entre corpora.Fake news is a critical problem for society, as the damage is present in various sectors, such as democracy and health. To help identify them, however, manual fact-checking becomes impractical as they grow in number and speed of propagation. An automatic mechanism to detect fake news can mitigate the problem. In this scenario of automatic fake news detection, although widely explored in the literature, most studies lack demonstrating predictive capability in corpora that were not part of the training. To contribute to this matter, the present study aims to evaluate the generalization ability of fake news classifiers. For this purpose, the proposed models were trained and assessed on two annotated corpora in Portuguese, using traditional intra-corpus evaluation with cross-validation and an inter-corpus evaluation, training on one corpus and evaluating on the other. In the classification task, lexical information was explored, using BERTimbau as the language model, and morphosyntactic information, using Part of Speech. The model\'s performance was evaluated in different configurations, including the use of only lexical information, only morphosyntactic information, and both combined in order to find the best set. The results showed that BERTimbau-based lexical models were the most effective in detecting fake news. Fine-tuned BERTimbau achieved the highest accuracy in both corpora, one of the best F1 scores, and the best Macro-F1 in the other corpus. However, the performance was significantly lower in inter-corpus evaluations, indicating difficulty in transferring learning from one corpus to another. In contrast, morphosyntactic information was not very promising, contrary to expectations, and also did not prove to be useful in transferring learning between corpora.Biblioteca Digitais de Teses e Dissertações da USPDigiampietri, Luciano AntonioRoman, Norton TrevisanFagundes, Matheus José Garcia2024-05-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-22072024-160036/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-10-20T11:55:02Zoai:teses.usp.br:tde-22072024-160036Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-10-20T11:55:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português
Combining morphosyntactic and lexical features for fake news detection in Portuguese
title Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português
spellingShingle Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português
Fagundes, Matheus José Garcia
Automatic Detection of Fake News
Classificação
Classification
Detecção Automática de Notícias Falsas
Fake News
Lexical
Léxico
Morfossintático
Morfossintaxe
Morphosyntactic
Morphosyntax
Notícias Falsas
Sintático
Sintaxe
Syntactic
Syntax
title_short Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português
title_full Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português
title_fullStr Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português
title_full_unstemmed Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português
title_sort Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português
author Fagundes, Matheus José Garcia
author_facet Fagundes, Matheus José Garcia
author_role author
dc.contributor.none.fl_str_mv Digiampietri, Luciano Antonio
Roman, Norton Trevisan
dc.contributor.author.fl_str_mv Fagundes, Matheus José Garcia
dc.subject.por.fl_str_mv Automatic Detection of Fake News
Classificação
Classification
Detecção Automática de Notícias Falsas
Fake News
Lexical
Léxico
Morfossintático
Morfossintaxe
Morphosyntactic
Morphosyntax
Notícias Falsas
Sintático
Sintaxe
Syntactic
Syntax
topic Automatic Detection of Fake News
Classificação
Classification
Detecção Automática de Notícias Falsas
Fake News
Lexical
Léxico
Morfossintático
Morfossintaxe
Morphosyntactic
Morphosyntax
Notícias Falsas
Sintático
Sintaxe
Syntactic
Syntax
description As notícias falsas são um problema crítico para a sociedade, na medida em que os danos já podem ser vistos em várias partes dela, como democracia e saúde. A medida que as notícias falsas se multiplicam em quantidade e velocidade de propagação, identificá-las através de uma verificação manual de fatos torna-se impraticável. Portanto, um mecanismo de detecção automático de notícias falsas permitiria mitigar o problema. Neste cenário de detecção automática de notícias falsas, embora amplamente explorado na literatura, os trabalhos em sua maioria carecem de demonstrar a capacidade preditiva em corpora que não fizeram parte do treinamento. A fim de contribuir para esse assunto, o presente trabalho teve como objetivo avaliar a capacidade de generalização de classificadores de notícias falsas. Para tal, os modelos propostos foram treinados e avaliados em dois corpora anotados em português, utilizando avaliação intra-corpus tradicional com avaliação cruzada e uma avaliação inter-corpora, treinando em um corpus e avaliando no outro. Na tarefa de classificação, foi explorado informações léxicas, utilizado BERTimbau como modelo de língua, e informações morfossintática, utilizando Part of Speech. O desempenho do modelo foi avaliado em diferentes configurações, incluindo o uso de apenas informações léxicas, apenas informações morfossintáticas e ambas combinadas com a finalidade de encontrar o melhor conjunto. Os resultados demonstraram que os modelos léxicos baseados em BERTimbau foram os mais eficazes na detecção de notícias falsas. O BERTimbau com ajuste fino obteve a melhor acurácia nos dois corpora e um dos melhores F1-scores e o melhor Macro-F1 no outro corpus. No entanto, o desempenho foi significativamente inferior nas avaliações inter-corpus, indicando uma dificuldade em transferir aprendizado de um corpus para outro. Em contraste, a informação morfossintática não se mostrou muito promissora na classificação intra-corpus, contrariando as expectativas, e também não se mostrou útil na transferência de aprendizado entre corpora.
publishDate 2024
dc.date.none.fl_str_mv 2024-05-24
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/100/100131/tde-22072024-160036/
url https://www.teses.usp.br/teses/disponiveis/100/100131/tde-22072024-160036/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1848370476344147968