Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português

Fagundes, Matheus José Garcia

Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Fagundes, Matheus José Garcia
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Automatic Detection of Fake News Classificação Classification Detecção Automática de Notícias Falsas Fake News Lexical Léxico Morfossintático Morfossintaxe Morphosyntactic Morphosyntax Notícias Falsas Sintático Sintaxe Syntactic Syntax
Link de acesso:	https://www.teses.usp.br/teses/disponiveis/100/100131/tde-22072024-160036/
Resumo:	As notícias falsas são um problema crítico para a sociedade, na medida em que os danos já podem ser vistos em várias partes dela, como democracia e saúde. A medida que as notícias falsas se multiplicam em quantidade e velocidade de propagação, identificá-las através de uma verificação manual de fatos torna-se impraticável. Portanto, um mecanismo de detecção automático de notícias falsas permitiria mitigar o problema. Neste cenário de detecção automática de notícias falsas, embora amplamente explorado na literatura, os trabalhos em sua maioria carecem de demonstrar a capacidade preditiva em corpora que não fizeram parte do treinamento. A fim de contribuir para esse assunto, o presente trabalho teve como objetivo avaliar a capacidade de generalização de classificadores de notícias falsas. Para tal, os modelos propostos foram treinados e avaliados em dois corpora anotados em português, utilizando avaliação intra-corpus tradicional com avaliação cruzada e uma avaliação inter-corpora, treinando em um corpus e avaliando no outro. Na tarefa de classificação, foi explorado informações léxicas, utilizado BERTimbau como modelo de língua, e informações morfossintática, utilizando Part of Speech. O desempenho do modelo foi avaliado em diferentes configurações, incluindo o uso de apenas informações léxicas, apenas informações morfossintáticas e ambas combinadas com a finalidade de encontrar o melhor conjunto. Os resultados demonstraram que os modelos léxicos baseados em BERTimbau foram os mais eficazes na detecção de notícias falsas. O BERTimbau com ajuste fino obteve a melhor acurácia nos dois corpora e um dos melhores F1-scores e o melhor Macro-F1 no outro corpus. No entanto, o desempenho foi significativamente inferior nas avaliações inter-corpus, indicando uma dificuldade em transferir aprendizado de um corpus para outro. Em contraste, a informação morfossintática não se mostrou muito promissora na classificação intra-corpus, contrariando as expectativas, e também não se mostrou útil na transferência de aprendizado entre corpora.

Metadados do item

id	USP_9215f9110dea6630edeff7bd5700b2be
oai_identifier_str	oai:teses.usp.br:tde-22072024-160036
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling	Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em portuguêsCombining morphosyntactic and lexical features for fake news detection in PortugueseAutomatic Detection of Fake NewsClassificaçãoClassificationDetecção Automática de Notícias FalsasFake NewsLexicalLéxicoMorfossintáticoMorfossintaxeMorphosyntacticMorphosyntaxNotícias FalsasSintáticoSintaxeSyntacticSyntaxAs notícias falsas são um problema crítico para a sociedade, na medida em que os danos já podem ser vistos em várias partes dela, como democracia e saúde. A medida que as notícias falsas se multiplicam em quantidade e velocidade de propagação, identificá-las através de uma verificação manual de fatos torna-se impraticável. Portanto, um mecanismo de detecção automático de notícias falsas permitiria mitigar o problema. Neste cenário de detecção automática de notícias falsas, embora amplamente explorado na literatura, os trabalhos em sua maioria carecem de demonstrar a capacidade preditiva em corpora que não fizeram parte do treinamento. A fim de contribuir para esse assunto, o presente trabalho teve como objetivo avaliar a capacidade de generalização de classificadores de notícias falsas. Para tal, os modelos propostos foram treinados e avaliados em dois corpora anotados em português, utilizando avaliação intra-corpus tradicional com avaliação cruzada e uma avaliação inter-corpora, treinando em um corpus e avaliando no outro. Na tarefa de classificação, foi explorado informações léxicas, utilizado BERTimbau como modelo de língua, e informações morfossintática, utilizando Part of Speech. O desempenho do modelo foi avaliado em diferentes configurações, incluindo o uso de apenas informações léxicas, apenas informações morfossintáticas e ambas combinadas com a finalidade de encontrar o melhor conjunto. Os resultados demonstraram que os modelos léxicos baseados em BERTimbau foram os mais eficazes na detecção de notícias falsas. O BERTimbau com ajuste fino obteve a melhor acurácia nos dois corpora e um dos melhores F1-scores e o melhor Macro-F1 no outro corpus. No entanto, o desempenho foi significativamente inferior nas avaliações inter-corpus, indicando uma dificuldade em transferir aprendizado de um corpus para outro. Em contraste, a informação morfossintática não se mostrou muito promissora na classificação intra-corpus, contrariando as expectativas, e também não se mostrou útil na transferência de aprendizado entre corpora.Fake news is a critical problem for society, as the damage is present in various sectors, such as democracy and health. To help identify them, however, manual fact-checking becomes impractical as they grow in number and speed of propagation. An automatic mechanism to detect fake news can mitigate the problem. In this scenario of automatic fake news detection, although widely explored in the literature, most studies lack demonstrating predictive capability in corpora that were not part of the training. To contribute to this matter, the present study aims to evaluate the generalization ability of fake news classifiers. For this purpose, the proposed models were trained and assessed on two annotated corpora in Portuguese, using traditional intra-corpus evaluation with cross-validation and an inter-corpus evaluation, training on one corpus and evaluating on the other. In the classification task, lexical information was explored, using BERTimbau as the language model, and morphosyntactic information, using Part of Speech. The model\'s performance was evaluated in different configurations, including the use of only lexical information, only morphosyntactic information, and both combined in order to find the best set. The results showed that BERTimbau-based lexical models were the most effective in detecting fake news. Fine-tuned BERTimbau achieved the highest accuracy in both corpora, one of the best F1 scores, and the best Macro-F1 in the other corpus. However, the performance was significantly lower in inter-corpus evaluations, indicating difficulty in transferring learning from one corpus to another. In contrast, morphosyntactic information was not very promising, contrary to expectations, and also did not prove to be useful in transferring learning between corpora.Biblioteca Digitais de Teses e Dissertações da USPDigiampietri, Luciano AntonioRoman, Norton TrevisanFagundes, Matheus José Garcia2024-05-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-22072024-160036/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-10-20T11:55:02Zoai:teses.usp.br:tde-22072024-160036Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212025-10-20T11:55:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português Combining morphosyntactic and lexical features for fake news detection in Portuguese
title	Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português
spellingShingle	Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português Fagundes, Matheus José Garcia Automatic Detection of Fake News Classificação Classification Detecção Automática de Notícias Falsas Fake News Lexical Léxico Morfossintático Morfossintaxe Morphosyntactic Morphosyntax Notícias Falsas Sintático Sintaxe Syntactic Syntax
title_short	Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português
title_full	Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português
title_fullStr	Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português
title_full_unstemmed	Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português
title_sort	Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português
author	Fagundes, Matheus José Garcia
author_facet	Fagundes, Matheus José Garcia
author_role	author
dc.contributor.none.fl_str_mv	Digiampietri, Luciano Antonio Roman, Norton Trevisan
dc.contributor.author.fl_str_mv	Fagundes, Matheus José Garcia
dc.subject.por.fl_str_mv	Automatic Detection of Fake News Classificação Classification Detecção Automática de Notícias Falsas Fake News Lexical Léxico Morfossintático Morfossintaxe Morphosyntactic Morphosyntax Notícias Falsas Sintático Sintaxe Syntactic Syntax
topic	Automatic Detection of Fake News Classificação Classification Detecção Automática de Notícias Falsas Fake News Lexical Léxico Morfossintático Morfossintaxe Morphosyntactic Morphosyntax Notícias Falsas Sintático Sintaxe Syntactic Syntax
description	As notícias falsas são um problema crítico para a sociedade, na medida em que os danos já podem ser vistos em várias partes dela, como democracia e saúde. A medida que as notícias falsas se multiplicam em quantidade e velocidade de propagação, identificá-las através de uma verificação manual de fatos torna-se impraticável. Portanto, um mecanismo de detecção automático de notícias falsas permitiria mitigar o problema. Neste cenário de detecção automática de notícias falsas, embora amplamente explorado na literatura, os trabalhos em sua maioria carecem de demonstrar a capacidade preditiva em corpora que não fizeram parte do treinamento. A fim de contribuir para esse assunto, o presente trabalho teve como objetivo avaliar a capacidade de generalização de classificadores de notícias falsas. Para tal, os modelos propostos foram treinados e avaliados em dois corpora anotados em português, utilizando avaliação intra-corpus tradicional com avaliação cruzada e uma avaliação inter-corpora, treinando em um corpus e avaliando no outro. Na tarefa de classificação, foi explorado informações léxicas, utilizado BERTimbau como modelo de língua, e informações morfossintática, utilizando Part of Speech. O desempenho do modelo foi avaliado em diferentes configurações, incluindo o uso de apenas informações léxicas, apenas informações morfossintáticas e ambas combinadas com a finalidade de encontrar o melhor conjunto. Os resultados demonstraram que os modelos léxicos baseados em BERTimbau foram os mais eficazes na detecção de notícias falsas. O BERTimbau com ajuste fino obteve a melhor acurácia nos dois corpora e um dos melhores F1-scores e o melhor Macro-F1 no outro corpus. No entanto, o desempenho foi significativamente inferior nas avaliações inter-corpus, indicando uma dificuldade em transferir aprendizado de um corpus para outro. Em contraste, a informação morfossintática não se mostrou muito promissora na classificação intra-corpus, contrariando as expectativas, e também não se mostrou útil na transferência de aprendizado entre corpora.
publishDate	2024
dc.date.none.fl_str_mv	2024-05-24
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/100/100131/tde-22072024-160036/
url	https://www.teses.usp.br/teses/disponiveis/100/100131/tde-22072024-160036/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1848370476344147968

Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português

Registros relacionados