Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/100/100131/tde-22072024-160036/ |
Resumo: | As notícias falsas são um problema crítico para a sociedade, na medida em que os danos já podem ser vistos em várias partes dela, como democracia e saúde. A medida que as notícias falsas se multiplicam em quantidade e velocidade de propagação, identificá-las através de uma verificação manual de fatos torna-se impraticável. Portanto, um mecanismo de detecção automático de notícias falsas permitiria mitigar o problema. Neste cenário de detecção automática de notícias falsas, embora amplamente explorado na literatura, os trabalhos em sua maioria carecem de demonstrar a capacidade preditiva em corpora que não fizeram parte do treinamento. A fim de contribuir para esse assunto, o presente trabalho teve como objetivo avaliar a capacidade de generalização de classificadores de notícias falsas. Para tal, os modelos propostos foram treinados e avaliados em dois corpora anotados em português, utilizando avaliação intra-corpus tradicional com avaliação cruzada e uma avaliação inter-corpora, treinando em um corpus e avaliando no outro. Na tarefa de classificação, foi explorado informações léxicas, utilizado BERTimbau como modelo de língua, e informações morfossintática, utilizando Part of Speech. O desempenho do modelo foi avaliado em diferentes configurações, incluindo o uso de apenas informações léxicas, apenas informações morfossintáticas e ambas combinadas com a finalidade de encontrar o melhor conjunto. Os resultados demonstraram que os modelos léxicos baseados em BERTimbau foram os mais eficazes na detecção de notícias falsas. O BERTimbau com ajuste fino obteve a melhor acurácia nos dois corpora e um dos melhores F1-scores e o melhor Macro-F1 no outro corpus. No entanto, o desempenho foi significativamente inferior nas avaliações inter-corpus, indicando uma dificuldade em transferir aprendizado de um corpus para outro. Em contraste, a informação morfossintática não se mostrou muito promissora na classificação intra-corpus, contrariando as expectativas, e também não se mostrou útil na transferência de aprendizado entre corpora. |
| id |
USP_9215f9110dea6630edeff7bd5700b2be |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-22072024-160036 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em portuguêsCombining morphosyntactic and lexical features for fake news detection in PortugueseAutomatic Detection of Fake NewsClassificaçãoClassificationDetecção Automática de Notícias FalsasFake NewsLexicalLéxicoMorfossintáticoMorfossintaxeMorphosyntacticMorphosyntaxNotícias FalsasSintáticoSintaxeSyntacticSyntaxAs notícias falsas são um problema crítico para a sociedade, na medida em que os danos já podem ser vistos em várias partes dela, como democracia e saúde. A medida que as notícias falsas se multiplicam em quantidade e velocidade de propagação, identificá-las através de uma verificação manual de fatos torna-se impraticável. Portanto, um mecanismo de detecção automático de notícias falsas permitiria mitigar o problema. Neste cenário de detecção automática de notícias falsas, embora amplamente explorado na literatura, os trabalhos em sua maioria carecem de demonstrar a capacidade preditiva em corpora que não fizeram parte do treinamento. A fim de contribuir para esse assunto, o presente trabalho teve como objetivo avaliar a capacidade de generalização de classificadores de notícias falsas. Para tal, os modelos propostos foram treinados e avaliados em dois corpora anotados em português, utilizando avaliação intra-corpus tradicional com avaliação cruzada e uma avaliação inter-corpora, treinando em um corpus e avaliando no outro. Na tarefa de classificação, foi explorado informações léxicas, utilizado BERTimbau como modelo de língua, e informações morfossintática, utilizando Part of Speech. O desempenho do modelo foi avaliado em diferentes configurações, incluindo o uso de apenas informações léxicas, apenas informações morfossintáticas e ambas combinadas com a finalidade de encontrar o melhor conjunto. Os resultados demonstraram que os modelos léxicos baseados em BERTimbau foram os mais eficazes na detecção de notícias falsas. O BERTimbau com ajuste fino obteve a melhor acurácia nos dois corpora e um dos melhores F1-scores e o melhor Macro-F1 no outro corpus. No entanto, o desempenho foi significativamente inferior nas avaliações inter-corpus, indicando uma dificuldade em transferir aprendizado de um corpus para outro. Em contraste, a informação morfossintática não se mostrou muito promissora na classificação intra-corpus, contrariando as expectativas, e também não se mostrou útil na transferência de aprendizado entre corpora.Fake news is a critical problem for society, as the damage is present in various sectors, such as democracy and health. To help identify them, however, manual fact-checking becomes impractical as they grow in number and speed of propagation. An automatic mechanism to detect fake news can mitigate the problem. In this scenario of automatic fake news detection, although widely explored in the literature, most studies lack demonstrating predictive capability in corpora that were not part of the training. To contribute to this matter, the present study aims to evaluate the generalization ability of fake news classifiers. For this purpose, the proposed models were trained and assessed on two annotated corpora in Portuguese, using traditional intra-corpus evaluation with cross-validation and an inter-corpus evaluation, training on one corpus and evaluating on the other. In the classification task, lexical information was explored, using BERTimbau as the language model, and morphosyntactic information, using Part of Speech. The model\'s performance was evaluated in different configurations, including the use of only lexical information, only morphosyntactic information, and both combined in order to find the best set. The results showed that BERTimbau-based lexical models were the most effective in detecting fake news. Fine-tuned BERTimbau achieved the highest accuracy in both corpora, one of the best F1 scores, and the best Macro-F1 in the other corpus. However, the performance was significantly lower in inter-corpus evaluations, indicating difficulty in transferring learning from one corpus to another. In contrast, morphosyntactic information was not very promising, contrary to expectations, and also did not prove to be useful in transferring learning between corpora.Biblioteca Digitais de Teses e Dissertações da USPDigiampietri, Luciano AntonioRoman, Norton TrevisanFagundes, Matheus José Garcia2024-05-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-22072024-160036/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-10-20T11:55:02Zoai:teses.usp.br:tde-22072024-160036Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-10-20T11:55:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português Combining morphosyntactic and lexical features for fake news detection in Portuguese |
| title |
Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português |
| spellingShingle |
Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português Fagundes, Matheus José Garcia Automatic Detection of Fake News Classificação Classification Detecção Automática de Notícias Falsas Fake News Lexical Léxico Morfossintático Morfossintaxe Morphosyntactic Morphosyntax Notícias Falsas Sintático Sintaxe Syntactic Syntax |
| title_short |
Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português |
| title_full |
Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português |
| title_fullStr |
Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português |
| title_full_unstemmed |
Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português |
| title_sort |
Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português |
| author |
Fagundes, Matheus José Garcia |
| author_facet |
Fagundes, Matheus José Garcia |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Digiampietri, Luciano Antonio Roman, Norton Trevisan |
| dc.contributor.author.fl_str_mv |
Fagundes, Matheus José Garcia |
| dc.subject.por.fl_str_mv |
Automatic Detection of Fake News Classificação Classification Detecção Automática de Notícias Falsas Fake News Lexical Léxico Morfossintático Morfossintaxe Morphosyntactic Morphosyntax Notícias Falsas Sintático Sintaxe Syntactic Syntax |
| topic |
Automatic Detection of Fake News Classificação Classification Detecção Automática de Notícias Falsas Fake News Lexical Léxico Morfossintático Morfossintaxe Morphosyntactic Morphosyntax Notícias Falsas Sintático Sintaxe Syntactic Syntax |
| description |
As notícias falsas são um problema crítico para a sociedade, na medida em que os danos já podem ser vistos em várias partes dela, como democracia e saúde. A medida que as notícias falsas se multiplicam em quantidade e velocidade de propagação, identificá-las através de uma verificação manual de fatos torna-se impraticável. Portanto, um mecanismo de detecção automático de notícias falsas permitiria mitigar o problema. Neste cenário de detecção automática de notícias falsas, embora amplamente explorado na literatura, os trabalhos em sua maioria carecem de demonstrar a capacidade preditiva em corpora que não fizeram parte do treinamento. A fim de contribuir para esse assunto, o presente trabalho teve como objetivo avaliar a capacidade de generalização de classificadores de notícias falsas. Para tal, os modelos propostos foram treinados e avaliados em dois corpora anotados em português, utilizando avaliação intra-corpus tradicional com avaliação cruzada e uma avaliação inter-corpora, treinando em um corpus e avaliando no outro. Na tarefa de classificação, foi explorado informações léxicas, utilizado BERTimbau como modelo de língua, e informações morfossintática, utilizando Part of Speech. O desempenho do modelo foi avaliado em diferentes configurações, incluindo o uso de apenas informações léxicas, apenas informações morfossintáticas e ambas combinadas com a finalidade de encontrar o melhor conjunto. Os resultados demonstraram que os modelos léxicos baseados em BERTimbau foram os mais eficazes na detecção de notícias falsas. O BERTimbau com ajuste fino obteve a melhor acurácia nos dois corpora e um dos melhores F1-scores e o melhor Macro-F1 no outro corpus. No entanto, o desempenho foi significativamente inferior nas avaliações inter-corpus, indicando uma dificuldade em transferir aprendizado de um corpus para outro. Em contraste, a informação morfossintática não se mostrou muito promissora na classificação intra-corpus, contrariando as expectativas, e também não se mostrou útil na transferência de aprendizado entre corpora. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-05-24 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/100/100131/tde-22072024-160036/ |
| url |
https://www.teses.usp.br/teses/disponiveis/100/100131/tde-22072024-160036/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1848370476344147968 |