Exportação concluída — 

Detecção automática de notícias falsas em português

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Santos, Roney Lira de Sales
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-14072022-165613/
Resumo: A propagação e produção das notícias falsas são um problema atual e perigoso, que pode atingir as pessoas com consequências terríveis. Elas podem influenciar um grande número de pessoas em uma ampla gama de assuntos, que vão desde política à saúde. Embora sempre tenham existido, por meio de fofocas e tabloides, o volume de notícias falsas aumentou recentemente devido ao crescente número de usuários de redes sociais e mensageiros instantâneos, por conta da facilidade que se tem ao acesso a tais ambientes. Essas notícias podem causar perdas diretas a pessoas e corporações, pois notícias falsas podem incluir difamação de pessoas, produtos e empresas, por terem uma natureza apelativa. A dificuldade do humano de identificar as notícias falsas já foi foco de pesquisas que comprovaram esse fato, que pode estar relacionado a crenças e opiniões próprias que o humano não consegue distinguir do fato, além de não procurar o contexto que a notícia está inserida. Uma vez que a propagação de notícias falsas alcançou um ponto crítico, iniciativas de combate começaram a surgir. Entretanto, a escassez de conjunto de dados rotulados, principalmente em português, impedia que os classificadores filtrassem automaticamente esses documentos. Além disso, a falta de métodos e abordagens de checagem de fatos automática, também principalmente para o português, faz com que o trabalho manual esteja sujeito a erros e opiniões humanas, o que é altamente prejudicial nas tentativas de combate a esse problema. Esta tese de doutorado tem como objetivo a investigação e proposição de abordagens que contenham métodos para a detecção de notícias falsas na língua portuguesa, por meio da análise linguística do texto e de checagem de fatos automática, uma vez que tem-se a hipótese de que as notícias falsas deixam pistas linguísticas que as fazem detectáveis, em comparação com notícias verdadeiras. Inspirado em iniciativas anteriores para outras línguas, é apresentado o primeiro corpus de referência nesta área para o português, composto por notícias verdadeiras e falsas alinhadas, que foram analisadas para descobrir alguns dos atributos linguísticos das notícias, denominado de FAKE.BR CORPUS. A partir dele, usando os atributos linguísticos extraídos, formas de representação textual, algoritmos de aprendizado de máquina e estruturas que mapeiam os eventos das notícias, como os grafos de conhecimento, nesta tese são detalhadas as abordagens adaptadas de outras línguas, bem como a proposição de novas abordagens para a detecção de notícias falsas em três tipos de abordagens: baseadas em atributos linguísticos baseadas no conteúdo e baseadas na estrutura do texto. Os resultados alcançados são promissores e mostram que há uma direção a ser tomada na difícil tarefa que é a detecção de notícias falsas na web, com contribuição para o PLN no português.
id USP_286272f6d0f5b65b86ead375b5e153af
oai_identifier_str oai:teses.usp.br:tde-14072022-165613
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Detecção automática de notícias falsas em portuguêsAutomatic detection of fake News in portugueseAprendizado de máquinaAtributos linguísticosChecagem de fatosFact-checkingFake NewsGrafo de conhecimentoKnowledge graphLinguistic featuresMachine learningNotícia FalsaA propagação e produção das notícias falsas são um problema atual e perigoso, que pode atingir as pessoas com consequências terríveis. Elas podem influenciar um grande número de pessoas em uma ampla gama de assuntos, que vão desde política à saúde. Embora sempre tenham existido, por meio de fofocas e tabloides, o volume de notícias falsas aumentou recentemente devido ao crescente número de usuários de redes sociais e mensageiros instantâneos, por conta da facilidade que se tem ao acesso a tais ambientes. Essas notícias podem causar perdas diretas a pessoas e corporações, pois notícias falsas podem incluir difamação de pessoas, produtos e empresas, por terem uma natureza apelativa. A dificuldade do humano de identificar as notícias falsas já foi foco de pesquisas que comprovaram esse fato, que pode estar relacionado a crenças e opiniões próprias que o humano não consegue distinguir do fato, além de não procurar o contexto que a notícia está inserida. Uma vez que a propagação de notícias falsas alcançou um ponto crítico, iniciativas de combate começaram a surgir. Entretanto, a escassez de conjunto de dados rotulados, principalmente em português, impedia que os classificadores filtrassem automaticamente esses documentos. Além disso, a falta de métodos e abordagens de checagem de fatos automática, também principalmente para o português, faz com que o trabalho manual esteja sujeito a erros e opiniões humanas, o que é altamente prejudicial nas tentativas de combate a esse problema. Esta tese de doutorado tem como objetivo a investigação e proposição de abordagens que contenham métodos para a detecção de notícias falsas na língua portuguesa, por meio da análise linguística do texto e de checagem de fatos automática, uma vez que tem-se a hipótese de que as notícias falsas deixam pistas linguísticas que as fazem detectáveis, em comparação com notícias verdadeiras. Inspirado em iniciativas anteriores para outras línguas, é apresentado o primeiro corpus de referência nesta área para o português, composto por notícias verdadeiras e falsas alinhadas, que foram analisadas para descobrir alguns dos atributos linguísticos das notícias, denominado de FAKE.BR CORPUS. A partir dele, usando os atributos linguísticos extraídos, formas de representação textual, algoritmos de aprendizado de máquina e estruturas que mapeiam os eventos das notícias, como os grafos de conhecimento, nesta tese são detalhadas as abordagens adaptadas de outras línguas, bem como a proposição de novas abordagens para a detecção de notícias falsas em três tipos de abordagens: baseadas em atributos linguísticos baseadas no conteúdo e baseadas na estrutura do texto. Os resultados alcançados são promissores e mostram que há uma direção a ser tomada na difícil tarefa que é a detecção de notícias falsas na web, com contribuição para o PLN no português.The propagation and production of fake news is a current and dangerous problem, which can affect people with dire consequences. They can influence a large number of people on a wide range of subjects, ranging from politics to health. Although they have always existed, through gossip and tabloids, the volume of fake news has increased recently due to the growing number of social networks and instant messengers users, due to the ease of access to such environments. Such news can cause direct losses to people and corporations, as fake news may include defamation of people, products and companies, as they have an appealing nature. The humans difficulty in identifying fake news has already been the focus of research that proved this fact, which may be related to beliefs and opinions that humans cannot distinguish from the fact, in addition to not looking for the context in which the news is inserted. Once the spread of fake news reached a critical point, combat initiatives began to emerge. However, the scarcity of labeled datasets, mainly in Portuguese, prevented the classifiers from automatically filtering these documents. In addition, the lack of automatic fact-checking methods and approaches, also mainly for Portuguese, makes manual work subject to errors and human opinions, which is highly harmful in attempts to combat this problem. This doctoral thesis aims to investigate and propose approaches that contain methods for the detection of fake news in Portuguese, through linguistic analysis of the text and automatic fact checking, since there is the hypothesis that fake news leaves linguistic clues that make it detectable, compared to true news. Inspired by previous initiatives for other languages, the first reference corpus in this area for Portuguese is presented, composed of fake and true news aligned, which were analyzed to discover some of the linguistic features of the news, called FAKE.BR CORPUS. From it, using the extracted linguistic features, forms of textual representation, machine learning algorithms and structures that map news events, such as knowledge graphs, we the adapted approaches from other languages are detailed, as well as the proposition of new approaches to detecting fake news in three types of approaches: language-based, content-based and text structure-based. The results achieved are promising and show that there is a direction to be taken in the difficult task that is the detection of fake news on the web, with contribution to the PLN in Portuguese.Biblioteca Digitais de Teses e Dissertações da USPPardo, Thiago Alexandre SalgueiroSantos, Roney Lira de Sales2022-05-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-14072022-165613/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2022-07-14T20:00:50Zoai:teses.usp.br:tde-14072022-165613Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212022-07-14T20:00:50Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Detecção automática de notícias falsas em português
Automatic detection of fake News in portuguese
title Detecção automática de notícias falsas em português
spellingShingle Detecção automática de notícias falsas em português
Santos, Roney Lira de Sales
Aprendizado de máquina
Atributos linguísticos
Checagem de fatos
Fact-checking
Fake News
Grafo de conhecimento
Knowledge graph
Linguistic features
Machine learning
Notícia Falsa
title_short Detecção automática de notícias falsas em português
title_full Detecção automática de notícias falsas em português
title_fullStr Detecção automática de notícias falsas em português
title_full_unstemmed Detecção automática de notícias falsas em português
title_sort Detecção automática de notícias falsas em português
author Santos, Roney Lira de Sales
author_facet Santos, Roney Lira de Sales
author_role author
dc.contributor.none.fl_str_mv Pardo, Thiago Alexandre Salgueiro
dc.contributor.author.fl_str_mv Santos, Roney Lira de Sales
dc.subject.por.fl_str_mv Aprendizado de máquina
Atributos linguísticos
Checagem de fatos
Fact-checking
Fake News
Grafo de conhecimento
Knowledge graph
Linguistic features
Machine learning
Notícia Falsa
topic Aprendizado de máquina
Atributos linguísticos
Checagem de fatos
Fact-checking
Fake News
Grafo de conhecimento
Knowledge graph
Linguistic features
Machine learning
Notícia Falsa
description A propagação e produção das notícias falsas são um problema atual e perigoso, que pode atingir as pessoas com consequências terríveis. Elas podem influenciar um grande número de pessoas em uma ampla gama de assuntos, que vão desde política à saúde. Embora sempre tenham existido, por meio de fofocas e tabloides, o volume de notícias falsas aumentou recentemente devido ao crescente número de usuários de redes sociais e mensageiros instantâneos, por conta da facilidade que se tem ao acesso a tais ambientes. Essas notícias podem causar perdas diretas a pessoas e corporações, pois notícias falsas podem incluir difamação de pessoas, produtos e empresas, por terem uma natureza apelativa. A dificuldade do humano de identificar as notícias falsas já foi foco de pesquisas que comprovaram esse fato, que pode estar relacionado a crenças e opiniões próprias que o humano não consegue distinguir do fato, além de não procurar o contexto que a notícia está inserida. Uma vez que a propagação de notícias falsas alcançou um ponto crítico, iniciativas de combate começaram a surgir. Entretanto, a escassez de conjunto de dados rotulados, principalmente em português, impedia que os classificadores filtrassem automaticamente esses documentos. Além disso, a falta de métodos e abordagens de checagem de fatos automática, também principalmente para o português, faz com que o trabalho manual esteja sujeito a erros e opiniões humanas, o que é altamente prejudicial nas tentativas de combate a esse problema. Esta tese de doutorado tem como objetivo a investigação e proposição de abordagens que contenham métodos para a detecção de notícias falsas na língua portuguesa, por meio da análise linguística do texto e de checagem de fatos automática, uma vez que tem-se a hipótese de que as notícias falsas deixam pistas linguísticas que as fazem detectáveis, em comparação com notícias verdadeiras. Inspirado em iniciativas anteriores para outras línguas, é apresentado o primeiro corpus de referência nesta área para o português, composto por notícias verdadeiras e falsas alinhadas, que foram analisadas para descobrir alguns dos atributos linguísticos das notícias, denominado de FAKE.BR CORPUS. A partir dele, usando os atributos linguísticos extraídos, formas de representação textual, algoritmos de aprendizado de máquina e estruturas que mapeiam os eventos das notícias, como os grafos de conhecimento, nesta tese são detalhadas as abordagens adaptadas de outras línguas, bem como a proposição de novas abordagens para a detecção de notícias falsas em três tipos de abordagens: baseadas em atributos linguísticos baseadas no conteúdo e baseadas na estrutura do texto. Os resultados alcançados são promissores e mostram que há uma direção a ser tomada na difícil tarefa que é a detecção de notícias falsas na web, com contribuição para o PLN no português.
publishDate 2022
dc.date.none.fl_str_mv 2022-05-09
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-14072022-165613/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-14072022-165613/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815258125493600256