Análise e caracterização de textos intencionalmente enganosos escritos em português usando métodos de processamento de textos

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Okano, Émerson Yoshiaki
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/59/59143/tde-29062020-171001/
Resumo: Atualmente a web é um ambiente em que pessoas postam e buscam informações sobre os mais diversos tópicos. No entanto, nem sempre uma informação encontrada na web é verdadeira já que alguns usuários maliciosos usam a web para disseminar informações falsas com o intuito de manipular ou enganar pessoas. Uma das maneiras de detectar estas informações falsas é através de processamento de textos. Atualmente há trabalhos direcionados à língua inglesa para identificação de textos enganosos, mas poucos trabalhos são voltados para a língua portuguesa. Neste trabalho, inicialmente foi criado um corpus paralelo de reviews de livros enganosos e foi feito um trabalho inicial de classificação automático do mesmo. Foi feito um estudo utilizando as research questions propostas por Hauch et al. para fazer uma análise psicolinguística do corpus de notícias falsas Fake.Br com o intuito de verificar as características mais relevantes para a classificação de fake news. Ainda utilizando o corpus Fake.Br treinamos algoritmos de aprendizagem de máquina supervisionados para fazer a classificação automática de fake news e utilizamos também um algoritmo de deep learning chamado Hierarchical attention network para verificar sua performance na detecção de fake news.
id USP_9ecd1da82d6e8102823f9c167321c8db
oai_identifier_str oai:teses.usp.br:tde-29062020-171001
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Análise e caracterização de textos intencionalmente enganosos escritos em português usando métodos de processamento de textosAnalysis and characterization of intentionally deceptive texts written in Portuguese using text processing methodsDeceptive textsFake newsFake newsFake reviewsFake reviewsTextos enganososAtualmente a web é um ambiente em que pessoas postam e buscam informações sobre os mais diversos tópicos. No entanto, nem sempre uma informação encontrada na web é verdadeira já que alguns usuários maliciosos usam a web para disseminar informações falsas com o intuito de manipular ou enganar pessoas. Uma das maneiras de detectar estas informações falsas é através de processamento de textos. Atualmente há trabalhos direcionados à língua inglesa para identificação de textos enganosos, mas poucos trabalhos são voltados para a língua portuguesa. Neste trabalho, inicialmente foi criado um corpus paralelo de reviews de livros enganosos e foi feito um trabalho inicial de classificação automático do mesmo. Foi feito um estudo utilizando as research questions propostas por Hauch et al. para fazer uma análise psicolinguística do corpus de notícias falsas Fake.Br com o intuito de verificar as características mais relevantes para a classificação de fake news. Ainda utilizando o corpus Fake.Br treinamos algoritmos de aprendizagem de máquina supervisionados para fazer a classificação automática de fake news e utilizamos também um algoritmo de deep learning chamado Hierarchical attention network para verificar sua performance na detecção de fake news.The web is an environment where people post and search any type of information on the most diverse topics. However, the information found on the web is not always truthful. There are malicious users who post deceptive information intending to manipulate or deceive people. One of the ways to detect false information is using text processing. Nowadays there are studies directed to the English language to identify deceptive texts, but there are few related works concerning the Portuguese language. In this work, initially, we created a parallel corpus of deceptive book reviews and used some machine learning algorithms to classify deceptive and truthful reviews. A study was made using the research questions proposed by Hauch et al. to do a psycholinguistic analysis of the fake news corpus Fake.Br to verify the most relevant features for fake news classification. Still using the Fake.Br corpus we trained supervised machine learning algorithms to automatically classify fake news and we also use a deep learning algorithm called Hierarchical attention network to verify its performance in fake news detection.Biblioteca Digitais de Teses e Dissertações da USPRuiz, Evandro Eduardo SeronOkano, Émerson Yoshiaki2020-03-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/59/59143/tde-29062020-171001/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2020-07-14T21:24:02Zoai:teses.usp.br:tde-29062020-171001Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212020-07-14T21:24:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Análise e caracterização de textos intencionalmente enganosos escritos em português usando métodos de processamento de textos
Analysis and characterization of intentionally deceptive texts written in Portuguese using text processing methods
title Análise e caracterização de textos intencionalmente enganosos escritos em português usando métodos de processamento de textos
spellingShingle Análise e caracterização de textos intencionalmente enganosos escritos em português usando métodos de processamento de textos
Okano, Émerson Yoshiaki
Deceptive texts
Fake news
Fake news
Fake reviews
Fake reviews
Textos enganosos
title_short Análise e caracterização de textos intencionalmente enganosos escritos em português usando métodos de processamento de textos
title_full Análise e caracterização de textos intencionalmente enganosos escritos em português usando métodos de processamento de textos
title_fullStr Análise e caracterização de textos intencionalmente enganosos escritos em português usando métodos de processamento de textos
title_full_unstemmed Análise e caracterização de textos intencionalmente enganosos escritos em português usando métodos de processamento de textos
title_sort Análise e caracterização de textos intencionalmente enganosos escritos em português usando métodos de processamento de textos
author Okano, Émerson Yoshiaki
author_facet Okano, Émerson Yoshiaki
author_role author
dc.contributor.none.fl_str_mv Ruiz, Evandro Eduardo Seron
dc.contributor.author.fl_str_mv Okano, Émerson Yoshiaki
dc.subject.por.fl_str_mv Deceptive texts
Fake news
Fake news
Fake reviews
Fake reviews
Textos enganosos
topic Deceptive texts
Fake news
Fake news
Fake reviews
Fake reviews
Textos enganosos
description Atualmente a web é um ambiente em que pessoas postam e buscam informações sobre os mais diversos tópicos. No entanto, nem sempre uma informação encontrada na web é verdadeira já que alguns usuários maliciosos usam a web para disseminar informações falsas com o intuito de manipular ou enganar pessoas. Uma das maneiras de detectar estas informações falsas é através de processamento de textos. Atualmente há trabalhos direcionados à língua inglesa para identificação de textos enganosos, mas poucos trabalhos são voltados para a língua portuguesa. Neste trabalho, inicialmente foi criado um corpus paralelo de reviews de livros enganosos e foi feito um trabalho inicial de classificação automático do mesmo. Foi feito um estudo utilizando as research questions propostas por Hauch et al. para fazer uma análise psicolinguística do corpus de notícias falsas Fake.Br com o intuito de verificar as características mais relevantes para a classificação de fake news. Ainda utilizando o corpus Fake.Br treinamos algoritmos de aprendizagem de máquina supervisionados para fazer a classificação automática de fake news e utilizamos também um algoritmo de deep learning chamado Hierarchical attention network para verificar sua performance na detecção de fake news.
publishDate 2020
dc.date.none.fl_str_mv 2020-03-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/59/59143/tde-29062020-171001/
url https://www.teses.usp.br/teses/disponiveis/59/59143/tde-29062020-171001/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1865491760113778688