Socially responsible and explainable automated fact-checking and hate speech detection

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Vargas, Francielle Alves
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-07012025-155212/
Resumo: Misinformation and hate speech have a negative impact on society, particularly in conflict-affected areas and politically polarized countries. These issues are fueled by longstanding and ingrained social, cultural, political, ethnic, religious, and other divisions and rivalries, often exacerbated by misinformation through sophisticated belief systems, including propaganda and conspiracy theories. In this context, a wide range of models for fact-checking and hate speech detection have been proposed. However, while Natural Language Processing (NLP) has traditionally relied on techniques that are inherently explainable (often referred to as white box techniques, such as rule-based algorithms, decision trees, hidden markov models, and logistic regressions), the advent and popularity of Large-Scale Language Models (LLMs)-often considered black box techniques has led to a decrease in interpretability. The use of language embeddings as features has further contributed to this trend. Consequently, most existing fact-checking and hate speech detection models struggle to provide relevant rationales (explanations) for their predictions, highlighting a lack of transparency that poses significant risks, such as the prevalence of biases. This has recently been identified as a major concern in the field. For instance, biases in hate speech technologies may reinforce discrimination against groups based on their social identity when propagated at scale. Similarly, biases in fact-checking may increase political polarization due to limitations in impartiality or deliberate attempts to favor or disfavor particular individuals or viewpoints. To address these critical gaps, this thesis introduces a study of fact-checking and hate speech detection technologies and their potential ethical implications. Specifically, it provides five benchmark data resources (e.g. HateBR, HateBRXplain, HausaHate, MOL, and FactNews) and three new methods (e.g., SELFAR, SSA, and B+M) for automated fact-checking and hate speech detection, ensuring that the data and models are explainable and socially responsible. Notably, the HateBR and the B+M outperformed current baselines in Portuguese. Ultimately, we hope that our study, data resources, and methods will advance research on misinformation and hate speech, significantly contributing to the ongoing discussions on responsible AI, explainability and interpretability, and fairness in Natural Language Processing and Machine Learning.
id USP_b1ec1a0f7ceb9d597a308f0b41c7d3c6
oai_identifier_str oai:teses.usp.br:tde-07012025-155212
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Socially responsible and explainable automated fact-checking and hate speech detectionVerificação automatizada de fatos e detecção de discurso de ódio socialmente responsável e explicávelAutomated fact-checking and hate speech detectionExplainability and interpretabilityExplicabilidade e interpretabilidadeFairnessInteligência artificial responsávelJustiçaNatural language processingProcessamento de linguagem naturalResponsible artificial intelligenceVerificação automatizada de fatos e detecção de discurso de ódioMisinformation and hate speech have a negative impact on society, particularly in conflict-affected areas and politically polarized countries. These issues are fueled by longstanding and ingrained social, cultural, political, ethnic, religious, and other divisions and rivalries, often exacerbated by misinformation through sophisticated belief systems, including propaganda and conspiracy theories. In this context, a wide range of models for fact-checking and hate speech detection have been proposed. However, while Natural Language Processing (NLP) has traditionally relied on techniques that are inherently explainable (often referred to as white box techniques, such as rule-based algorithms, decision trees, hidden markov models, and logistic regressions), the advent and popularity of Large-Scale Language Models (LLMs)-often considered black box techniques has led to a decrease in interpretability. The use of language embeddings as features has further contributed to this trend. Consequently, most existing fact-checking and hate speech detection models struggle to provide relevant rationales (explanations) for their predictions, highlighting a lack of transparency that poses significant risks, such as the prevalence of biases. This has recently been identified as a major concern in the field. For instance, biases in hate speech technologies may reinforce discrimination against groups based on their social identity when propagated at scale. Similarly, biases in fact-checking may increase political polarization due to limitations in impartiality or deliberate attempts to favor or disfavor particular individuals or viewpoints. To address these critical gaps, this thesis introduces a study of fact-checking and hate speech detection technologies and their potential ethical implications. Specifically, it provides five benchmark data resources (e.g. HateBR, HateBRXplain, HausaHate, MOL, and FactNews) and three new methods (e.g., SELFAR, SSA, and B+M) for automated fact-checking and hate speech detection, ensuring that the data and models are explainable and socially responsible. Notably, the HateBR and the B+M outperformed current baselines in Portuguese. Ultimately, we hope that our study, data resources, and methods will advance research on misinformation and hate speech, significantly contributing to the ongoing discussions on responsible AI, explainability and interpretability, and fairness in Natural Language Processing and Machine Learning.A desinformação e o discurso de ódio têm um impacto negativo na sociedade, especialmente em áreas afetadas por conflitos e em países politicamente polarizados. Esses problemas são alimentados por divisões e rivalidades sociais, culturais, políticas, étnicas e religiosas que estão enraizadas e que muitas vezes são exacerbadas pela desinformação através de sistemas sofisticados de crenças, incluindo propaganda e teorias da conspiração. Nesse contexto, uma ampla gama de modelos para verificação de fatos e detecção de discurso de ódio tem sido proposto. No entanto, enquanto o Processamento de Linguagem Natural (PLN) tem tradicionalmente se baseado em técnicas que são inerentemente explicáveis (frequentemente referidas como técnicas caixa branca, como algoritmos baseados em regras, árvores de decisão, modelos ocultos de markov e regressões logísticas), o advento e a popularidade dos Modelos de Linguagem de Larga Escala (LLMs) frequentemente considerados técnicas caixa preta levaram a uma diminuição na interpretabilidade. O uso de embeddings de linguagem como atributos também contribuiu para essa tendência. Como resultado, a maioria dos modelos existentes de verificação de fatos e detecção de discurso de ódio tem dificuldades em fornecer justificações relevantes (explicações) para suas predições, destacando uma falta de transparência que representa riscos significativos, como a prevalência de viés. Isso foi recentemente identificado como uma grande preocupação no campo. Por exemplo, viés em tecnologias de discurso de ódio pode reforçar a discriminação contra grupos com base em sua identidade social quando propagado em larga escala. Da mesma forma, viés na verificação de fatos pode aumentar a polarização política devido a limitações na imparcialidade ou a tentativas deliberadas de favorecer ou desfavorecer indivíduos ou pontos de vista particulares. Para abordar essas lacunas críticas, esta tese apresenta um estudo sobre tecnologias de verificação de fatos e detecção de discurso de ódio e suas potenciais implicações éticas. Especificamente, fornece cinco recursos de dados de referência (HateBR, HateBRXplain, HausaHate, MOL, e FactNews) e três novos métodos (SELFAR, SSA e B+M) para verificação automatizada de fatos e detecção de discurso de ódio, garantindo que os dados e os modelos sejam explicáveis e socialmente responsáveis. Notavelmente, o HateBR e o B+M superaram os modelos e métodos de referência atuais para o Português. Em última análise, esperamos que nosso estudo, recursos de dados e métodos avancem a pesquisa sobre desinformação e discurso de ódio, contribuindo significativamente para as discussões em andamento sobre inteligência artificial responsável, explicabilidade e interpretabilidade, e justiça no Processamento de Linguagem Natural e Aprendizado de Máquina.Biblioteca Digitais de Teses e Dissertações da USPPardo, Thiago Alexandre SalgueiroSouza, Fabrício Benevenuto deVargas, Francielle Alves2024-11-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-07012025-155212/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2025-04-15T12:24:31Zoai:teses.usp.br:tde-07012025-155212Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-04-15T12:24:31Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Socially responsible and explainable automated fact-checking and hate speech detection
Verificação automatizada de fatos e detecção de discurso de ódio socialmente responsável e explicável
title Socially responsible and explainable automated fact-checking and hate speech detection
spellingShingle Socially responsible and explainable automated fact-checking and hate speech detection
Vargas, Francielle Alves
Automated fact-checking and hate speech detection
Explainability and interpretability
Explicabilidade e interpretabilidade
Fairness
Inteligência artificial responsável
Justiça
Natural language processing
Processamento de linguagem natural
Responsible artificial intelligence
Verificação automatizada de fatos e detecção de discurso de ódio
title_short Socially responsible and explainable automated fact-checking and hate speech detection
title_full Socially responsible and explainable automated fact-checking and hate speech detection
title_fullStr Socially responsible and explainable automated fact-checking and hate speech detection
title_full_unstemmed Socially responsible and explainable automated fact-checking and hate speech detection
title_sort Socially responsible and explainable automated fact-checking and hate speech detection
author Vargas, Francielle Alves
author_facet Vargas, Francielle Alves
author_role author
dc.contributor.none.fl_str_mv Pardo, Thiago Alexandre Salgueiro
Souza, Fabrício Benevenuto de
dc.contributor.author.fl_str_mv Vargas, Francielle Alves
dc.subject.por.fl_str_mv Automated fact-checking and hate speech detection
Explainability and interpretability
Explicabilidade e interpretabilidade
Fairness
Inteligência artificial responsável
Justiça
Natural language processing
Processamento de linguagem natural
Responsible artificial intelligence
Verificação automatizada de fatos e detecção de discurso de ódio
topic Automated fact-checking and hate speech detection
Explainability and interpretability
Explicabilidade e interpretabilidade
Fairness
Inteligência artificial responsável
Justiça
Natural language processing
Processamento de linguagem natural
Responsible artificial intelligence
Verificação automatizada de fatos e detecção de discurso de ódio
description Misinformation and hate speech have a negative impact on society, particularly in conflict-affected areas and politically polarized countries. These issues are fueled by longstanding and ingrained social, cultural, political, ethnic, religious, and other divisions and rivalries, often exacerbated by misinformation through sophisticated belief systems, including propaganda and conspiracy theories. In this context, a wide range of models for fact-checking and hate speech detection have been proposed. However, while Natural Language Processing (NLP) has traditionally relied on techniques that are inherently explainable (often referred to as white box techniques, such as rule-based algorithms, decision trees, hidden markov models, and logistic regressions), the advent and popularity of Large-Scale Language Models (LLMs)-often considered black box techniques has led to a decrease in interpretability. The use of language embeddings as features has further contributed to this trend. Consequently, most existing fact-checking and hate speech detection models struggle to provide relevant rationales (explanations) for their predictions, highlighting a lack of transparency that poses significant risks, such as the prevalence of biases. This has recently been identified as a major concern in the field. For instance, biases in hate speech technologies may reinforce discrimination against groups based on their social identity when propagated at scale. Similarly, biases in fact-checking may increase political polarization due to limitations in impartiality or deliberate attempts to favor or disfavor particular individuals or viewpoints. To address these critical gaps, this thesis introduces a study of fact-checking and hate speech detection technologies and their potential ethical implications. Specifically, it provides five benchmark data resources (e.g. HateBR, HateBRXplain, HausaHate, MOL, and FactNews) and three new methods (e.g., SELFAR, SSA, and B+M) for automated fact-checking and hate speech detection, ensuring that the data and models are explainable and socially responsible. Notably, the HateBR and the B+M outperformed current baselines in Portuguese. Ultimately, we hope that our study, data resources, and methods will advance research on misinformation and hate speech, significantly contributing to the ongoing discussions on responsible AI, explainability and interpretability, and fairness in Natural Language Processing and Machine Learning.
publishDate 2024
dc.date.none.fl_str_mv 2024-11-25
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-07012025-155212/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-07012025-155212/
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1839839140260085760