Socially responsible and explainable automated fact-checking and hate speech detection
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-07012025-155212/ |
Resumo: | Misinformation and hate speech have a negative impact on society, particularly in conflict-affected areas and politically polarized countries. These issues are fueled by longstanding and ingrained social, cultural, political, ethnic, religious, and other divisions and rivalries, often exacerbated by misinformation through sophisticated belief systems, including propaganda and conspiracy theories. In this context, a wide range of models for fact-checking and hate speech detection have been proposed. However, while Natural Language Processing (NLP) has traditionally relied on techniques that are inherently explainable (often referred to as white box techniques, such as rule-based algorithms, decision trees, hidden markov models, and logistic regressions), the advent and popularity of Large-Scale Language Models (LLMs)-often considered black box techniques has led to a decrease in interpretability. The use of language embeddings as features has further contributed to this trend. Consequently, most existing fact-checking and hate speech detection models struggle to provide relevant rationales (explanations) for their predictions, highlighting a lack of transparency that poses significant risks, such as the prevalence of biases. This has recently been identified as a major concern in the field. For instance, biases in hate speech technologies may reinforce discrimination against groups based on their social identity when propagated at scale. Similarly, biases in fact-checking may increase political polarization due to limitations in impartiality or deliberate attempts to favor or disfavor particular individuals or viewpoints. To address these critical gaps, this thesis introduces a study of fact-checking and hate speech detection technologies and their potential ethical implications. Specifically, it provides five benchmark data resources (e.g. HateBR, HateBRXplain, HausaHate, MOL, and FactNews) and three new methods (e.g., SELFAR, SSA, and B+M) for automated fact-checking and hate speech detection, ensuring that the data and models are explainable and socially responsible. Notably, the HateBR and the B+M outperformed current baselines in Portuguese. Ultimately, we hope that our study, data resources, and methods will advance research on misinformation and hate speech, significantly contributing to the ongoing discussions on responsible AI, explainability and interpretability, and fairness in Natural Language Processing and Machine Learning. |
| id |
USP_b1ec1a0f7ceb9d597a308f0b41c7d3c6 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-07012025-155212 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Socially responsible and explainable automated fact-checking and hate speech detectionVerificação automatizada de fatos e detecção de discurso de ódio socialmente responsável e explicávelAutomated fact-checking and hate speech detectionExplainability and interpretabilityExplicabilidade e interpretabilidadeFairnessInteligência artificial responsávelJustiçaNatural language processingProcessamento de linguagem naturalResponsible artificial intelligenceVerificação automatizada de fatos e detecção de discurso de ódioMisinformation and hate speech have a negative impact on society, particularly in conflict-affected areas and politically polarized countries. These issues are fueled by longstanding and ingrained social, cultural, political, ethnic, religious, and other divisions and rivalries, often exacerbated by misinformation through sophisticated belief systems, including propaganda and conspiracy theories. In this context, a wide range of models for fact-checking and hate speech detection have been proposed. However, while Natural Language Processing (NLP) has traditionally relied on techniques that are inherently explainable (often referred to as white box techniques, such as rule-based algorithms, decision trees, hidden markov models, and logistic regressions), the advent and popularity of Large-Scale Language Models (LLMs)-often considered black box techniques has led to a decrease in interpretability. The use of language embeddings as features has further contributed to this trend. Consequently, most existing fact-checking and hate speech detection models struggle to provide relevant rationales (explanations) for their predictions, highlighting a lack of transparency that poses significant risks, such as the prevalence of biases. This has recently been identified as a major concern in the field. For instance, biases in hate speech technologies may reinforce discrimination against groups based on their social identity when propagated at scale. Similarly, biases in fact-checking may increase political polarization due to limitations in impartiality or deliberate attempts to favor or disfavor particular individuals or viewpoints. To address these critical gaps, this thesis introduces a study of fact-checking and hate speech detection technologies and their potential ethical implications. Specifically, it provides five benchmark data resources (e.g. HateBR, HateBRXplain, HausaHate, MOL, and FactNews) and three new methods (e.g., SELFAR, SSA, and B+M) for automated fact-checking and hate speech detection, ensuring that the data and models are explainable and socially responsible. Notably, the HateBR and the B+M outperformed current baselines in Portuguese. Ultimately, we hope that our study, data resources, and methods will advance research on misinformation and hate speech, significantly contributing to the ongoing discussions on responsible AI, explainability and interpretability, and fairness in Natural Language Processing and Machine Learning.A desinformação e o discurso de ódio têm um impacto negativo na sociedade, especialmente em áreas afetadas por conflitos e em países politicamente polarizados. Esses problemas são alimentados por divisões e rivalidades sociais, culturais, políticas, étnicas e religiosas que estão enraizadas e que muitas vezes são exacerbadas pela desinformação através de sistemas sofisticados de crenças, incluindo propaganda e teorias da conspiração. Nesse contexto, uma ampla gama de modelos para verificação de fatos e detecção de discurso de ódio tem sido proposto. No entanto, enquanto o Processamento de Linguagem Natural (PLN) tem tradicionalmente se baseado em técnicas que são inerentemente explicáveis (frequentemente referidas como técnicas caixa branca, como algoritmos baseados em regras, árvores de decisão, modelos ocultos de markov e regressões logísticas), o advento e a popularidade dos Modelos de Linguagem de Larga Escala (LLMs) frequentemente considerados técnicas caixa preta levaram a uma diminuição na interpretabilidade. O uso de embeddings de linguagem como atributos também contribuiu para essa tendência. Como resultado, a maioria dos modelos existentes de verificação de fatos e detecção de discurso de ódio tem dificuldades em fornecer justificações relevantes (explicações) para suas predições, destacando uma falta de transparência que representa riscos significativos, como a prevalência de viés. Isso foi recentemente identificado como uma grande preocupação no campo. Por exemplo, viés em tecnologias de discurso de ódio pode reforçar a discriminação contra grupos com base em sua identidade social quando propagado em larga escala. Da mesma forma, viés na verificação de fatos pode aumentar a polarização política devido a limitações na imparcialidade ou a tentativas deliberadas de favorecer ou desfavorecer indivíduos ou pontos de vista particulares. Para abordar essas lacunas críticas, esta tese apresenta um estudo sobre tecnologias de verificação de fatos e detecção de discurso de ódio e suas potenciais implicações éticas. Especificamente, fornece cinco recursos de dados de referência (HateBR, HateBRXplain, HausaHate, MOL, e FactNews) e três novos métodos (SELFAR, SSA e B+M) para verificação automatizada de fatos e detecção de discurso de ódio, garantindo que os dados e os modelos sejam explicáveis e socialmente responsáveis. Notavelmente, o HateBR e o B+M superaram os modelos e métodos de referência atuais para o Português. Em última análise, esperamos que nosso estudo, recursos de dados e métodos avancem a pesquisa sobre desinformação e discurso de ódio, contribuindo significativamente para as discussões em andamento sobre inteligência artificial responsável, explicabilidade e interpretabilidade, e justiça no Processamento de Linguagem Natural e Aprendizado de Máquina.Biblioteca Digitais de Teses e Dissertações da USPPardo, Thiago Alexandre SalgueiroSouza, Fabrício Benevenuto deVargas, Francielle Alves2024-11-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-07012025-155212/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2025-04-15T12:24:31Zoai:teses.usp.br:tde-07012025-155212Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-04-15T12:24:31Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Socially responsible and explainable automated fact-checking and hate speech detection Verificação automatizada de fatos e detecção de discurso de ódio socialmente responsável e explicável |
| title |
Socially responsible and explainable automated fact-checking and hate speech detection |
| spellingShingle |
Socially responsible and explainable automated fact-checking and hate speech detection Vargas, Francielle Alves Automated fact-checking and hate speech detection Explainability and interpretability Explicabilidade e interpretabilidade Fairness Inteligência artificial responsável Justiça Natural language processing Processamento de linguagem natural Responsible artificial intelligence Verificação automatizada de fatos e detecção de discurso de ódio |
| title_short |
Socially responsible and explainable automated fact-checking and hate speech detection |
| title_full |
Socially responsible and explainable automated fact-checking and hate speech detection |
| title_fullStr |
Socially responsible and explainable automated fact-checking and hate speech detection |
| title_full_unstemmed |
Socially responsible and explainable automated fact-checking and hate speech detection |
| title_sort |
Socially responsible and explainable automated fact-checking and hate speech detection |
| author |
Vargas, Francielle Alves |
| author_facet |
Vargas, Francielle Alves |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Pardo, Thiago Alexandre Salgueiro Souza, Fabrício Benevenuto de |
| dc.contributor.author.fl_str_mv |
Vargas, Francielle Alves |
| dc.subject.por.fl_str_mv |
Automated fact-checking and hate speech detection Explainability and interpretability Explicabilidade e interpretabilidade Fairness Inteligência artificial responsável Justiça Natural language processing Processamento de linguagem natural Responsible artificial intelligence Verificação automatizada de fatos e detecção de discurso de ódio |
| topic |
Automated fact-checking and hate speech detection Explainability and interpretability Explicabilidade e interpretabilidade Fairness Inteligência artificial responsável Justiça Natural language processing Processamento de linguagem natural Responsible artificial intelligence Verificação automatizada de fatos e detecção de discurso de ódio |
| description |
Misinformation and hate speech have a negative impact on society, particularly in conflict-affected areas and politically polarized countries. These issues are fueled by longstanding and ingrained social, cultural, political, ethnic, religious, and other divisions and rivalries, often exacerbated by misinformation through sophisticated belief systems, including propaganda and conspiracy theories. In this context, a wide range of models for fact-checking and hate speech detection have been proposed. However, while Natural Language Processing (NLP) has traditionally relied on techniques that are inherently explainable (often referred to as white box techniques, such as rule-based algorithms, decision trees, hidden markov models, and logistic regressions), the advent and popularity of Large-Scale Language Models (LLMs)-often considered black box techniques has led to a decrease in interpretability. The use of language embeddings as features has further contributed to this trend. Consequently, most existing fact-checking and hate speech detection models struggle to provide relevant rationales (explanations) for their predictions, highlighting a lack of transparency that poses significant risks, such as the prevalence of biases. This has recently been identified as a major concern in the field. For instance, biases in hate speech technologies may reinforce discrimination against groups based on their social identity when propagated at scale. Similarly, biases in fact-checking may increase political polarization due to limitations in impartiality or deliberate attempts to favor or disfavor particular individuals or viewpoints. To address these critical gaps, this thesis introduces a study of fact-checking and hate speech detection technologies and their potential ethical implications. Specifically, it provides five benchmark data resources (e.g. HateBR, HateBRXplain, HausaHate, MOL, and FactNews) and three new methods (e.g., SELFAR, SSA, and B+M) for automated fact-checking and hate speech detection, ensuring that the data and models are explainable and socially responsible. Notably, the HateBR and the B+M outperformed current baselines in Portuguese. Ultimately, we hope that our study, data resources, and methods will advance research on misinformation and hate speech, significantly contributing to the ongoing discussions on responsible AI, explainability and interpretability, and fairness in Natural Language Processing and Machine Learning. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-11-25 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-07012025-155212/ |
| url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-07012025-155212/ |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1839839140260085760 |