Towards misinformation span detection

Breno de Sousa Matos

Towards misinformation span detection

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Breno de Sousa Matos
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Universidade Federal de Minas Gerais
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Computação – Teses Redes sociais on-line – Teses Mídia social – Teses Desinformação – Teses Processamento da linguagem natural (Computação)
Link de acesso:	https://hdl.handle.net/1843/78881
Resumo:	A desinformação online é um dos problemas mais desafiadores da modernidade, que apresenta consequências severas, incluindo polarização política, ataques à democracia e riscos à saúde pública. A desinformação se manifesta em qualquer plataforma com uma grande base de usuários, incluindo redes sociais e aplicativos de mensagens. Ela permeia todas as formas de mídia e conteúdo, incluindo imagens, texto, áudio e vídeo. Em especial, a desinformação em vídeo representa um desafio multifacetado para os verificadores de fatos, dado a facilidade com que quaisquer indivíduos podem gravar e distribuir vídeos em várias plataformas de compartilhamento de vídeos. Trabalhos anteriores investigaram a detecção de desinformação baseada em vídeo, focando em se um vídeo compartilha desinformação ou não a nível de vídeo. Embora essa abordagem seja útil, ela fornece apenas uma visão limitada e não facilmente interpretável do problema, dado que não fornece um contexto adicional de quando a desinformação ocorre dentro dos vídeos e qual conteúdo é responsável por tornar o vídeo desinformativo. Neste trabalho, tentamos preencher essa lacuna de pesquisa propondo uma nova abordagem para a detecção de desinformação em vídeos, focando na identificação da seção dos vídeos que contêm desinformação, uma tarefa que enquadramos como misinformation span detection. Apresentamos dois novos conjuntos de dados para esta tarefa, ambos contendo alegações falsas e o momento do vídeo em que elas aparecem. Transcrevemos o áudio de cada vídeo para texto, identificando o segmento do vídeo em que a desinformação aparece, resultando em dois conjuntos de dados com mais de 600 vídeos com mais de 2.400 segmentos contendo alegações verificadas e anotadas. Em seguida, empregamos classificadores construídos com modelos de linguagem de última geração, e nossos resultados mostram que podemos identificar em qual parte de um vídeo há desinformação com uma pontuação F1 de 0,68. Além disso, também apontamos novas direções para a tarefa de misinformation span detection usando in-context learning. Esperamos que nosso trabalho possa auxiliar os verificadores de fatos, além do desenvolvimento de ferramentas automatizadas de detecção de desinformação e moderação automática que estejam alinhadas com as necessidades em evolução das plataformas digitais.

Metadados do item

id	UFMG_5ae848735dd3291bb17a32d3e9ca2d2e
oai_identifier_str	oai:repositorio.ufmg.br:1843/78881
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	2024-12-30T22:50:43Z2025-09-09T01:08:40Z2024-12-30T22:50:43Z2024-08-30https://hdl.handle.net/1843/78881A desinformação online é um dos problemas mais desafiadores da modernidade, que apresenta consequências severas, incluindo polarização política, ataques à democracia e riscos à saúde pública. A desinformação se manifesta em qualquer plataforma com uma grande base de usuários, incluindo redes sociais e aplicativos de mensagens. Ela permeia todas as formas de mídia e conteúdo, incluindo imagens, texto, áudio e vídeo. Em especial, a desinformação em vídeo representa um desafio multifacetado para os verificadores de fatos, dado a facilidade com que quaisquer indivíduos podem gravar e distribuir vídeos em várias plataformas de compartilhamento de vídeos. Trabalhos anteriores investigaram a detecção de desinformação baseada em vídeo, focando em se um vídeo compartilha desinformação ou não a nível de vídeo. Embora essa abordagem seja útil, ela fornece apenas uma visão limitada e não facilmente interpretável do problema, dado que não fornece um contexto adicional de quando a desinformação ocorre dentro dos vídeos e qual conteúdo é responsável por tornar o vídeo desinformativo. Neste trabalho, tentamos preencher essa lacuna de pesquisa propondo uma nova abordagem para a detecção de desinformação em vídeos, focando na identificação da seção dos vídeos que contêm desinformação, uma tarefa que enquadramos como misinformation span detection. Apresentamos dois novos conjuntos de dados para esta tarefa, ambos contendo alegações falsas e o momento do vídeo em que elas aparecem. Transcrevemos o áudio de cada vídeo para texto, identificando o segmento do vídeo em que a desinformação aparece, resultando em dois conjuntos de dados com mais de 600 vídeos com mais de 2.400 segmentos contendo alegações verificadas e anotadas. Em seguida, empregamos classificadores construídos com modelos de linguagem de última geração, e nossos resultados mostram que podemos identificar em qual parte de um vídeo há desinformação com uma pontuação F1 de 0,68. Além disso, também apontamos novas direções para a tarefa de misinformation span detection usando in-context learning. Esperamos que nosso trabalho possa auxiliar os verificadores de fatos, além do desenvolvimento de ferramentas automatizadas de detecção de desinformação e moderação automática que estejam alinhadas com as necessidades em evolução das plataformas digitais.engUniversidade Federal de Minas GeraisMisinformationNatural language processingComputação – TesesRedes sociais on-line – TesesMídia social – TesesDesinformação – TesesProcessamento da linguagem natural (Computação)Towards misinformation span detectioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisBreno de Sousa Matosinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGhttp://lattes.cnpq.br/3730445079250775Rodrygo Luis Teodoro Santoshttp://lattes.cnpq.br/1162362624079364Fabrício Benevenuto de Souzahttp://lattes.cnpq.br/7014991384513854Pedro Olmo Stancioli Vaz De MeloFlávio Vinícius Diniz de FigueiredoSavvas ZannettouOnline misinformation is one of the most challenging modern issues, yielding severe consequences, including political polarization, attacks on democracy, and public health risks. Misinformation manifests in any platform with a large user base, including online social networks and messaging apps. It permeates all media and content forms, including images, text, audio, and video. Distinctly, video-based misinformation represents a multifaceted challenge for fact-checkers, given the ease with which individuals can record and upload videos on various video-sharing platforms. Previous research efforts investigated detecting video-based misinformation, focusing on whether a video shares misinformation or not on a video level. While this approach is useful, it only provides a limited and non-easily interpretable view of the problem given that it does not provide an additional context of when misinformation occurs within videos and what content (i.e., claims) are responsible for the video's misinformative nature. In this work, we attempt to bridge this research gap by proposing a novel approach for misinformation detection on videos, focusing on identifying the span of videos that are responsible for the video's misinformation claim, a task we frame as misinformation span detection. We present two new datasets for this task, both containing false claims and the video moment in which they appear. We transcribe each video's audio to text, identifying the video segment in which the misinformation claims appear, resulting in two datasets of more than 600 videos with more than 2,300 segments containing annotated fact-checked claims. Then, we employ classifiers built with state-of-the-art language models, and our results show that we can identify in which part of a video there is misinformation with an F1 score of 0.68. Additionally, we also point to new directions for misinformation span detection using in-context learning. We hope our work can assist fact-checkers and the development of automated misinformation detection and robust automatic moderation tools that align with the evolving needs of digital platforms.BrasilICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃOPrograma de Pós-Graduação em Ciência da ComputaçãoUFMGORIGINALthe best thesis in the world.pdfapplication/pdf2764931https://repositorio.ufmg.br//bitstreams/6af22171-bcf8-4e5d-9bfb-adedfa21b5a1/download9007bf6ea7a757dad554a7e08bb7fc4bMD51trueAnonymousREADLICENSElicense.txttext/plain2118https://repositorio.ufmg.br//bitstreams/d3b6cf38-0b94-43aa-9035-9f3d0d2c32d4/downloadcda590c95a0b51b4d15f60c9642ca272MD52falseAnonymousREAD1843/788812025-09-08 22:08:40.681open.accessoai:repositorio.ufmg.br:1843/78881https://repositorio.ufmg.br/Repositório InstitucionalPUBhttps://repositorio.ufmg.br/oairepositorio@ufmg.bropendoar:2025-09-09T01:08:40Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)falseTElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4K
dc.title.none.fl_str_mv	Towards misinformation span detection
title	Towards misinformation span detection
spellingShingle	Towards misinformation span detection Breno de Sousa Matos Computação – Teses Redes sociais on-line – Teses Mídia social – Teses Desinformação – Teses Processamento da linguagem natural (Computação) Misinformation Natural language processing
title_short	Towards misinformation span detection
title_full	Towards misinformation span detection
title_fullStr	Towards misinformation span detection
title_full_unstemmed	Towards misinformation span detection
title_sort	Towards misinformation span detection
author	Breno de Sousa Matos
author_facet	Breno de Sousa Matos
author_role	author
dc.contributor.author.fl_str_mv	Breno de Sousa Matos
dc.subject.por.fl_str_mv	Computação – Teses Redes sociais on-line – Teses Mídia social – Teses Desinformação – Teses Processamento da linguagem natural (Computação)
topic	Computação – Teses Redes sociais on-line – Teses Mídia social – Teses Desinformação – Teses Processamento da linguagem natural (Computação) Misinformation Natural language processing
dc.subject.other.none.fl_str_mv	Misinformation Natural language processing
description	A desinformação online é um dos problemas mais desafiadores da modernidade, que apresenta consequências severas, incluindo polarização política, ataques à democracia e riscos à saúde pública. A desinformação se manifesta em qualquer plataforma com uma grande base de usuários, incluindo redes sociais e aplicativos de mensagens. Ela permeia todas as formas de mídia e conteúdo, incluindo imagens, texto, áudio e vídeo. Em especial, a desinformação em vídeo representa um desafio multifacetado para os verificadores de fatos, dado a facilidade com que quaisquer indivíduos podem gravar e distribuir vídeos em várias plataformas de compartilhamento de vídeos. Trabalhos anteriores investigaram a detecção de desinformação baseada em vídeo, focando em se um vídeo compartilha desinformação ou não a nível de vídeo. Embora essa abordagem seja útil, ela fornece apenas uma visão limitada e não facilmente interpretável do problema, dado que não fornece um contexto adicional de quando a desinformação ocorre dentro dos vídeos e qual conteúdo é responsável por tornar o vídeo desinformativo. Neste trabalho, tentamos preencher essa lacuna de pesquisa propondo uma nova abordagem para a detecção de desinformação em vídeos, focando na identificação da seção dos vídeos que contêm desinformação, uma tarefa que enquadramos como misinformation span detection. Apresentamos dois novos conjuntos de dados para esta tarefa, ambos contendo alegações falsas e o momento do vídeo em que elas aparecem. Transcrevemos o áudio de cada vídeo para texto, identificando o segmento do vídeo em que a desinformação aparece, resultando em dois conjuntos de dados com mais de 600 vídeos com mais de 2.400 segmentos contendo alegações verificadas e anotadas. Em seguida, empregamos classificadores construídos com modelos de linguagem de última geração, e nossos resultados mostram que podemos identificar em qual parte de um vídeo há desinformação com uma pontuação F1 de 0,68. Além disso, também apontamos novas direções para a tarefa de misinformation span detection usando in-context learning. Esperamos que nosso trabalho possa auxiliar os verificadores de fatos, além do desenvolvimento de ferramentas automatizadas de detecção de desinformação e moderação automática que estejam alinhadas com as necessidades em evolução das plataformas digitais.
publishDate	2024
dc.date.accessioned.fl_str_mv	2024-12-30T22:50:43Z 2025-09-09T01:08:40Z
dc.date.available.fl_str_mv	2024-12-30T22:50:43Z
dc.date.issued.fl_str_mv	2024-08-30
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://hdl.handle.net/1843/78881
url	https://hdl.handle.net/1843/78881
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br//bitstreams/6af22171-bcf8-4e5d-9bfb-adedfa21b5a1/download https://repositorio.ufmg.br//bitstreams/d3b6cf38-0b94-43aa-9035-9f3d0d2c32d4/download
bitstream.checksum.fl_str_mv	9007bf6ea7a757dad554a7e08bb7fc4b cda590c95a0b51b4d15f60c9642ca272
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv	repositorio@ufmg.br
_version_	1862105956199956480

Towards misinformation span detection

Registros relacionados