Detecção automática de discurso de ódio punitivista em redes sociais
| Ano de defesa: | 2022 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/8/8139/tde-08122022-174035/ |
Resumo: | O propósito deste trabalho é investigar a detecção automática do discurso de ódio punitivista em redes sociais. Para tanto, revisa a literatura sobre a tarefa de detecção automática de discurso de ódio em geral, traz a contextualização social e histórica sobre o que é o discurso de ódio punitivista e, a partir daí, passa por compilar um corpus de postagens de redes sociais, nomeado de Corpus de Discurso de Ódio Punitivista -- DOP -- para testar modelos de aprendizado de máquina dedicados a classificar textos como contendo discurso de ódio. Os modelos selecionados estão entre os mais utilizados nas tarefas de aprendizado de máquina e foram organizadas grades de hiperparâmetros para testar distintas configurações de cada modelo, a fim de gerar uma ampla gama de resultados, que são também comparados com os obtidos por um modelo genérico de detecção baseado em redes transformadores. Os resultados obtidos mostram que esse tipo de discurso de ódio tem comportamento similar ao de outros tipos mais estudados. Alguns modelos de aprendizado de máquina performam bem na tarefa de detecção automática. Os melhores resultados foram obtidos com o modelo de reforço extremo de gradiente (XGB), cuja métrica F1 obtida foi de o,76, contra o baseline de um modelo BERT específico para discurso de ódio em português, cuja métrica F1 foi de 0,49. Além disso, foi possível extrair algumas observações qualitativas sobre o fenômeno observado, que possibilitaram esboçar uma tipologia e alguns argumentos base do discurso de ódio punitivista. Dentro do campo da detecção automática de discurso de ódio, o fenômeno do ódio punitivista ainda não foi especificamente investigado. Além disso, ainda são poucos os trabalhos em português brasileiro sobre detecção automática de discurso de ódio em geral, especialmente dentro do ambiente das redes sociais. Apesar disso, dados de redes sociais são abundantes e cada vez mais o ambiente das redes se torna um espaço inevitável de socialização, ressaltando a importância de poder monitorar, identificar e alertar sobre comportamentos que estimulem o ódio e a violência, de forma que a tarefa de detecção automática de discurso de ódio constitui-se em uma ferramenta importante para o combate da disseminação de conteúdos tóxicos e agressivos. |
| id |
USP_ee2d2f60ae4e2e385da1798063a94295 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-08122022-174035 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Detecção automática de discurso de ódio punitivista em redes sociaisAutomatic punitivist hate speech detection in social mediaBrazilian PortugueseComputational LinguisticsCorpus DOPCorpus DOPDetecção de Discurso de ÓdioDiscurso de Ódio PunitivistaHate Speech DetectionLinguística ComputacionalNatural Language ProcessingPortuguês BrasileiroProcessamento de Linguagem NaturalPunitivist Hate SpeechO propósito deste trabalho é investigar a detecção automática do discurso de ódio punitivista em redes sociais. Para tanto, revisa a literatura sobre a tarefa de detecção automática de discurso de ódio em geral, traz a contextualização social e histórica sobre o que é o discurso de ódio punitivista e, a partir daí, passa por compilar um corpus de postagens de redes sociais, nomeado de Corpus de Discurso de Ódio Punitivista -- DOP -- para testar modelos de aprendizado de máquina dedicados a classificar textos como contendo discurso de ódio. Os modelos selecionados estão entre os mais utilizados nas tarefas de aprendizado de máquina e foram organizadas grades de hiperparâmetros para testar distintas configurações de cada modelo, a fim de gerar uma ampla gama de resultados, que são também comparados com os obtidos por um modelo genérico de detecção baseado em redes transformadores. Os resultados obtidos mostram que esse tipo de discurso de ódio tem comportamento similar ao de outros tipos mais estudados. Alguns modelos de aprendizado de máquina performam bem na tarefa de detecção automática. Os melhores resultados foram obtidos com o modelo de reforço extremo de gradiente (XGB), cuja métrica F1 obtida foi de o,76, contra o baseline de um modelo BERT específico para discurso de ódio em português, cuja métrica F1 foi de 0,49. Além disso, foi possível extrair algumas observações qualitativas sobre o fenômeno observado, que possibilitaram esboçar uma tipologia e alguns argumentos base do discurso de ódio punitivista. Dentro do campo da detecção automática de discurso de ódio, o fenômeno do ódio punitivista ainda não foi especificamente investigado. Além disso, ainda são poucos os trabalhos em português brasileiro sobre detecção automática de discurso de ódio em geral, especialmente dentro do ambiente das redes sociais. Apesar disso, dados de redes sociais são abundantes e cada vez mais o ambiente das redes se torna um espaço inevitável de socialização, ressaltando a importância de poder monitorar, identificar e alertar sobre comportamentos que estimulem o ódio e a violência, de forma que a tarefa de detecção automática de discurso de ódio constitui-se em uma ferramenta importante para o combate da disseminação de conteúdos tóxicos e agressivos.The purpose of this work is to investigate the automatic detection of punitivist hate speech in social media, therefore, it reviews the literature on the task of automatic detection of hate speech in general, brings the social and historical context about what is punitivist hate speech and then goes through compiling a corpus of social media posts, named Punitivist Hate Speech Corpus - Corpus DOP - to test machine learning models dedicated to classify texts as containing hate speech. The selected models are among the most used in machine learning tasks, and hyperparameter grids are organized to test different configurations of each model, in order to generate a wide range of results, which are also compared with those obtained by a generic detection model based on a transformer network. The results obtained show that this type of hate speech has a behavior similar to that of other more studied types and that some machine learning models perform well in the automatic detection task. The best results were obtained with the extreme gradient boost model (XGB), whose F1 metric obtained was 0.76, against the baseline of a specific BERT model for hate speech in Portuguese, whose F1 metric was 0.49. In addition, it was possible to extract some qualitative observations about the observed phenomenon, which made it possible to outline a typology and some basic arguments for punitivist hate speech. Within the field of automatic detection of hate speech, the phenomenon of punitivist hate has not yet been specifically investigated. In addition, there are still few works in Brazilian Portuguese on automatic detection of hate speech in general, especially within the social media environment. Despite this, data from social media is abundant and the network environment is increasingly becoming an inevitable space for socialization, highlighting the importance of being able to monitor, identify and alert about behaviors that encourage hatred and violence, so that the task automatic detection of hate speech constitutes an important tool to combat the dissemination of toxic and aggressive content.Biblioteca Digitais de Teses e Dissertações da USPLopes, Marcos FernandoGuide, Bruno Ferrari2022-08-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/8/8139/tde-08122022-174035/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2022-12-08T20:36:55Zoai:teses.usp.br:tde-08122022-174035Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212022-12-08T20:36:55Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Detecção automática de discurso de ódio punitivista em redes sociais Automatic punitivist hate speech detection in social media |
| title |
Detecção automática de discurso de ódio punitivista em redes sociais |
| spellingShingle |
Detecção automática de discurso de ódio punitivista em redes sociais Guide, Bruno Ferrari Brazilian Portuguese Computational Linguistics Corpus DOP Corpus DOP Detecção de Discurso de Ódio Discurso de Ódio Punitivista Hate Speech Detection Linguística Computacional Natural Language Processing Português Brasileiro Processamento de Linguagem Natural Punitivist Hate Speech |
| title_short |
Detecção automática de discurso de ódio punitivista em redes sociais |
| title_full |
Detecção automática de discurso de ódio punitivista em redes sociais |
| title_fullStr |
Detecção automática de discurso de ódio punitivista em redes sociais |
| title_full_unstemmed |
Detecção automática de discurso de ódio punitivista em redes sociais |
| title_sort |
Detecção automática de discurso de ódio punitivista em redes sociais |
| author |
Guide, Bruno Ferrari |
| author_facet |
Guide, Bruno Ferrari |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Lopes, Marcos Fernando |
| dc.contributor.author.fl_str_mv |
Guide, Bruno Ferrari |
| dc.subject.por.fl_str_mv |
Brazilian Portuguese Computational Linguistics Corpus DOP Corpus DOP Detecção de Discurso de Ódio Discurso de Ódio Punitivista Hate Speech Detection Linguística Computacional Natural Language Processing Português Brasileiro Processamento de Linguagem Natural Punitivist Hate Speech |
| topic |
Brazilian Portuguese Computational Linguistics Corpus DOP Corpus DOP Detecção de Discurso de Ódio Discurso de Ódio Punitivista Hate Speech Detection Linguística Computacional Natural Language Processing Português Brasileiro Processamento de Linguagem Natural Punitivist Hate Speech |
| description |
O propósito deste trabalho é investigar a detecção automática do discurso de ódio punitivista em redes sociais. Para tanto, revisa a literatura sobre a tarefa de detecção automática de discurso de ódio em geral, traz a contextualização social e histórica sobre o que é o discurso de ódio punitivista e, a partir daí, passa por compilar um corpus de postagens de redes sociais, nomeado de Corpus de Discurso de Ódio Punitivista -- DOP -- para testar modelos de aprendizado de máquina dedicados a classificar textos como contendo discurso de ódio. Os modelos selecionados estão entre os mais utilizados nas tarefas de aprendizado de máquina e foram organizadas grades de hiperparâmetros para testar distintas configurações de cada modelo, a fim de gerar uma ampla gama de resultados, que são também comparados com os obtidos por um modelo genérico de detecção baseado em redes transformadores. Os resultados obtidos mostram que esse tipo de discurso de ódio tem comportamento similar ao de outros tipos mais estudados. Alguns modelos de aprendizado de máquina performam bem na tarefa de detecção automática. Os melhores resultados foram obtidos com o modelo de reforço extremo de gradiente (XGB), cuja métrica F1 obtida foi de o,76, contra o baseline de um modelo BERT específico para discurso de ódio em português, cuja métrica F1 foi de 0,49. Além disso, foi possível extrair algumas observações qualitativas sobre o fenômeno observado, que possibilitaram esboçar uma tipologia e alguns argumentos base do discurso de ódio punitivista. Dentro do campo da detecção automática de discurso de ódio, o fenômeno do ódio punitivista ainda não foi especificamente investigado. Além disso, ainda são poucos os trabalhos em português brasileiro sobre detecção automática de discurso de ódio em geral, especialmente dentro do ambiente das redes sociais. Apesar disso, dados de redes sociais são abundantes e cada vez mais o ambiente das redes se torna um espaço inevitável de socialização, ressaltando a importância de poder monitorar, identificar e alertar sobre comportamentos que estimulem o ódio e a violência, de forma que a tarefa de detecção automática de discurso de ódio constitui-se em uma ferramenta importante para o combate da disseminação de conteúdos tóxicos e agressivos. |
| publishDate |
2022 |
| dc.date.none.fl_str_mv |
2022-08-12 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/8/8139/tde-08122022-174035/ |
| url |
https://www.teses.usp.br/teses/disponiveis/8/8139/tde-08122022-174035/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1815257990994853888 |