Uma abordagem para detecção de discurso de ódio utilizando aprendizado de máquina baseado em cruzamento de idiomas.

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: FIRMINO, Anderson Almeida.
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27501
Resumo: O crescimento das mídias sociais em todo o mundo trouxe benefícios e desafios para a sociedade. Dentre os desafios, destaca-se a proliferação do discurso de ódio nas redes sociais. Hodiernamente, a detecção de discurso do ódio tornou-se uma tarefa árdua. Cerca de 22,5 milhões de postagens com discurso de ódio foram removidas nas redes sociais entre abril e junho de 2020. Destarte, faz-se necessário o desenvolvimento de pesquisas que busquem soluções automatizadas para identificar e remover discurso de ódio nas redes sociais. Nesta tese, propõe-se uma nova metodologia para detecção de discurso de ódio em textos em português. Esta metodologia faz uso de Cross - Lingual Learning, que consiste em usar transferência de aprendizagem em Modelos de Linguagem Pré -Treinados (MLPTs) com um idioma com grandes corpora disponíveis (idioma fonte) para resolver problemas em idiomas com menos dados anotados (idioma alvo). A metodologia proposta compreende quatro etapas: aquisição de corpora, definição de MLPT, estratégias de treinamento e avaliação. Foram realizados experimentos utilizando Modelos de Linguagem Pré -Treinados em diferentes idiomas: Inglês, Italiano e Português (BERT e XLM-R) para verificar qual deles se adequava melhor ao método proposto. Corpora em inglês (WH) e italiano (Evalita 2018) foram utilizados como idioma fonte e dois corpora em português (idioma alvo) foram utilizados: OffComBr-2 e Hate Speech Dataset (HSD). Os resultados dos experimentos demonstraram que a metodologia proposta é competitiva com o estado da arte: para o corpus OffComBr-2 obteve-se o melhor resultado dentre os trabalhos que utilizaram o mesmo corpus, com Medida F1 = 92%; e para o corpus HSD, obteve-se o segundo melhor resultado, com Medida F1 = 90%.
id UCB-2_5d7dc7c5fec2db84f75082d4860818ec
oai_identifier_str oai:localhost:riufcg/27501
network_acronym_str UCB-2
network_name_str Repositório Institucional da UCB
repository_id_str
spelling Uma abordagem para detecção de discurso de ódio utilizando aprendizado de máquina baseado em cruzamento de idiomas.An approach to detecting hate speech using machine learning based on cross-languages.Processamento de linguagem naturalDetecção de discurso de ódioRedes sociaisCross-lingual learningNatural language processingSocial networksHate speech detectionCiência da ComputaçãoO crescimento das mídias sociais em todo o mundo trouxe benefícios e desafios para a sociedade. Dentre os desafios, destaca-se a proliferação do discurso de ódio nas redes sociais. Hodiernamente, a detecção de discurso do ódio tornou-se uma tarefa árdua. Cerca de 22,5 milhões de postagens com discurso de ódio foram removidas nas redes sociais entre abril e junho de 2020. Destarte, faz-se necessário o desenvolvimento de pesquisas que busquem soluções automatizadas para identificar e remover discurso de ódio nas redes sociais. Nesta tese, propõe-se uma nova metodologia para detecção de discurso de ódio em textos em português. Esta metodologia faz uso de Cross - Lingual Learning, que consiste em usar transferência de aprendizagem em Modelos de Linguagem Pré -Treinados (MLPTs) com um idioma com grandes corpora disponíveis (idioma fonte) para resolver problemas em idiomas com menos dados anotados (idioma alvo). A metodologia proposta compreende quatro etapas: aquisição de corpora, definição de MLPT, estratégias de treinamento e avaliação. Foram realizados experimentos utilizando Modelos de Linguagem Pré -Treinados em diferentes idiomas: Inglês, Italiano e Português (BERT e XLM-R) para verificar qual deles se adequava melhor ao método proposto. Corpora em inglês (WH) e italiano (Evalita 2018) foram utilizados como idioma fonte e dois corpora em português (idioma alvo) foram utilizados: OffComBr-2 e Hate Speech Dataset (HSD). Os resultados dos experimentos demonstraram que a metodologia proposta é competitiva com o estado da arte: para o corpus OffComBr-2 obteve-se o melhor resultado dentre os trabalhos que utilizaram o mesmo corpus, com Medida F1 = 92%; e para o corpus HSD, obteve-se o segundo melhor resultado, com Medida F1 = 90%.The growth of social media around the world has brought both benefits and challenges to society. Among the challenges, we highlight the proliferation of hate speech in social networks. Detecting hate speech has become an arduous task in today’s world. About 22.5 million posts with hate speech were removed from social networks between April and June 2020. Thus, it is necessary to develop research that seek automated solutions to identify and remove hate speech in social networks. In this thesis, we propose a new methodology for detecting hate speech in Portuguese texts. This methodology uses Cross-Lingual Learning, which consists of using transfer learning in Pre-Trained Language Models with a language with large corpora available (source language) to solve problems in languages with less annotated data (target language). The proposed methodology comprises four stages: corpora acquisition, definition of PTLM, training strategies and evaluation. We carried out experiments using Pre-Trained Language Models in different languages: English, Italian and Portuguese (BERT and XLM-R) to verify which one best suited the proposed method. Corpora in English (WH) and Italian (Evalita 2018) were used as source language and two corpora in Portuguese (target language) were used: OffComBr-2 and Hate Speech Dataset (HSD). The results of the experiments showed that the proposed methodology is promising: for the OffComBr-2 corpus, the best state-of-the-art result was obtained (F1 Score = 92%); and for the HSD corpus, the second best result was obtained (F1 Score = 90%).Universidade Federal de Campina GrandeBrasilCentro de Engenharia Elétrica e Informática - CEEIPÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGBAPTISTA, Cláudio de Souza.BAPTISTA, C. S.http://lattes.cnpq.br/0104124422364023GOMES, Herman Martins.GOMES, H. M.http://lattes.cnpq.br/4223020694433271PEREIRA, Eanes Torres.PEREIRA, E. T.http://lattes.cnpq.br/2030738304003254BRAZ JÚNIOR, Geraldo.BRAZ JÚNIOR, Geraldo.http://lattes.cnpq.br/8287861610873629CARVALHO, Windson Viana de.CARVALHO, W. V.http://lattes.cnpq.br/1744732999336375FIRMINO, Anderson Almeida.2022-05-182022-09-29T14:45:00Z2022-09-292022-09-29T14:45:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27501FIRMINO, Anderson Almeida. Uma abordagem para detecção de discurso de ódio utilizando aprendizado de máquina baseado em cruzamento de idiomas. 2022. 107 fl. Tese (Doutorado em Ciência da Computação), Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2022. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27501porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UCBinstname:Universidade Católica de Brasília (UCB)instacron:UCB2022-10-04T16:58:57Zoai:localhost:riufcg/27501Repositório InstitucionalPRIhttps://repositorio.ucb.br/oai/requestsara.ribeiro@ucb.bropendoar:2022-10-04T16:58:57Repositório Institucional da UCB - Universidade Católica de Brasília (UCB)false
dc.title.none.fl_str_mv Uma abordagem para detecção de discurso de ódio utilizando aprendizado de máquina baseado em cruzamento de idiomas.
An approach to detecting hate speech using machine learning based on cross-languages.
title Uma abordagem para detecção de discurso de ódio utilizando aprendizado de máquina baseado em cruzamento de idiomas.
spellingShingle Uma abordagem para detecção de discurso de ódio utilizando aprendizado de máquina baseado em cruzamento de idiomas.
FIRMINO, Anderson Almeida.
Processamento de linguagem natural
Detecção de discurso de ódio
Redes sociais
Cross-lingual learning
Natural language processing
Social networks
Hate speech detection
Ciência da Computação
title_short Uma abordagem para detecção de discurso de ódio utilizando aprendizado de máquina baseado em cruzamento de idiomas.
title_full Uma abordagem para detecção de discurso de ódio utilizando aprendizado de máquina baseado em cruzamento de idiomas.
title_fullStr Uma abordagem para detecção de discurso de ódio utilizando aprendizado de máquina baseado em cruzamento de idiomas.
title_full_unstemmed Uma abordagem para detecção de discurso de ódio utilizando aprendizado de máquina baseado em cruzamento de idiomas.
title_sort Uma abordagem para detecção de discurso de ódio utilizando aprendizado de máquina baseado em cruzamento de idiomas.
author FIRMINO, Anderson Almeida.
author_facet FIRMINO, Anderson Almeida.
author_role author
dc.contributor.none.fl_str_mv BAPTISTA, Cláudio de Souza.
BAPTISTA, C. S.
http://lattes.cnpq.br/0104124422364023
GOMES, Herman Martins.
GOMES, H. M.
http://lattes.cnpq.br/4223020694433271
PEREIRA, Eanes Torres.
PEREIRA, E. T.
http://lattes.cnpq.br/2030738304003254
BRAZ JÚNIOR, Geraldo.
BRAZ JÚNIOR, Geraldo.
http://lattes.cnpq.br/8287861610873629
CARVALHO, Windson Viana de.
CARVALHO, W. V.
http://lattes.cnpq.br/1744732999336375
dc.contributor.author.fl_str_mv FIRMINO, Anderson Almeida.
dc.subject.por.fl_str_mv Processamento de linguagem natural
Detecção de discurso de ódio
Redes sociais
Cross-lingual learning
Natural language processing
Social networks
Hate speech detection
Ciência da Computação
topic Processamento de linguagem natural
Detecção de discurso de ódio
Redes sociais
Cross-lingual learning
Natural language processing
Social networks
Hate speech detection
Ciência da Computação
description O crescimento das mídias sociais em todo o mundo trouxe benefícios e desafios para a sociedade. Dentre os desafios, destaca-se a proliferação do discurso de ódio nas redes sociais. Hodiernamente, a detecção de discurso do ódio tornou-se uma tarefa árdua. Cerca de 22,5 milhões de postagens com discurso de ódio foram removidas nas redes sociais entre abril e junho de 2020. Destarte, faz-se necessário o desenvolvimento de pesquisas que busquem soluções automatizadas para identificar e remover discurso de ódio nas redes sociais. Nesta tese, propõe-se uma nova metodologia para detecção de discurso de ódio em textos em português. Esta metodologia faz uso de Cross - Lingual Learning, que consiste em usar transferência de aprendizagem em Modelos de Linguagem Pré -Treinados (MLPTs) com um idioma com grandes corpora disponíveis (idioma fonte) para resolver problemas em idiomas com menos dados anotados (idioma alvo). A metodologia proposta compreende quatro etapas: aquisição de corpora, definição de MLPT, estratégias de treinamento e avaliação. Foram realizados experimentos utilizando Modelos de Linguagem Pré -Treinados em diferentes idiomas: Inglês, Italiano e Português (BERT e XLM-R) para verificar qual deles se adequava melhor ao método proposto. Corpora em inglês (WH) e italiano (Evalita 2018) foram utilizados como idioma fonte e dois corpora em português (idioma alvo) foram utilizados: OffComBr-2 e Hate Speech Dataset (HSD). Os resultados dos experimentos demonstraram que a metodologia proposta é competitiva com o estado da arte: para o corpus OffComBr-2 obteve-se o melhor resultado dentre os trabalhos que utilizaram o mesmo corpus, com Medida F1 = 92%; e para o corpus HSD, obteve-se o segundo melhor resultado, com Medida F1 = 90%.
publishDate 2022
dc.date.none.fl_str_mv 2022-05-18
2022-09-29T14:45:00Z
2022-09-29
2022-09-29T14:45:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27501
FIRMINO, Anderson Almeida. Uma abordagem para detecção de discurso de ódio utilizando aprendizado de máquina baseado em cruzamento de idiomas. 2022. 107 fl. Tese (Doutorado em Ciência da Computação), Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2022. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27501
url http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27501
identifier_str_mv FIRMINO, Anderson Almeida. Uma abordagem para detecção de discurso de ódio utilizando aprendizado de máquina baseado em cruzamento de idiomas. 2022. 107 fl. Tese (Doutorado em Ciência da Computação), Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2022. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27501
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
publisher.none.fl_str_mv Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
dc.source.none.fl_str_mv reponame:Repositório Institucional da UCB
instname:Universidade Católica de Brasília (UCB)
instacron:UCB
instname_str Universidade Católica de Brasília (UCB)
instacron_str UCB
institution UCB
reponame_str Repositório Institucional da UCB
collection Repositório Institucional da UCB
repository.name.fl_str_mv Repositório Institucional da UCB - Universidade Católica de Brasília (UCB)
repository.mail.fl_str_mv sara.ribeiro@ucb.br
_version_ 1834013216164806656