Detecção de discurso de ódio em comentários relacionados à política.

OLIVEIRA, Aillkeen Bezerra de.

Detecção de discurso de ódio em comentários relacionados à política.

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	OLIVEIRA, Aillkeen Bezerra de.
Orientador(a):	BAPTISTA, Cláudio de Souza.
Banca de defesa:	GOMES , Herman Martins., BARBOSA, Luciano de Andrade.
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Campina Grande
Programa de Pós-Graduação:	PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
Departamento:	Centro de Engenharia Elétrica e Informática - CEEI
País:	Brasil
Palavras-chave em Português:	Processamento de linguagem natural Detecção de discurso de ódio Cross-lingual learning Redes sociais Natural Language Processing Hate speech detection Social media
Área do conhecimento CNPq:	Ciência da Computação.
Link de acesso:	https://dspace.sti.ufcg.edu.br/handle/riufcg/36976
Resumo:	Em uma era em que as pessoas estão cada vez mais conectadas, a dispersão de discurso de ódio em redes sociais tornou-se mais frequente. Para contornar esse problema, a tecnologia computacional emergiu como uma ferramenta valiosa para identificar e mitigar discurso de ódio em redes sociais. Diante do poder computacional disponível, este trabalho contempla o uso de Processamento de Linguagem Natural para detectar discurso de ódio em textos prove nientes de redes sociais. Além de abordar a detecção, outro objetivo é investigar o impacto da distância léxica entre os idiomas dos corpora empregados no treinamento dos modelos, ex plorando codificadores e decodificadores baseados na arquitetura de Transformers. Portanto, realizou-se uma investigação sobre a inclusão de Cross-lingual Learning (CLL) para apri morar a detecção de discurso de ódio em diferentes idiomas, empregando diversas técnicas de CLL, bem como a aplicação de múltiplos idiomas como fonte de treino para o mod elo. Os resultados revelaram que a aplicação de CLL, especialmente com múltiplos idiomas fonte, melhorou significativamente a eficácia desses modelos na classificação de discurso de ódio. Os modelos baseados em codificadores mostraram-se mais eficientes quando a dis tância léxica entre os idiomas era mais próxima, alcançando 96,92% na métrica F1-score. Em contraste, os modelos decodificadores mostraram-se mais eficientes quando a distância léxica entre os idiomas era mais distante, alcançando 96,58% na métrica F1-score. Sendo assim, esta dissertação destaca que a diversidade linguística e a consideração da distância léxica em modelos fundamentados em Transformers são cruciais para o desenvolvimento de sistemas eficazes para detectar discurso de ódio. Por fim, os achados desta pesquisa reforçam a viabilidade de utilizar CLL e múltiplos idiomas para aprimorar a detecção de discurso de ódio, oferecendo novas direções e percepções para pesquisas futuras nessa área.

Metadados do item

id	UFCG_6654cb5fdff1314da292e84ae2967ee0
oai_identifier_str	oai:dspace.sti.ufcg.edu.br:riufcg/36976
network_acronym_str	UFCG
network_name_str	Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str
spelling	BAPTISTA, Cláudio de Souza.BAPTISTA, C. S.http://lattes.cnpq.br/0104124422364023GOMES , Herman Martins.BARBOSA, Luciano de Andrade.AILLKEEN, B.O.http://lattes.cnpq.br/5681431499623786OLIVEIRA, Aillkeen Bezerra de.Em uma era em que as pessoas estão cada vez mais conectadas, a dispersão de discurso de ódio em redes sociais tornou-se mais frequente. Para contornar esse problema, a tecnologia computacional emergiu como uma ferramenta valiosa para identificar e mitigar discurso de ódio em redes sociais. Diante do poder computacional disponível, este trabalho contempla o uso de Processamento de Linguagem Natural para detectar discurso de ódio em textos prove nientes de redes sociais. Além de abordar a detecção, outro objetivo é investigar o impacto da distância léxica entre os idiomas dos corpora empregados no treinamento dos modelos, ex plorando codificadores e decodificadores baseados na arquitetura de Transformers. Portanto, realizou-se uma investigação sobre a inclusão de Cross-lingual Learning (CLL) para apri morar a detecção de discurso de ódio em diferentes idiomas, empregando diversas técnicas de CLL, bem como a aplicação de múltiplos idiomas como fonte de treino para o mod elo. Os resultados revelaram que a aplicação de CLL, especialmente com múltiplos idiomas fonte, melhorou significativamente a eficácia desses modelos na classificação de discurso de ódio. Os modelos baseados em codificadores mostraram-se mais eficientes quando a dis tância léxica entre os idiomas era mais próxima, alcançando 96,92% na métrica F1-score. Em contraste, os modelos decodificadores mostraram-se mais eficientes quando a distância léxica entre os idiomas era mais distante, alcançando 96,58% na métrica F1-score. Sendo assim, esta dissertação destaca que a diversidade linguística e a consideração da distância léxica em modelos fundamentados em Transformers são cruciais para o desenvolvimento de sistemas eficazes para detectar discurso de ódio. Por fim, os achados desta pesquisa reforçam a viabilidade de utilizar CLL e múltiplos idiomas para aprimorar a detecção de discurso de ódio, oferecendo novas direções e percepções para pesquisas futuras nessa área.In an era where people are increasingly connected, the spread of hate speech on social net works has become more frequent. Consequently, computational technology has emerged as a valuable tool to identify and mitigate hate speech on these platforms. Given the avail able computational power, we used Natural Language Processing to detect hate speech in texts from social networks. Besides addressing detection, another goal was to investigate the impact of lexical distance between the languages of the corpora used in model training, exploring encoders and decoders based on Transformer architecture. Therefore, we inves tigated the inclusion of Cross-Lingual Learning (CLL) to enhance hate speech detection in different languages, employing various CLL techniques and the application of multiple lan guages as training sources for the model. The results revealed that applying CLL, especially with multiple source languages, significantly improved the effectiveness of the models in classifying hate speech. Moreover, encoder-based models were more efficient when the lex ical distance between languages was closer, achieving 96.92% in the F1-score metric. In contrast, decoder models were more efficient when the lexical distance between languages was farther, achieving 96.58% in the F1-score metric. Thus, this work highlights that lin guistic diversity and the lexical distance used in Transformer-based models are crucial for developing effective systems to detect hate speech. Finally, the findings of this research rein force the feasibility of using CLL and multiple languages to improve hate speech detection, offering new directions and insights for future research in this area.Submitted by Michelle Lima (michelle.lima@ufcg.edu.br) on 2024-07-31T19:14:42Z No. of bitstreams: 1 AILLKEEN BEZERRA DE OLIVEIRA – DISSERTAÇÃO (PPGCC) 2024.pdf: 6208772 bytes, checksum: c4916a38873398393bf65d07461ec9ba (MD5)Made available in DSpace on 2024-07-31T19:14:42Z (GMT). No. of bitstreams: 1 AILLKEEN BEZERRA DE OLIVEIRA – DISSERTAÇÃO (PPGCC) 2024.pdf: 6208772 bytes, checksum: c4916a38873398393bf65d07461ec9ba (MD5) Previous issue date: 2024-05-15Universidade Federal de Campina GrandePÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGBrasilCentro de Engenharia Elétrica e Informática - CEEICiência da Computação.Processamento de linguagem naturalDetecção de discurso de ódioCross-lingual learningRedes sociaisNatural Language ProcessingHate speech detectionSocial mediaDetecção de discurso de ódio em comentários relacionados à política.Detecting hate speech in politics-related comments.2024-05-152024-07-31T19:14:42Z2024-07-312024-07-31T19:14:42Zhttps://dspace.sti.ufcg.edu.br/handle/riufcg/36976OLIVEIRA, Aillkeen Bezerra de. Detecção de discurso de ódio em comentários relacionados à política. 2024. 142 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2024.info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCGTEXTAILLKEEN BEZERRA DE OLIVEIRA – DISSERTAÇÃO (PPGCC) 2024.pdf.txtAILLKEEN BEZERRA DE OLIVEIRA – DISSERTAÇÃO (PPGCC) 2024.pdf.txttext/plain267386https://dspace.sti.ufcg.edu.br/bitstream/riufcg/36976/3/AILLKEEN+BEZERRA+DE+OLIVEIRA+%E2%80%93+DISSERTA%C3%87%C3%83O+%28PPGCC%29+2024.pdf.txt5bf328d5b2454ca30a21102b679a0d99MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://dspace.sti.ufcg.edu.br/bitstream/riufcg/36976/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52ORIGINALAILLKEEN BEZERRA DE OLIVEIRA – DISSERTAÇÃO (PPGCC) 2024.pdfAILLKEEN BEZERRA DE OLIVEIRA – DISSERTAÇÃO (PPGCC) 2024.pdfapplication/pdf6208772https://dspace.sti.ufcg.edu.br/bitstream/riufcg/36976/1/AILLKEEN+BEZERRA+DE+OLIVEIRA+%E2%80%93+DISSERTA%C3%87%C3%83O+%28PPGCC%29+2024.pdfc4916a38873398393bf65d07461ec9baMD51riufcg/369762025-07-24 07:57:52.018oai:dspace.sti.ufcg.edu.br:riufcg/36976Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br \|\| bdtd@setor.ufcg.edu.bropendoar:48512025-07-24T10:57:52Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.pt_BR.fl_str_mv	Detecção de discurso de ódio em comentários relacionados à política.
dc.title.alternative.pt_BR.fl_str_mv	Detecting hate speech in politics-related comments.
title	Detecção de discurso de ódio em comentários relacionados à política.
spellingShingle	Detecção de discurso de ódio em comentários relacionados à política. OLIVEIRA, Aillkeen Bezerra de. Ciência da Computação. Processamento de linguagem natural Detecção de discurso de ódio Cross-lingual learning Redes sociais Natural Language Processing Hate speech detection Social media
title_short	Detecção de discurso de ódio em comentários relacionados à política.
title_full	Detecção de discurso de ódio em comentários relacionados à política.
title_fullStr	Detecção de discurso de ódio em comentários relacionados à política.
title_full_unstemmed	Detecção de discurso de ódio em comentários relacionados à política.
title_sort	Detecção de discurso de ódio em comentários relacionados à política.
author	OLIVEIRA, Aillkeen Bezerra de.
author_facet	OLIVEIRA, Aillkeen Bezerra de.
author_role	author
dc.contributor.advisor1.fl_str_mv	BAPTISTA, Cláudio de Souza.
dc.contributor.advisor1ID.fl_str_mv	BAPTISTA, C. S.
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/0104124422364023
dc.contributor.referee1.fl_str_mv	GOMES , Herman Martins.
dc.contributor.referee2.fl_str_mv	BARBOSA, Luciano de Andrade.
dc.contributor.authorID.fl_str_mv	AILLKEEN, B.O.
dc.contributor.authorLattes.fl_str_mv	http://lattes.cnpq.br/5681431499623786
dc.contributor.author.fl_str_mv	OLIVEIRA, Aillkeen Bezerra de.
contributor_str_mv	BAPTISTA, Cláudio de Souza. GOMES , Herman Martins. BARBOSA, Luciano de Andrade.
dc.subject.cnpq.fl_str_mv	Ciência da Computação.
topic	Ciência da Computação. Processamento de linguagem natural Detecção de discurso de ódio Cross-lingual learning Redes sociais Natural Language Processing Hate speech detection Social media
dc.subject.por.fl_str_mv	Processamento de linguagem natural Detecção de discurso de ódio Cross-lingual learning Redes sociais Natural Language Processing Hate speech detection Social media
description	Em uma era em que as pessoas estão cada vez mais conectadas, a dispersão de discurso de ódio em redes sociais tornou-se mais frequente. Para contornar esse problema, a tecnologia computacional emergiu como uma ferramenta valiosa para identificar e mitigar discurso de ódio em redes sociais. Diante do poder computacional disponível, este trabalho contempla o uso de Processamento de Linguagem Natural para detectar discurso de ódio em textos prove nientes de redes sociais. Além de abordar a detecção, outro objetivo é investigar o impacto da distância léxica entre os idiomas dos corpora empregados no treinamento dos modelos, ex plorando codificadores e decodificadores baseados na arquitetura de Transformers. Portanto, realizou-se uma investigação sobre a inclusão de Cross-lingual Learning (CLL) para apri morar a detecção de discurso de ódio em diferentes idiomas, empregando diversas técnicas de CLL, bem como a aplicação de múltiplos idiomas como fonte de treino para o mod elo. Os resultados revelaram que a aplicação de CLL, especialmente com múltiplos idiomas fonte, melhorou significativamente a eficácia desses modelos na classificação de discurso de ódio. Os modelos baseados em codificadores mostraram-se mais eficientes quando a dis tância léxica entre os idiomas era mais próxima, alcançando 96,92% na métrica F1-score. Em contraste, os modelos decodificadores mostraram-se mais eficientes quando a distância léxica entre os idiomas era mais distante, alcançando 96,58% na métrica F1-score. Sendo assim, esta dissertação destaca que a diversidade linguística e a consideração da distância léxica em modelos fundamentados em Transformers são cruciais para o desenvolvimento de sistemas eficazes para detectar discurso de ódio. Por fim, os achados desta pesquisa reforçam a viabilidade de utilizar CLL e múltiplos idiomas para aprimorar a detecção de discurso de ódio, oferecendo novas direções e percepções para pesquisas futuras nessa área.
publishDate	2024
dc.date.issued.fl_str_mv	2024-05-15
dc.date.accessioned.fl_str_mv	2024-07-31T19:14:42Z
dc.date.available.fl_str_mv	2024-07-31 2024-07-31T19:14:42Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://dspace.sti.ufcg.edu.br/handle/riufcg/36976
dc.identifier.citation.fl_str_mv	OLIVEIRA, Aillkeen Bezerra de. Detecção de discurso de ódio em comentários relacionados à política. 2024. 142 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2024.
url	https://dspace.sti.ufcg.edu.br/handle/riufcg/36976
identifier_str_mv	OLIVEIRA, Aillkeen Bezerra de. Detecção de discurso de ódio em comentários relacionados à política. 2024. 142 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2024.
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Campina Grande
dc.publisher.program.fl_str_mv	PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
dc.publisher.initials.fl_str_mv	UFCG
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	Centro de Engenharia Elétrica e Informática - CEEI
publisher.none.fl_str_mv	Universidade Federal de Campina Grande
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFCG instname:Universidade Federal de Campina Grande (UFCG) instacron:UFCG
instname_str	Universidade Federal de Campina Grande (UFCG)
instacron_str	UFCG
institution	UFCG
reponame_str	Biblioteca Digital de Teses e Dissertações da UFCG
collection	Biblioteca Digital de Teses e Dissertações da UFCG
bitstream.url.fl_str_mv	https://dspace.sti.ufcg.edu.br/bitstream/riufcg/36976/3/AILLKEEN+BEZERRA+DE+OLIVEIRA+%E2%80%93+DISSERTA%C3%87%C3%83O+%28PPGCC%29+2024.pdf.txt https://dspace.sti.ufcg.edu.br/bitstream/riufcg/36976/2/license.txt https://dspace.sti.ufcg.edu.br/bitstream/riufcg/36976/1/AILLKEEN+BEZERRA+DE+OLIVEIRA+%E2%80%93+DISSERTA%C3%87%C3%83O+%28PPGCC%29+2024.pdf
bitstream.checksum.fl_str_mv	5bf328d5b2454ca30a21102b679a0d99 8a4605be74aa9ea9d79846c1fba20a33 c4916a38873398393bf65d07461ec9ba
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv	bdtd@setor.ufcg.edu.br \|\| bdtd@setor.ufcg.edu.br
_version_	1863363554285977600

Detecção de discurso de ódio em comentários relacionados à política.

Registros relacionados