Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Maricondi, Thiago Nacrur
Orientador(a): Vincenzi, Auri Marcelo Rizzo lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Câmpus São Carlos
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação - PPGCC
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://hdl.handle.net/20.500.14289/22238
Resumo: With the increasing use of social media and the ease of access to digital content—especially among children and adolescents—there has been a significant rise in cases of cyberbullying and online harassment in recent years. In response, several content moderation tools have been developed, such as comment filters, reporting systems, and user profiles dedicated to moderation. However, due to the vast amount of information constantly generated on social media platforms, manual moderation has become impractical, highlighting the importance of automated moderation in reducing the incidence of digital crimes. This work addresses the automatic identification of aggressive behavior in offensive messages found in short and noisy texts using machine learning and deep learning algorithms. A public dataset extracted from platform X was used, containing 20,001 sentences labeled as aggressive 39.1% or non-aggressive 60.9%. Supervised learning models were trained using stratified cross-validation, employing text preprocessing techniques and various algorithms, including BERT, FastText, and ensemble methods, with the goal of assessing the effectiveness of these approaches in the automatic detection of textual aggressiveness. The results showed that the BERT and FastText models achieved excellent recall scores, reaching 96.5% and 95.8%, respectively, significantly outperforming the baseline model in detecting offensive messages.
id SCAR_ab43604ca3ee2fe3cd09cb2509622737
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/22238
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Maricondi, Thiago NacrurVincenzi, Auri Marcelo Rizzohttp://lattes.cnpq.br/0611351138131709http://lattes.cnpq.br/1237234894241914https://orcid.org/0000-0001-5902-16722025-06-24T12:06:32Z2025-05-06MARICONDI, Thiago Nacrur. Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22238.https://hdl.handle.net/20.500.14289/22238With the increasing use of social media and the ease of access to digital content—especially among children and adolescents—there has been a significant rise in cases of cyberbullying and online harassment in recent years. In response, several content moderation tools have been developed, such as comment filters, reporting systems, and user profiles dedicated to moderation. However, due to the vast amount of information constantly generated on social media platforms, manual moderation has become impractical, highlighting the importance of automated moderation in reducing the incidence of digital crimes. This work addresses the automatic identification of aggressive behavior in offensive messages found in short and noisy texts using machine learning and deep learning algorithms. A public dataset extracted from platform X was used, containing 20,001 sentences labeled as aggressive 39.1% or non-aggressive 60.9%. Supervised learning models were trained using stratified cross-validation, employing text preprocessing techniques and various algorithms, including BERT, FastText, and ensemble methods, with the goal of assessing the effectiveness of these approaches in the automatic detection of textual aggressiveness. The results showed that the BERT and FastText models achieved excellent recall scores, reaching 96.5% and 95.8%, respectively, significantly outperforming the baseline model in detecting offensive messages.Com o crescente uso das redes sociais e a facilidade de acesso a conteúdos digitais, especialmente entre crianças e jovens, houve um aumento significativo nos casos de cyberbullying e assédio virtual nos últimos anos. Em resposta, diversas ferramentas de moderação de conteúdo foram desenvolvidas, como filtros de comentários, sistemas de denúncia e perfis de usuários dedicados à moderação. No entanto, devido à enorme quantidade de informações geradas continuamente nas redes sociais, a moderação manual tornou-se impraticável, o que destaca a importância da moderação automática na redução da incidência de crimes digitais. Este trabalho aborda a identificação automática de comportamentos agressivos em mensagens ofensivas, presentes em textos curtos e ruidosos, por meio de algoritmos de aprendizado de máquina e aprendizado profundo. Utilizou-se um conjunto de dados público extraído da plataforma X, contendo 20.001 sentenças rotuladas como agressivas 39,1% ou não agressivas 60,9%. Modelos de aprendizado supervisionado foram treinados com validação cruzada estratificada, utilizando técnicas de pré-processamento textual e diferentes algoritmos, incluindo BERT, FastText e métodos ensemble, com o objetivo de avaliar a eficácia dessas abordagens na detecção automática de agressividade textual. Os resultados obtidos demonstraram que os modelos BERT e FastText apresentaram excelente desempenho em revocação, alcançando 96,5% e 95,8%, respectivamente, superando significativamente o modelo baseline na detecção de mensagens ofensivas.porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessCyberbullyingCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOAprendizado de máquinaClassificação bináriaAnálise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidososComparative analysis of automatic detection methods for offensive messages in short and noisy textsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALdissertacao_thiago.pdfdissertacao_thiago.pdfapplication/pdf1471136https://repositorio.ufscar.br/bitstreams/be67e558-6955-49ba-870c-0209658e0bc5/downloaddbb3cd7c76611579b0d840418ea68cd6MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8905https://repositorio.ufscar.br/bitstreams/90f498cb-1bca-47a8-83e3-8627f7d08a61/download57e258e544f104f04afb1d5e5b4e53c0MD52falseAnonymousREADTEXTdissertacao_thiago.pdf.txtdissertacao_thiago.pdf.txtExtracted texttext/plain103098https://repositorio.ufscar.br/bitstreams/01d149e5-1122-4931-b684-1aee645dac5e/downloadd080cf8579a428f1f70117f6f34cbb12MD53falseAnonymousREADTHUMBNAILdissertacao_thiago.pdf.jpgdissertacao_thiago.pdf.jpgGenerated Thumbnailimage/jpeg4210https://repositorio.ufscar.br/bitstreams/b6685037-bcaa-4eef-949d-c37d1eb38966/download77abc38216a379671fdb936bf80aa024MD54falseAnonymousREAD20.500.14289/222382025-06-25 00:00:58.873http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/22238https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-06-25T03:00:58Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.none.fl_str_mv Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos
dc.title.alternative.eng.fl_str_mv Comparative analysis of automatic detection methods for offensive messages in short and noisy texts
title Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos
spellingShingle Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos
Maricondi, Thiago Nacrur
Cyberbullying
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
Aprendizado de máquina
Classificação binária
title_short Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos
title_full Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos
title_fullStr Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos
title_full_unstemmed Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos
title_sort Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos
author Maricondi, Thiago Nacrur
author_facet Maricondi, Thiago Nacrur
author_role author
dc.contributor.authorlattes.none.fl_str_mv http://lattes.cnpq.br/1237234894241914
dc.contributor.advisor1orcid.none.fl_str_mv https://orcid.org/0000-0001-5902-1672
dc.contributor.author.fl_str_mv Maricondi, Thiago Nacrur
dc.contributor.advisor1.fl_str_mv Vincenzi, Auri Marcelo Rizzo
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/0611351138131709
contributor_str_mv Vincenzi, Auri Marcelo Rizzo
dc.subject.eng.fl_str_mv Cyberbullying
topic Cyberbullying
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
Aprendizado de máquina
Classificação binária
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.por.fl_str_mv Aprendizado de máquina
Classificação binária
description With the increasing use of social media and the ease of access to digital content—especially among children and adolescents—there has been a significant rise in cases of cyberbullying and online harassment in recent years. In response, several content moderation tools have been developed, such as comment filters, reporting systems, and user profiles dedicated to moderation. However, due to the vast amount of information constantly generated on social media platforms, manual moderation has become impractical, highlighting the importance of automated moderation in reducing the incidence of digital crimes. This work addresses the automatic identification of aggressive behavior in offensive messages found in short and noisy texts using machine learning and deep learning algorithms. A public dataset extracted from platform X was used, containing 20,001 sentences labeled as aggressive 39.1% or non-aggressive 60.9%. Supervised learning models were trained using stratified cross-validation, employing text preprocessing techniques and various algorithms, including BERT, FastText, and ensemble methods, with the goal of assessing the effectiveness of these approaches in the automatic detection of textual aggressiveness. The results showed that the BERT and FastText models achieved excellent recall scores, reaching 96.5% and 95.8%, respectively, significantly outperforming the baseline model in detecting offensive messages.
publishDate 2025
dc.date.accessioned.fl_str_mv 2025-06-24T12:06:32Z
dc.date.issued.fl_str_mv 2025-05-06
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MARICONDI, Thiago Nacrur. Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22238.
dc.identifier.uri.fl_str_mv https://hdl.handle.net/20.500.14289/22238
identifier_str_mv MARICONDI, Thiago Nacrur. Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22238.
url https://hdl.handle.net/20.500.14289/22238
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/be67e558-6955-49ba-870c-0209658e0bc5/download
https://repositorio.ufscar.br/bitstreams/90f498cb-1bca-47a8-83e3-8627f7d08a61/download
https://repositorio.ufscar.br/bitstreams/01d149e5-1122-4931-b684-1aee645dac5e/download
https://repositorio.ufscar.br/bitstreams/b6685037-bcaa-4eef-949d-c37d1eb38966/download
bitstream.checksum.fl_str_mv dbb3cd7c76611579b0d840418ea68cd6
57e258e544f104f04afb1d5e5b4e53c0
d080cf8579a428f1f70117f6f34cbb12
77abc38216a379671fdb936bf80aa024
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688780951453696