Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de São Carlos
Câmpus São Carlos |
| Programa de Pós-Graduação: |
Programa de Pós-Graduação em Ciência da Computação - PPGCC
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://hdl.handle.net/20.500.14289/22238 |
Resumo: | With the increasing use of social media and the ease of access to digital content—especially among children and adolescents—there has been a significant rise in cases of cyberbullying and online harassment in recent years. In response, several content moderation tools have been developed, such as comment filters, reporting systems, and user profiles dedicated to moderation. However, due to the vast amount of information constantly generated on social media platforms, manual moderation has become impractical, highlighting the importance of automated moderation in reducing the incidence of digital crimes. This work addresses the automatic identification of aggressive behavior in offensive messages found in short and noisy texts using machine learning and deep learning algorithms. A public dataset extracted from platform X was used, containing 20,001 sentences labeled as aggressive 39.1% or non-aggressive 60.9%. Supervised learning models were trained using stratified cross-validation, employing text preprocessing techniques and various algorithms, including BERT, FastText, and ensemble methods, with the goal of assessing the effectiveness of these approaches in the automatic detection of textual aggressiveness. The results showed that the BERT and FastText models achieved excellent recall scores, reaching 96.5% and 95.8%, respectively, significantly outperforming the baseline model in detecting offensive messages. |
| id |
SCAR_ab43604ca3ee2fe3cd09cb2509622737 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/22238 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Maricondi, Thiago NacrurVincenzi, Auri Marcelo Rizzohttp://lattes.cnpq.br/0611351138131709http://lattes.cnpq.br/1237234894241914https://orcid.org/0000-0001-5902-16722025-06-24T12:06:32Z2025-05-06MARICONDI, Thiago Nacrur. Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22238.https://hdl.handle.net/20.500.14289/22238With the increasing use of social media and the ease of access to digital content—especially among children and adolescents—there has been a significant rise in cases of cyberbullying and online harassment in recent years. In response, several content moderation tools have been developed, such as comment filters, reporting systems, and user profiles dedicated to moderation. However, due to the vast amount of information constantly generated on social media platforms, manual moderation has become impractical, highlighting the importance of automated moderation in reducing the incidence of digital crimes. This work addresses the automatic identification of aggressive behavior in offensive messages found in short and noisy texts using machine learning and deep learning algorithms. A public dataset extracted from platform X was used, containing 20,001 sentences labeled as aggressive 39.1% or non-aggressive 60.9%. Supervised learning models were trained using stratified cross-validation, employing text preprocessing techniques and various algorithms, including BERT, FastText, and ensemble methods, with the goal of assessing the effectiveness of these approaches in the automatic detection of textual aggressiveness. The results showed that the BERT and FastText models achieved excellent recall scores, reaching 96.5% and 95.8%, respectively, significantly outperforming the baseline model in detecting offensive messages.Com o crescente uso das redes sociais e a facilidade de acesso a conteúdos digitais, especialmente entre crianças e jovens, houve um aumento significativo nos casos de cyberbullying e assédio virtual nos últimos anos. Em resposta, diversas ferramentas de moderação de conteúdo foram desenvolvidas, como filtros de comentários, sistemas de denúncia e perfis de usuários dedicados à moderação. No entanto, devido à enorme quantidade de informações geradas continuamente nas redes sociais, a moderação manual tornou-se impraticável, o que destaca a importância da moderação automática na redução da incidência de crimes digitais. Este trabalho aborda a identificação automática de comportamentos agressivos em mensagens ofensivas, presentes em textos curtos e ruidosos, por meio de algoritmos de aprendizado de máquina e aprendizado profundo. Utilizou-se um conjunto de dados público extraído da plataforma X, contendo 20.001 sentenças rotuladas como agressivas 39,1% ou não agressivas 60,9%. Modelos de aprendizado supervisionado foram treinados com validação cruzada estratificada, utilizando técnicas de pré-processamento textual e diferentes algoritmos, incluindo BERT, FastText e métodos ensemble, com o objetivo de avaliar a eficácia dessas abordagens na detecção automática de agressividade textual. Os resultados obtidos demonstraram que os modelos BERT e FastText apresentaram excelente desempenho em revocação, alcançando 96,5% e 95,8%, respectivamente, superando significativamente o modelo baseline na detecção de mensagens ofensivas.porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessCyberbullyingCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOAprendizado de máquinaClassificação bináriaAnálise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidososComparative analysis of automatic detection methods for offensive messages in short and noisy textsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALdissertacao_thiago.pdfdissertacao_thiago.pdfapplication/pdf1471136https://repositorio.ufscar.br/bitstreams/be67e558-6955-49ba-870c-0209658e0bc5/downloaddbb3cd7c76611579b0d840418ea68cd6MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8905https://repositorio.ufscar.br/bitstreams/90f498cb-1bca-47a8-83e3-8627f7d08a61/download57e258e544f104f04afb1d5e5b4e53c0MD52falseAnonymousREADTEXTdissertacao_thiago.pdf.txtdissertacao_thiago.pdf.txtExtracted texttext/plain103098https://repositorio.ufscar.br/bitstreams/01d149e5-1122-4931-b684-1aee645dac5e/downloadd080cf8579a428f1f70117f6f34cbb12MD53falseAnonymousREADTHUMBNAILdissertacao_thiago.pdf.jpgdissertacao_thiago.pdf.jpgGenerated Thumbnailimage/jpeg4210https://repositorio.ufscar.br/bitstreams/b6685037-bcaa-4eef-949d-c37d1eb38966/download77abc38216a379671fdb936bf80aa024MD54falseAnonymousREAD20.500.14289/222382025-06-25 00:00:58.873http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/22238https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-06-25T03:00:58Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.none.fl_str_mv |
Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos |
| dc.title.alternative.eng.fl_str_mv |
Comparative analysis of automatic detection methods for offensive messages in short and noisy texts |
| title |
Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos |
| spellingShingle |
Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos Maricondi, Thiago Nacrur Cyberbullying CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO Aprendizado de máquina Classificação binária |
| title_short |
Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos |
| title_full |
Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos |
| title_fullStr |
Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos |
| title_full_unstemmed |
Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos |
| title_sort |
Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos |
| author |
Maricondi, Thiago Nacrur |
| author_facet |
Maricondi, Thiago Nacrur |
| author_role |
author |
| dc.contributor.authorlattes.none.fl_str_mv |
http://lattes.cnpq.br/1237234894241914 |
| dc.contributor.advisor1orcid.none.fl_str_mv |
https://orcid.org/0000-0001-5902-1672 |
| dc.contributor.author.fl_str_mv |
Maricondi, Thiago Nacrur |
| dc.contributor.advisor1.fl_str_mv |
Vincenzi, Auri Marcelo Rizzo |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/0611351138131709 |
| contributor_str_mv |
Vincenzi, Auri Marcelo Rizzo |
| dc.subject.eng.fl_str_mv |
Cyberbullying |
| topic |
Cyberbullying CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO Aprendizado de máquina Classificação binária |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
| dc.subject.por.fl_str_mv |
Aprendizado de máquina Classificação binária |
| description |
With the increasing use of social media and the ease of access to digital content—especially among children and adolescents—there has been a significant rise in cases of cyberbullying and online harassment in recent years. In response, several content moderation tools have been developed, such as comment filters, reporting systems, and user profiles dedicated to moderation. However, due to the vast amount of information constantly generated on social media platforms, manual moderation has become impractical, highlighting the importance of automated moderation in reducing the incidence of digital crimes. This work addresses the automatic identification of aggressive behavior in offensive messages found in short and noisy texts using machine learning and deep learning algorithms. A public dataset extracted from platform X was used, containing 20,001 sentences labeled as aggressive 39.1% or non-aggressive 60.9%. Supervised learning models were trained using stratified cross-validation, employing text preprocessing techniques and various algorithms, including BERT, FastText, and ensemble methods, with the goal of assessing the effectiveness of these approaches in the automatic detection of textual aggressiveness. The results showed that the BERT and FastText models achieved excellent recall scores, reaching 96.5% and 95.8%, respectively, significantly outperforming the baseline model in detecting offensive messages. |
| publishDate |
2025 |
| dc.date.accessioned.fl_str_mv |
2025-06-24T12:06:32Z |
| dc.date.issued.fl_str_mv |
2025-05-06 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
MARICONDI, Thiago Nacrur. Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22238. |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/20.500.14289/22238 |
| identifier_str_mv |
MARICONDI, Thiago Nacrur. Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22238. |
| url |
https://hdl.handle.net/20.500.14289/22238 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/be67e558-6955-49ba-870c-0209658e0bc5/download https://repositorio.ufscar.br/bitstreams/90f498cb-1bca-47a8-83e3-8627f7d08a61/download https://repositorio.ufscar.br/bitstreams/01d149e5-1122-4931-b684-1aee645dac5e/download https://repositorio.ufscar.br/bitstreams/b6685037-bcaa-4eef-949d-c37d1eb38966/download |
| bitstream.checksum.fl_str_mv |
dbb3cd7c76611579b0d840418ea68cd6 57e258e544f104f04afb1d5e5b4e53c0 d080cf8579a428f1f70117f6f34cbb12 77abc38216a379671fdb936bf80aa024 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1851688780951453696 |