Detecção de discurso de ódio na lingua portuguesa utilizando transferência de aprendizagem

Frediani, João Otávio Rodrigues Ferreira [UNESP]

Detecção de discurso de ódio na lingua portuguesa utilizando transferência de aprendizagem

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Frediani, João Otávio Rodrigues Ferreira [UNESP]
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	BERT Discurso de ódio Processamentod e linguagem natural Transferência de aprendizado Hate speech Natural language processing Transfer learning
Link de acesso:	https://hdl.handle.net/11449/258472
Resumo:	Discurso de ódio refere-se ao discurso ofensivo direcionado a um grupo ou indivíduo com base em características inerentes, como, por exemplo, raça, religião ou gênero. Já é reconhecido que discurso de ódio pode causar danos a longo prazo e criar problemas severos para a sociedade. O uso massivo da Internet intensificou a propagação deste tipo de discurso, permitindo que este chegue a muitas pessoas rapidamente, por isso, governos e empresas começaram uma batalha para combater sua propagação. Este combate é desafiador devido a quantidade de dados publicados na Internet, que torna a análise humana impossível, levando a necessidade de automatizar a detecção de discurso de ódio. Apesar das dificuldades encontradas, como o caráter implícito de alguns discursos, muitos trabalhos foram realizados em anos recentes para a detecção de discurso de ódio na língua inglesa. Para a língua portuguesa, a ausência de grandes conjuntos de dados rotulados torna o desafio ainda maior. Visando mitigar este problema, este trabalho investigou três estratégias de aprendizado de máquina que supostamente permitem a transferência de aprendizado em modelos de processamento de linguagem natural (PLN) desenvolvidos para detectar discurso de ódio em textos escritos em português. Foram utilizados os modelos Bertimbau Base, Bertimbau Large em BERT, e exploradas três estratégias de transferência de aprendizado entre os idiomas inglês-português e espanhol-português: (i) a transferência de aprendizado de uma tarefa fonte para uma tarefa alvo distinta; (ii) a estratégia zero-shot learning e (iii) a estratégia few-shot learning. Experimentos realizados sobre conjuntos de dados disponíveis na literatura mostraram que a tarefa fonte escolhida (detecção de linguagem ofensiva) não gerou conhecimento relevante suficiente para melhorar a performance dos modelos de PLN na tarefa alvo deste trabalho (detecção de discurso de ódio). Eles mostraram também que o conhecimento se generalizou de maneira mais eficiente com a estratégia de few-shot learning do que com zero-shot learning, em especial entre os idiomas inglês e português. Por fim, um experimento adicional mostrou que técnicas de reamostragem dos dados, podem levar a uma melhoria no desempenho dos modelos de PLN, em particular quanto às métricas precisão, revocação e pontuação F1, quando as classes dos conjuntos de dados são desbalanceadas, como ocorre com os conjuntos de dados utilizados neste trabalho.

Metadados do item

id	UNSP_ad9144e71e245b986722db76131ef3a1
oai_identifier_str	oai:repositorio.unesp.br:11449/258472
network_acronym_str	UNSP
network_name_str	Repositório Institucional da UNESP
repository_id_str
spelling	Detecção de discurso de ódio na lingua portuguesa utilizando transferência de aprendizagemHate Speech detection in portuguese using transfer learningBERTDiscurso de ódioProcessamentod e linguagem naturalTransferência de aprendizadoHate speechNatural language processingTransfer learningDiscurso de ódio refere-se ao discurso ofensivo direcionado a um grupo ou indivíduo com base em características inerentes, como, por exemplo, raça, religião ou gênero. Já é reconhecido que discurso de ódio pode causar danos a longo prazo e criar problemas severos para a sociedade. O uso massivo da Internet intensificou a propagação deste tipo de discurso, permitindo que este chegue a muitas pessoas rapidamente, por isso, governos e empresas começaram uma batalha para combater sua propagação. Este combate é desafiador devido a quantidade de dados publicados na Internet, que torna a análise humana impossível, levando a necessidade de automatizar a detecção de discurso de ódio. Apesar das dificuldades encontradas, como o caráter implícito de alguns discursos, muitos trabalhos foram realizados em anos recentes para a detecção de discurso de ódio na língua inglesa. Para a língua portuguesa, a ausência de grandes conjuntos de dados rotulados torna o desafio ainda maior. Visando mitigar este problema, este trabalho investigou três estratégias de aprendizado de máquina que supostamente permitem a transferência de aprendizado em modelos de processamento de linguagem natural (PLN) desenvolvidos para detectar discurso de ódio em textos escritos em português. Foram utilizados os modelos Bertimbau Base, Bertimbau Large em BERT, e exploradas três estratégias de transferência de aprendizado entre os idiomas inglês-português e espanhol-português: (i) a transferência de aprendizado de uma tarefa fonte para uma tarefa alvo distinta; (ii) a estratégia zero-shot learning e (iii) a estratégia few-shot learning. Experimentos realizados sobre conjuntos de dados disponíveis na literatura mostraram que a tarefa fonte escolhida (detecção de linguagem ofensiva) não gerou conhecimento relevante suficiente para melhorar a performance dos modelos de PLN na tarefa alvo deste trabalho (detecção de discurso de ódio). Eles mostraram também que o conhecimento se generalizou de maneira mais eficiente com a estratégia de few-shot learning do que com zero-shot learning, em especial entre os idiomas inglês e português. Por fim, um experimento adicional mostrou que técnicas de reamostragem dos dados, podem levar a uma melhoria no desempenho dos modelos de PLN, em particular quanto às métricas precisão, revocação e pontuação F1, quando as classes dos conjuntos de dados são desbalanceadas, como ocorre com os conjuntos de dados utilizados neste trabalho.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Capes: 001Universidade Estadual Paulista (Unesp)Marana, Aparecido Nilceu [UNESP]Universidade Estadual Paulista (Unesp)Frediani, João Otávio Rodrigues Ferreira [UNESP]2024-12-02T12:13:11Z2024-12-02T12:13:11Z2024-08-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/11449/25847233004153073P20000-0002-6544-9066porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2025-06-24T05:37:01Zoai:repositorio.unesp.br:11449/258472Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462025-06-24T05:37:01Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv	Detecção de discurso de ódio na lingua portuguesa utilizando transferência de aprendizagem Hate Speech detection in portuguese using transfer learning
title	Detecção de discurso de ódio na lingua portuguesa utilizando transferência de aprendizagem
spellingShingle	Detecção de discurso de ódio na lingua portuguesa utilizando transferência de aprendizagem Frediani, João Otávio Rodrigues Ferreira [UNESP] BERT Discurso de ódio Processamentod e linguagem natural Transferência de aprendizado Hate speech Natural language processing Transfer learning
title_short	Detecção de discurso de ódio na lingua portuguesa utilizando transferência de aprendizagem
title_full	Detecção de discurso de ódio na lingua portuguesa utilizando transferência de aprendizagem
title_fullStr	Detecção de discurso de ódio na lingua portuguesa utilizando transferência de aprendizagem
title_full_unstemmed	Detecção de discurso de ódio na lingua portuguesa utilizando transferência de aprendizagem
title_sort	Detecção de discurso de ódio na lingua portuguesa utilizando transferência de aprendizagem
author	Frediani, João Otávio Rodrigues Ferreira [UNESP]
author_facet	Frediani, João Otávio Rodrigues Ferreira [UNESP]
author_role	author
dc.contributor.none.fl_str_mv	Marana, Aparecido Nilceu [UNESP] Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv	Frediani, João Otávio Rodrigues Ferreira [UNESP]
dc.subject.por.fl_str_mv	BERT Discurso de ódio Processamentod e linguagem natural Transferência de aprendizado Hate speech Natural language processing Transfer learning
topic	BERT Discurso de ódio Processamentod e linguagem natural Transferência de aprendizado Hate speech Natural language processing Transfer learning
description	Discurso de ódio refere-se ao discurso ofensivo direcionado a um grupo ou indivíduo com base em características inerentes, como, por exemplo, raça, religião ou gênero. Já é reconhecido que discurso de ódio pode causar danos a longo prazo e criar problemas severos para a sociedade. O uso massivo da Internet intensificou a propagação deste tipo de discurso, permitindo que este chegue a muitas pessoas rapidamente, por isso, governos e empresas começaram uma batalha para combater sua propagação. Este combate é desafiador devido a quantidade de dados publicados na Internet, que torna a análise humana impossível, levando a necessidade de automatizar a detecção de discurso de ódio. Apesar das dificuldades encontradas, como o caráter implícito de alguns discursos, muitos trabalhos foram realizados em anos recentes para a detecção de discurso de ódio na língua inglesa. Para a língua portuguesa, a ausência de grandes conjuntos de dados rotulados torna o desafio ainda maior. Visando mitigar este problema, este trabalho investigou três estratégias de aprendizado de máquina que supostamente permitem a transferência de aprendizado em modelos de processamento de linguagem natural (PLN) desenvolvidos para detectar discurso de ódio em textos escritos em português. Foram utilizados os modelos Bertimbau Base, Bertimbau Large em BERT, e exploradas três estratégias de transferência de aprendizado entre os idiomas inglês-português e espanhol-português: (i) a transferência de aprendizado de uma tarefa fonte para uma tarefa alvo distinta; (ii) a estratégia zero-shot learning e (iii) a estratégia few-shot learning. Experimentos realizados sobre conjuntos de dados disponíveis na literatura mostraram que a tarefa fonte escolhida (detecção de linguagem ofensiva) não gerou conhecimento relevante suficiente para melhorar a performance dos modelos de PLN na tarefa alvo deste trabalho (detecção de discurso de ódio). Eles mostraram também que o conhecimento se generalizou de maneira mais eficiente com a estratégia de few-shot learning do que com zero-shot learning, em especial entre os idiomas inglês e português. Por fim, um experimento adicional mostrou que técnicas de reamostragem dos dados, podem levar a uma melhoria no desempenho dos modelos de PLN, em particular quanto às métricas precisão, revocação e pontuação F1, quando as classes dos conjuntos de dados são desbalanceadas, como ocorre com os conjuntos de dados utilizados neste trabalho.
publishDate	2024
dc.date.none.fl_str_mv	2024-12-02T12:13:11Z 2024-12-02T12:13:11Z 2024-08-28
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://hdl.handle.net/11449/258472 33004153073P2 0000-0002-6544-9066
url	https://hdl.handle.net/11449/258472
identifier_str_mv	33004153073P2 0000-0002-6544-9066
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP
instname_str	Universidade Estadual Paulista (UNESP)
instacron_str	UNESP
institution	UNESP
reponame_str	Repositório Institucional da UNESP
collection	Repositório Institucional da UNESP
repository.name.fl_str_mv	Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv	repositoriounesp@unesp.br
_version_	1854954721358381056

Detecção de discurso de ódio na lingua portuguesa utilizando transferência de aprendizagem

Registros relacionados