Detecção de hate speech usando combinação de classificadores

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: SOUSA, Woshington Valdeci de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/38109
Resumo: A popularização da internet e o crescimento das mídias sociais, mudaram a perspectiva geral de socialização nos últimos anos, tornando-se um meio de comunicação em massa com pouco controle sobre o conteúdo disseminado em suas plataformas. Além disso, o anonimato e a mobilidade alçaram as mídias sociais, como um importante canal disseminador de discursos de ódio. Esse tipo de discurso tornou-se um problema de escala mundial, causando preocupações em diversos países e organizações. Apesar dos grandes investimentos de empresas como Facebook, Twitter e Youtube, as atividades de controle ainda consistem em moderação manual, tornando o processo inescalável. Um grande número de pesquisas em aprendizagem de máquina, focam na detecção de discursos de ódio em redes sociais, utilizando a classificação monolítica. No entanto, é importante destacar que essa abordagem clássica, geralmente tem sua eficiência limitada no fato que um único classificador é responsável pela generalização do problema. Os sistemas de múltiplos classificadores, buscam combinar um conjunto de classificadores com comportamentos de classificação distintos para superar os resultados individuais dos mesmos. No entanto, selecionar classificadores com comportamentos diversificados, é uma tarefa complexa. Este trabalho propõe uma abordagem de seleção de classificadores baseada em uma exploração visual 2D, criada a partir da redução de dimensionalidade da matriz de dissimilaridade entre todos os classificadores, que é gerada utilizando o coeficiente double-fault measure. Para avaliar o método, inicialmente, foi construído um conjunto com 8 algoritmos de aprendizagem distintos, treinados com 5 métodos extratores, perfazendo um total de 40 classificadores, que tiveram seus desempenhos avaliados pelas métricas acurácia e macro f1-score. Em seguida, foi aplicada a proposta deste trabalho, para selecionar um grupo de classificadores que apresentavam comportamentos complementares e outro com comportamento mais semelhante, para então avaliar o desempenho destes grupos com técnicas de combinação. Este método foi aplicado em três bases de dados, duas delas (TD e ZW) foram coletadas do Twitter e uma (TD+ZW) construída com a junção das outras duas. Nas três bases foram realizados procedimentos de classificação com múltiplas classes, em TD e TD+ZW o objetivo era identificar o padrão como hate, offensive e non-offensive e em ZW classificar os padrões em racism, sexism e none. O método proposto obteve os melhores resultados em duas das bases avaliadas quando comparado a resultados da literatura.
id UFPE_945da94aa46b8de985f11c2323003c5b
oai_identifier_str oai:repositorio.ufpe.br:123456789/38109
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str
spelling Detecção de hate speech usando combinação de classificadoresInteligência computacionalCombinação de classificadoresA popularização da internet e o crescimento das mídias sociais, mudaram a perspectiva geral de socialização nos últimos anos, tornando-se um meio de comunicação em massa com pouco controle sobre o conteúdo disseminado em suas plataformas. Além disso, o anonimato e a mobilidade alçaram as mídias sociais, como um importante canal disseminador de discursos de ódio. Esse tipo de discurso tornou-se um problema de escala mundial, causando preocupações em diversos países e organizações. Apesar dos grandes investimentos de empresas como Facebook, Twitter e Youtube, as atividades de controle ainda consistem em moderação manual, tornando o processo inescalável. Um grande número de pesquisas em aprendizagem de máquina, focam na detecção de discursos de ódio em redes sociais, utilizando a classificação monolítica. No entanto, é importante destacar que essa abordagem clássica, geralmente tem sua eficiência limitada no fato que um único classificador é responsável pela generalização do problema. Os sistemas de múltiplos classificadores, buscam combinar um conjunto de classificadores com comportamentos de classificação distintos para superar os resultados individuais dos mesmos. No entanto, selecionar classificadores com comportamentos diversificados, é uma tarefa complexa. Este trabalho propõe uma abordagem de seleção de classificadores baseada em uma exploração visual 2D, criada a partir da redução de dimensionalidade da matriz de dissimilaridade entre todos os classificadores, que é gerada utilizando o coeficiente double-fault measure. Para avaliar o método, inicialmente, foi construído um conjunto com 8 algoritmos de aprendizagem distintos, treinados com 5 métodos extratores, perfazendo um total de 40 classificadores, que tiveram seus desempenhos avaliados pelas métricas acurácia e macro f1-score. Em seguida, foi aplicada a proposta deste trabalho, para selecionar um grupo de classificadores que apresentavam comportamentos complementares e outro com comportamento mais semelhante, para então avaliar o desempenho destes grupos com técnicas de combinação. Este método foi aplicado em três bases de dados, duas delas (TD e ZW) foram coletadas do Twitter e uma (TD+ZW) construída com a junção das outras duas. Nas três bases foram realizados procedimentos de classificação com múltiplas classes, em TD e TD+ZW o objetivo era identificar o padrão como hate, offensive e non-offensive e em ZW classificar os padrões em racism, sexism e none. O método proposto obteve os melhores resultados em duas das bases avaliadas quando comparado a resultados da literatura.The popularization of the internet and the growth of social media have changed the general perspective of socialization in recent years, becoming a means of mass communication with little control over the content disseminated on their platforms. In addition, anonymity and mobility have raised social media as an important channel for disseminating hate speech. This type of discourse has become a worldwide problem, causing concern in several countries and organizations. Despite large investments by companies such as Facebook, Twitter and Youtube, control activities still consist of manual moderation, making the process inescalable. A large number of researches on machine learning focus on detecting hate speech on social networks, using the monolithic classification. However, it is important to note that this classic approach generally has limited efficiency in the fact that a single classifier is responsible for generalizing the problem. Multiple classifier systems seek to combine a set of classifiers with different classification behaviors to overcome their individual results. However, selecting classifiers with diverse behaviors is a complex task. This work proposes a classifier selection approach based on a 2D visual exploration, created from the reduction of the dimensionality of the dissimilarity matrix among all classifiers, which is generated using the double-fault measure coefficient. To evaluate the method, initially, a set was built with 8 distinct learning algorithms, trained with 5 extraction methods, making a total of 40 classifiers, whose performance was evaluated by the metrics accuracy and macro f1-score. Then, the proposal of this work was applied, to select a group of classifiers that presented complementary behaviors and another one with more similar behavior, to then evaluate the performance of these groups with combination techniques. This method was applied in three databases, two of them (TD and ZW) were collected from Twitter and one (TD + ZW) built with the combination of the other two. Classification procedures with multiple classes were carried out in the three bases, in TD and TD + ZW the objective was to identify the pattern as hate, offensive and non-offensive and in ZW to classify the patterns in racism, sexism and none. The proposed method obtained the best results in two of the bases evaluated when compared to results in the literature.Universidade Federal de PernambucoUFPEBrasilPrograma de Pos Graduacao em Ciencia da ComputacaoCAVALCANTI, George Darmiton da Cunhahttp://lattes.cnpq.br/0948747826175550http://lattes.cnpq.br/8577312109146354SOUSA, Woshington Valdeci de2020-09-25T23:52:42Z2020-09-25T23:52:42Z2020-06-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSOUSA, Woshington Valdeci de. Detecção de hate speech usando combinação de classificadores. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2020.https://repositorio.ufpe.br/handle/123456789/38109porAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPE2025-08-21T13:38:44Zoai:repositorio.ufpe.br:123456789/38109Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212025-08-21T13:38:44Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.none.fl_str_mv Detecção de hate speech usando combinação de classificadores
title Detecção de hate speech usando combinação de classificadores
spellingShingle Detecção de hate speech usando combinação de classificadores
SOUSA, Woshington Valdeci de
Inteligência computacional
Combinação de classificadores
title_short Detecção de hate speech usando combinação de classificadores
title_full Detecção de hate speech usando combinação de classificadores
title_fullStr Detecção de hate speech usando combinação de classificadores
title_full_unstemmed Detecção de hate speech usando combinação de classificadores
title_sort Detecção de hate speech usando combinação de classificadores
author SOUSA, Woshington Valdeci de
author_facet SOUSA, Woshington Valdeci de
author_role author
dc.contributor.none.fl_str_mv CAVALCANTI, George Darmiton da Cunha
http://lattes.cnpq.br/0948747826175550
http://lattes.cnpq.br/8577312109146354
dc.contributor.author.fl_str_mv SOUSA, Woshington Valdeci de
dc.subject.por.fl_str_mv Inteligência computacional
Combinação de classificadores
topic Inteligência computacional
Combinação de classificadores
description A popularização da internet e o crescimento das mídias sociais, mudaram a perspectiva geral de socialização nos últimos anos, tornando-se um meio de comunicação em massa com pouco controle sobre o conteúdo disseminado em suas plataformas. Além disso, o anonimato e a mobilidade alçaram as mídias sociais, como um importante canal disseminador de discursos de ódio. Esse tipo de discurso tornou-se um problema de escala mundial, causando preocupações em diversos países e organizações. Apesar dos grandes investimentos de empresas como Facebook, Twitter e Youtube, as atividades de controle ainda consistem em moderação manual, tornando o processo inescalável. Um grande número de pesquisas em aprendizagem de máquina, focam na detecção de discursos de ódio em redes sociais, utilizando a classificação monolítica. No entanto, é importante destacar que essa abordagem clássica, geralmente tem sua eficiência limitada no fato que um único classificador é responsável pela generalização do problema. Os sistemas de múltiplos classificadores, buscam combinar um conjunto de classificadores com comportamentos de classificação distintos para superar os resultados individuais dos mesmos. No entanto, selecionar classificadores com comportamentos diversificados, é uma tarefa complexa. Este trabalho propõe uma abordagem de seleção de classificadores baseada em uma exploração visual 2D, criada a partir da redução de dimensionalidade da matriz de dissimilaridade entre todos os classificadores, que é gerada utilizando o coeficiente double-fault measure. Para avaliar o método, inicialmente, foi construído um conjunto com 8 algoritmos de aprendizagem distintos, treinados com 5 métodos extratores, perfazendo um total de 40 classificadores, que tiveram seus desempenhos avaliados pelas métricas acurácia e macro f1-score. Em seguida, foi aplicada a proposta deste trabalho, para selecionar um grupo de classificadores que apresentavam comportamentos complementares e outro com comportamento mais semelhante, para então avaliar o desempenho destes grupos com técnicas de combinação. Este método foi aplicado em três bases de dados, duas delas (TD e ZW) foram coletadas do Twitter e uma (TD+ZW) construída com a junção das outras duas. Nas três bases foram realizados procedimentos de classificação com múltiplas classes, em TD e TD+ZW o objetivo era identificar o padrão como hate, offensive e non-offensive e em ZW classificar os padrões em racism, sexism e none. O método proposto obteve os melhores resultados em duas das bases avaliadas quando comparado a resultados da literatura.
publishDate 2020
dc.date.none.fl_str_mv 2020-09-25T23:52:42Z
2020-09-25T23:52:42Z
2020-06-02
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SOUSA, Woshington Valdeci de. Detecção de hate speech usando combinação de classificadores. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2020.
https://repositorio.ufpe.br/handle/123456789/38109
identifier_str_mv SOUSA, Woshington Valdeci de. Detecção de hate speech usando combinação de classificadores. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2020.
url https://repositorio.ufpe.br/handle/123456789/38109
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1856041901683113984