Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses

Rodrigues, Rafael Bezerra de Menezes

Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses

Detalhes bibliográficos
Ano de defesa:	2022
Autor(a) principal:	Rodrigues, Rafael Bezerra de Menezes
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Processamento de textos (Computação) Redes neurais (Computação) Ciência da computação Inteligência artificial XAI BERT Transformer Revisão de anotações Label reviewing
Link de acesso:	http://hdl.handle.net/11449/238324
Resumo:	A arquitetura Transformer revolucionou a área de processamento de linguagem natural, permitindo a criação do BERT, uma rede neural profunda que, quando lançada, superou o estado da arte em diversas tarefas, como a classificação de textos. No entanto, esta alta performance é acompanhada pela falta de interpretabilidade: o processo de tomada de decisão do BERT é tido como uma caixa-preta, ou seja, é difícil explicar o porquê de uma determinada classificação, com base nas características da entrada e no mecanismo interno do modelo. Dessa forma, torna-se importante o desenvolvimento de técnicas que auxiliem na compreensão do seu funcionamento. A área de XAI (eXplainable Artificial Intelligence) engloba o desenvolvimento dessas técnicas de compreensão, buscando aumentar a confiança dos usuários que utilizam a inteligência artificial, além de entender o que os modelos aprendem e como esse conhecimento é armazenado e utilizado. O presente trabalho descreve técnicas existentes para a compreensão das decisões tomadas pelo BERT, e descreve a aplicação de uma delas para estudo do overfitting e identificação dos vieses aprendidos pelo modelo. Uma mudança na estratégia de treinamento, visando à mitigação dos vieses identificados, levou a uma redução da taxa de falsos positivos em todos os casos observados, mostrando a eficácia da visualização empregada. Outro aspecto importante da classificação de textos, em modelos treinados por aprendizado supervisionado, é a qualidade dos rótulos atribuídos às instâncias do conjunto de treinamento. O presente trabalho também apresenta uma ferramenta para visualização de datasets apresentados de forma compacta e interativa, chamada de Mapa de Instâncias, que auxilia na tarefa de revisão das anotações de conjuntos de dados. Além de permitir a rápida identificação de textos mal rotulados e dos problemas mais críticos de classificação, um experimento mostrou que a combinação da ferramenta com um método de ordenação das instâncias, guiado por um BERT treinado, foi capaz de identificar o dobro de casos mal rotulados quando comparada a uma seleção aleatória dos casos, indicando a sua utilidade para a melhoria de qualidade da anotação dos datasets.

Metadados do item

id	UNSP_adc669bf80cddaa723a4e7690f582518
oai_identifier_str	oai:repositorio.unesp.br:11449/238324
network_acronym_str	UNSP
network_name_str	Repositório Institucional da UNESP
repository_id_str
spelling	Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de viesesQuality in labeled datasets: use of BERT for label reviewing and application of saliency for bias identificationProcessamento de textos (Computação)Redes neurais (Computação)Ciência da computaçãoInteligência artificialXAIBERTTransformerRevisão de anotaçõesLabel reviewingA arquitetura Transformer revolucionou a área de processamento de linguagem natural, permitindo a criação do BERT, uma rede neural profunda que, quando lançada, superou o estado da arte em diversas tarefas, como a classificação de textos. No entanto, esta alta performance é acompanhada pela falta de interpretabilidade: o processo de tomada de decisão do BERT é tido como uma caixa-preta, ou seja, é difícil explicar o porquê de uma determinada classificação, com base nas características da entrada e no mecanismo interno do modelo. Dessa forma, torna-se importante o desenvolvimento de técnicas que auxiliem na compreensão do seu funcionamento. A área de XAI (eXplainable Artificial Intelligence) engloba o desenvolvimento dessas técnicas de compreensão, buscando aumentar a confiança dos usuários que utilizam a inteligência artificial, além de entender o que os modelos aprendem e como esse conhecimento é armazenado e utilizado. O presente trabalho descreve técnicas existentes para a compreensão das decisões tomadas pelo BERT, e descreve a aplicação de uma delas para estudo do overfitting e identificação dos vieses aprendidos pelo modelo. Uma mudança na estratégia de treinamento, visando à mitigação dos vieses identificados, levou a uma redução da taxa de falsos positivos em todos os casos observados, mostrando a eficácia da visualização empregada. Outro aspecto importante da classificação de textos, em modelos treinados por aprendizado supervisionado, é a qualidade dos rótulos atribuídos às instâncias do conjunto de treinamento. O presente trabalho também apresenta uma ferramenta para visualização de datasets apresentados de forma compacta e interativa, chamada de Mapa de Instâncias, que auxilia na tarefa de revisão das anotações de conjuntos de dados. Além de permitir a rápida identificação de textos mal rotulados e dos problemas mais críticos de classificação, um experimento mostrou que a combinação da ferramenta com um método de ordenação das instâncias, guiado por um BERT treinado, foi capaz de identificar o dobro de casos mal rotulados quando comparada a uma seleção aleatória dos casos, indicando a sua utilidade para a melhoria de qualidade da anotação dos datasets.The Transformer architecture revolutionized the natural language processing field, allowing the creation of BERT, a deep neural network that became the state-of-the-art in many tasks, such as text classification. However, its high performance comes with lack of interpretability: the decision-making process of BERT is considered to be a black-box, i. e., it is hard to explain the reason of a specific classification based on the input’s characteristics and the internal mechanisms of the model. Therefore, it becomes important to develop techniques that aid in the comprehension of its inner workings. The XAI field (eXplainable Artificial Intelligence) includes the development of such techniques, aiming at gaining the trust of AI’s users, besides understanding what the models learn and this knowledge is stored and used. This current work describes existing techniques on the interpretability of BERT’s decisions, and describes an application of one of these techniques to the study of model overfitting and the identification of biases learned by the model. A change of the training strategy, aiming at the mitigation of such biases, led to a decrease of false positive rates in all observed cases, showing the efficacy of the employed visualization. Another important aspect in text classification, related to models obtained by supervised training, is the quality of dataset’s labels. This current work also presents a tool for the visualization of datasets presented in a compact an interactive way, called Instances Map, which helps on the task of label reviewing. Besides allowing a quick identification of mislabeled instances and the most critical classification errors, an experiment showed that the combination of the tool together with a method of sorting the instances, guided by a trained BERT, was able to identify two times more mislabeled cases, when compared to random selection, pointing to its utility to the improvement of label quality in labeled datasets.Universidade Estadual Paulista (Unesp)Eler, Danilo Medeiros [UNESP]Universidade Estadual Paulista (Unesp)Rodrigues, Rafael Bezerra de Menezes2022-12-19T19:41:11Z2022-12-19T19:41:11Z2022-12-01info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/23832433004153073P2porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2025-10-22T17:05:34Zoai:repositorio.unesp.br:11449/238324Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462025-10-22T17:05:34Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv	Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses Quality in labeled datasets: use of BERT for label reviewing and application of saliency for bias identification
title	Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses
spellingShingle	Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses Rodrigues, Rafael Bezerra de Menezes Processamento de textos (Computação) Redes neurais (Computação) Ciência da computação Inteligência artificial XAI BERT Transformer Revisão de anotações Label reviewing
title_short	Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses
title_full	Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses
title_fullStr	Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses
title_full_unstemmed	Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses
title_sort	Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses
author	Rodrigues, Rafael Bezerra de Menezes
author_facet	Rodrigues, Rafael Bezerra de Menezes
author_role	author
dc.contributor.none.fl_str_mv	Eler, Danilo Medeiros [UNESP] Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv	Rodrigues, Rafael Bezerra de Menezes
dc.subject.por.fl_str_mv	Processamento de textos (Computação) Redes neurais (Computação) Ciência da computação Inteligência artificial XAI BERT Transformer Revisão de anotações Label reviewing
topic	Processamento de textos (Computação) Redes neurais (Computação) Ciência da computação Inteligência artificial XAI BERT Transformer Revisão de anotações Label reviewing
description	A arquitetura Transformer revolucionou a área de processamento de linguagem natural, permitindo a criação do BERT, uma rede neural profunda que, quando lançada, superou o estado da arte em diversas tarefas, como a classificação de textos. No entanto, esta alta performance é acompanhada pela falta de interpretabilidade: o processo de tomada de decisão do BERT é tido como uma caixa-preta, ou seja, é difícil explicar o porquê de uma determinada classificação, com base nas características da entrada e no mecanismo interno do modelo. Dessa forma, torna-se importante o desenvolvimento de técnicas que auxiliem na compreensão do seu funcionamento. A área de XAI (eXplainable Artificial Intelligence) engloba o desenvolvimento dessas técnicas de compreensão, buscando aumentar a confiança dos usuários que utilizam a inteligência artificial, além de entender o que os modelos aprendem e como esse conhecimento é armazenado e utilizado. O presente trabalho descreve técnicas existentes para a compreensão das decisões tomadas pelo BERT, e descreve a aplicação de uma delas para estudo do overfitting e identificação dos vieses aprendidos pelo modelo. Uma mudança na estratégia de treinamento, visando à mitigação dos vieses identificados, levou a uma redução da taxa de falsos positivos em todos os casos observados, mostrando a eficácia da visualização empregada. Outro aspecto importante da classificação de textos, em modelos treinados por aprendizado supervisionado, é a qualidade dos rótulos atribuídos às instâncias do conjunto de treinamento. O presente trabalho também apresenta uma ferramenta para visualização de datasets apresentados de forma compacta e interativa, chamada de Mapa de Instâncias, que auxilia na tarefa de revisão das anotações de conjuntos de dados. Além de permitir a rápida identificação de textos mal rotulados e dos problemas mais críticos de classificação, um experimento mostrou que a combinação da ferramenta com um método de ordenação das instâncias, guiado por um BERT treinado, foi capaz de identificar o dobro de casos mal rotulados quando comparada a uma seleção aleatória dos casos, indicando a sua utilidade para a melhoria de qualidade da anotação dos datasets.
publishDate	2022
dc.date.none.fl_str_mv	2022-12-19T19:41:11Z 2022-12-19T19:41:11Z 2022-12-01
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/11449/238324 33004153073P2
url	http://hdl.handle.net/11449/238324
identifier_str_mv	33004153073P2
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP
instname_str	Universidade Estadual Paulista (UNESP)
instacron_str	UNESP
institution	UNESP
reponame_str	Repositório Institucional da UNESP
collection	Repositório Institucional da UNESP
repository.name.fl_str_mv	Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv	repositoriounesp@unesp.br
_version_	1854954545412571136

Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses

Registros relacionados