Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Rodrigues, Rafael Bezerra de Menezes
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
XAI
Link de acesso: http://hdl.handle.net/11449/238324
Resumo: A arquitetura Transformer revolucionou a área de processamento de linguagem natural, permitindo a criação do BERT, uma rede neural profunda que, quando lançada, superou o estado da arte em diversas tarefas, como a classificação de textos. No entanto, esta alta performance é acompanhada pela falta de interpretabilidade: o processo de tomada de decisão do BERT é tido como uma caixa-preta, ou seja, é difícil explicar o porquê de uma determinada classificação, com base nas características da entrada e no mecanismo interno do modelo. Dessa forma, torna-se importante o desenvolvimento de técnicas que auxiliem na compreensão do seu funcionamento. A área de XAI (eXplainable Artificial Intelligence) engloba o desenvolvimento dessas técnicas de compreensão, buscando aumentar a confiança dos usuários que utilizam a inteligência artificial, além de entender o que os modelos aprendem e como esse conhecimento é armazenado e utilizado. O presente trabalho descreve técnicas existentes para a compreensão das decisões tomadas pelo BERT, e descreve a aplicação de uma delas para estudo do overfitting e identificação dos vieses aprendidos pelo modelo. Uma mudança na estratégia de treinamento, visando à mitigação dos vieses identificados, levou a uma redução da taxa de falsos positivos em todos os casos observados, mostrando a eficácia da visualização empregada. Outro aspecto importante da classificação de textos, em modelos treinados por aprendizado supervisionado, é a qualidade dos rótulos atribuídos às instâncias do conjunto de treinamento. O presente trabalho também apresenta uma ferramenta para visualização de datasets apresentados de forma compacta e interativa, chamada de Mapa de Instâncias, que auxilia na tarefa de revisão das anotações de conjuntos de dados. Além de permitir a rápida identificação de textos mal rotulados e dos problemas mais críticos de classificação, um experimento mostrou que a combinação da ferramenta com um método de ordenação das instâncias, guiado por um BERT treinado, foi capaz de identificar o dobro de casos mal rotulados quando comparada a uma seleção aleatória dos casos, indicando a sua utilidade para a melhoria de qualidade da anotação dos datasets.
id UNSP_adc669bf80cddaa723a4e7690f582518
oai_identifier_str oai:repositorio.unesp.br:11449/238324
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str
spelling Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de viesesQuality in labeled datasets: use of BERT for label reviewing and application of saliency for bias identificationProcessamento de textos (Computação)Redes neurais (Computação)Ciência da computaçãoInteligência artificialXAIBERTTransformerRevisão de anotaçõesLabel reviewingA arquitetura Transformer revolucionou a área de processamento de linguagem natural, permitindo a criação do BERT, uma rede neural profunda que, quando lançada, superou o estado da arte em diversas tarefas, como a classificação de textos. No entanto, esta alta performance é acompanhada pela falta de interpretabilidade: o processo de tomada de decisão do BERT é tido como uma caixa-preta, ou seja, é difícil explicar o porquê de uma determinada classificação, com base nas características da entrada e no mecanismo interno do modelo. Dessa forma, torna-se importante o desenvolvimento de técnicas que auxiliem na compreensão do seu funcionamento. A área de XAI (eXplainable Artificial Intelligence) engloba o desenvolvimento dessas técnicas de compreensão, buscando aumentar a confiança dos usuários que utilizam a inteligência artificial, além de entender o que os modelos aprendem e como esse conhecimento é armazenado e utilizado. O presente trabalho descreve técnicas existentes para a compreensão das decisões tomadas pelo BERT, e descreve a aplicação de uma delas para estudo do overfitting e identificação dos vieses aprendidos pelo modelo. Uma mudança na estratégia de treinamento, visando à mitigação dos vieses identificados, levou a uma redução da taxa de falsos positivos em todos os casos observados, mostrando a eficácia da visualização empregada. Outro aspecto importante da classificação de textos, em modelos treinados por aprendizado supervisionado, é a qualidade dos rótulos atribuídos às instâncias do conjunto de treinamento. O presente trabalho também apresenta uma ferramenta para visualização de datasets apresentados de forma compacta e interativa, chamada de Mapa de Instâncias, que auxilia na tarefa de revisão das anotações de conjuntos de dados. Além de permitir a rápida identificação de textos mal rotulados e dos problemas mais críticos de classificação, um experimento mostrou que a combinação da ferramenta com um método de ordenação das instâncias, guiado por um BERT treinado, foi capaz de identificar o dobro de casos mal rotulados quando comparada a uma seleção aleatória dos casos, indicando a sua utilidade para a melhoria de qualidade da anotação dos datasets.The Transformer architecture revolutionized the natural language processing field, allowing the creation of BERT, a deep neural network that became the state-of-the-art in many tasks, such as text classification. However, its high performance comes with lack of interpretability: the decision-making process of BERT is considered to be a black-box, i. e., it is hard to explain the reason of a specific classification based on the input’s characteristics and the internal mechanisms of the model. Therefore, it becomes important to develop techniques that aid in the comprehension of its inner workings. The XAI field (eXplainable Artificial Intelligence) includes the development of such techniques, aiming at gaining the trust of AI’s users, besides understanding what the models learn and this knowledge is stored and used. This current work describes existing techniques on the interpretability of BERT’s decisions, and describes an application of one of these techniques to the study of model overfitting and the identification of biases learned by the model. A change of the training strategy, aiming at the mitigation of such biases, led to a decrease of false positive rates in all observed cases, showing the efficacy of the employed visualization. Another important aspect in text classification, related to models obtained by supervised training, is the quality of dataset’s labels. This current work also presents a tool for the visualization of datasets presented in a compact an interactive way, called Instances Map, which helps on the task of label reviewing. Besides allowing a quick identification of mislabeled instances and the most critical classification errors, an experiment showed that the combination of the tool together with a method of sorting the instances, guided by a trained BERT, was able to identify two times more mislabeled cases, when compared to random selection, pointing to its utility to the improvement of label quality in labeled datasets.Universidade Estadual Paulista (Unesp)Eler, Danilo Medeiros [UNESP]Universidade Estadual Paulista (Unesp)Rodrigues, Rafael Bezerra de Menezes2022-12-19T19:41:11Z2022-12-19T19:41:11Z2022-12-01info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/23832433004153073P2porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2025-10-22T17:05:34Zoai:repositorio.unesp.br:11449/238324Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462025-10-22T17:05:34Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses
Quality in labeled datasets: use of BERT for label reviewing and application of saliency for bias identification
title Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses
spellingShingle Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses
Rodrigues, Rafael Bezerra de Menezes
Processamento de textos (Computação)
Redes neurais (Computação)
Ciência da computação
Inteligência artificial
XAI
BERT
Transformer
Revisão de anotações
Label reviewing
title_short Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses
title_full Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses
title_fullStr Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses
title_full_unstemmed Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses
title_sort Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses
author Rodrigues, Rafael Bezerra de Menezes
author_facet Rodrigues, Rafael Bezerra de Menezes
author_role author
dc.contributor.none.fl_str_mv Eler, Danilo Medeiros [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Rodrigues, Rafael Bezerra de Menezes
dc.subject.por.fl_str_mv Processamento de textos (Computação)
Redes neurais (Computação)
Ciência da computação
Inteligência artificial
XAI
BERT
Transformer
Revisão de anotações
Label reviewing
topic Processamento de textos (Computação)
Redes neurais (Computação)
Ciência da computação
Inteligência artificial
XAI
BERT
Transformer
Revisão de anotações
Label reviewing
description A arquitetura Transformer revolucionou a área de processamento de linguagem natural, permitindo a criação do BERT, uma rede neural profunda que, quando lançada, superou o estado da arte em diversas tarefas, como a classificação de textos. No entanto, esta alta performance é acompanhada pela falta de interpretabilidade: o processo de tomada de decisão do BERT é tido como uma caixa-preta, ou seja, é difícil explicar o porquê de uma determinada classificação, com base nas características da entrada e no mecanismo interno do modelo. Dessa forma, torna-se importante o desenvolvimento de técnicas que auxiliem na compreensão do seu funcionamento. A área de XAI (eXplainable Artificial Intelligence) engloba o desenvolvimento dessas técnicas de compreensão, buscando aumentar a confiança dos usuários que utilizam a inteligência artificial, além de entender o que os modelos aprendem e como esse conhecimento é armazenado e utilizado. O presente trabalho descreve técnicas existentes para a compreensão das decisões tomadas pelo BERT, e descreve a aplicação de uma delas para estudo do overfitting e identificação dos vieses aprendidos pelo modelo. Uma mudança na estratégia de treinamento, visando à mitigação dos vieses identificados, levou a uma redução da taxa de falsos positivos em todos os casos observados, mostrando a eficácia da visualização empregada. Outro aspecto importante da classificação de textos, em modelos treinados por aprendizado supervisionado, é a qualidade dos rótulos atribuídos às instâncias do conjunto de treinamento. O presente trabalho também apresenta uma ferramenta para visualização de datasets apresentados de forma compacta e interativa, chamada de Mapa de Instâncias, que auxilia na tarefa de revisão das anotações de conjuntos de dados. Além de permitir a rápida identificação de textos mal rotulados e dos problemas mais críticos de classificação, um experimento mostrou que a combinação da ferramenta com um método de ordenação das instâncias, guiado por um BERT treinado, foi capaz de identificar o dobro de casos mal rotulados quando comparada a uma seleção aleatória dos casos, indicando a sua utilidade para a melhoria de qualidade da anotação dos datasets.
publishDate 2022
dc.date.none.fl_str_mv 2022-12-19T19:41:11Z
2022-12-19T19:41:11Z
2022-12-01
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/238324
33004153073P2
url http://hdl.handle.net/11449/238324
identifier_str_mv 33004153073P2
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv repositoriounesp@unesp.br
_version_ 1854954545412571136