Data contamination in specialized named entity recognition corpora

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Nunes, Rafael Oleques
Orientador(a): Freitas, Carla Maria Dal Sasso
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/294662
Resumo: Este trabalho apresenta uma análise da contaminação de anotações em corpora especializados de Reconhecimento de Entidades Nomeadas (REN) na língua portuguesa. Identificamos três tipos de anotações sobrepostas (duplicadas, parciais e ambíguas), ocorrendo em instâncias de sentenças idênticas, e mostramos que tais problemas estão presentes em todos os corpora avaliados, tanto dentro quanto entre as divisões de dados originais. Quando disponíveis, especialistas do domínio revisaram manualmente os casos parciais e ambíguos; caso contrário, uma abordagem heurística foi usada para resolver conflitos. Geramos versões contaminadas e descontaminadas de cada corpus e as usamos para treinar e avaliar uma variedade de modelos REN, incluindo CRF, BiLSTM-CRF e arquiteturas de transformadores baseadas em codificadores. Para avaliar o impacto da contaminação no desempenho do modelo, conduzimos experimentos usando estratégias de validação cruzada e de validação contínua, e aplicamos testes estatísticos para comparar os resultados entre as versões do corpus. Os resultados indicam que inconsistências de anotações podem influenciar os resultados da avaliação, destacando a importância da preparação cuidadosa do conjunto de dados em tarefas de REN específicas do domínio.
id URGS_8ae29aba9e826e944a528a748ed65f52
oai_identifier_str oai:www.lume.ufrgs.br:10183/294662
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Nunes, Rafael OlequesFreitas, Carla Maria Dal SassoBalreira, Dennis Giovani2025-08-06T06:56:05Z2025http://hdl.handle.net/10183/294662001290043Este trabalho apresenta uma análise da contaminação de anotações em corpora especializados de Reconhecimento de Entidades Nomeadas (REN) na língua portuguesa. Identificamos três tipos de anotações sobrepostas (duplicadas, parciais e ambíguas), ocorrendo em instâncias de sentenças idênticas, e mostramos que tais problemas estão presentes em todos os corpora avaliados, tanto dentro quanto entre as divisões de dados originais. Quando disponíveis, especialistas do domínio revisaram manualmente os casos parciais e ambíguos; caso contrário, uma abordagem heurística foi usada para resolver conflitos. Geramos versões contaminadas e descontaminadas de cada corpus e as usamos para treinar e avaliar uma variedade de modelos REN, incluindo CRF, BiLSTM-CRF e arquiteturas de transformadores baseadas em codificadores. Para avaliar o impacto da contaminação no desempenho do modelo, conduzimos experimentos usando estratégias de validação cruzada e de validação contínua, e aplicamos testes estatísticos para comparar os resultados entre as versões do corpus. Os resultados indicam que inconsistências de anotações podem influenciar os resultados da avaliação, destacando a importância da preparação cuidadosa do conjunto de dados em tarefas de REN específicas do domínio.This work presents an analysis of annotation contamination in specialized Named Entity Recognition (NER) corpora in the Portuguese language. We identify three types of overlapping annotations (duplicated, partial, and ambiguous) that occur within identical sentence instances. We demonstrate that such issues are present in all evaluated corpora within and across the original data splits. When available, domain experts manually reviewed partial and ambiguous cases; otherwise, a heuristic approach was used to resolve conflicts. We produced both contaminated and decontaminated versions of each corpus and used them to train and evaluate a range of NER models, including CRF, BiLSTM-CRF, and encoder-based transformer architectures. To assess the impact of contamination on model performance, we conducted experiments using both holdout and k-fold cross-validation strategies and applied statistical tests to compare results across corpus versions. The findings indicate that annotation inconsistencies can significantly influence evaluation outcomes, underscoring the importance of careful corpus preparation in domain-specific NER tasks.application/pdfengReconhecimento de entidade nomeadaModelos de linguagem de grande escalaProcessamento de linguagem naturalAprendizado profundoData contaminationLow-resourceEvaluationData contamination in specialized named entity recognition corporaContaminação de dados em corpora de reconhecimento de entidades nomeadas especializados info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2025mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001290043.pdf.txt001290043.pdf.txtExtracted Texttext/plain462982http://www.lume.ufrgs.br/bitstream/10183/294662/2/001290043.pdf.txt36d9893d21cc1c65b9504e402efa2e0cMD52ORIGINAL001290043.pdfTexto completo (inglês)application/pdf1887163http://www.lume.ufrgs.br/bitstream/10183/294662/1/001290043.pdf2525883bfe7e9efaa89d07969e0b4082MD5110183/2946622025-08-07 08:01:29.511069oai:www.lume.ufrgs.br:10183/294662Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br || lume@ufrgs.bropendoar:18532025-08-07T11:01:29Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Data contamination in specialized named entity recognition corpora
dc.title.alternative.pt.fl_str_mv Contaminação de dados em corpora de reconhecimento de entidades nomeadas especializados
title Data contamination in specialized named entity recognition corpora
spellingShingle Data contamination in specialized named entity recognition corpora
Nunes, Rafael Oleques
Reconhecimento de entidade nomeada
Modelos de linguagem de grande escala
Processamento de linguagem natural
Aprendizado profundo
Data contamination
Low-resource
Evaluation
title_short Data contamination in specialized named entity recognition corpora
title_full Data contamination in specialized named entity recognition corpora
title_fullStr Data contamination in specialized named entity recognition corpora
title_full_unstemmed Data contamination in specialized named entity recognition corpora
title_sort Data contamination in specialized named entity recognition corpora
author Nunes, Rafael Oleques
author_facet Nunes, Rafael Oleques
author_role author
dc.contributor.author.fl_str_mv Nunes, Rafael Oleques
dc.contributor.advisor1.fl_str_mv Freitas, Carla Maria Dal Sasso
dc.contributor.advisor-co1.fl_str_mv Balreira, Dennis Giovani
contributor_str_mv Freitas, Carla Maria Dal Sasso
Balreira, Dennis Giovani
dc.subject.por.fl_str_mv Reconhecimento de entidade nomeada
Modelos de linguagem de grande escala
Processamento de linguagem natural
Aprendizado profundo
topic Reconhecimento de entidade nomeada
Modelos de linguagem de grande escala
Processamento de linguagem natural
Aprendizado profundo
Data contamination
Low-resource
Evaluation
dc.subject.eng.fl_str_mv Data contamination
Low-resource
Evaluation
description Este trabalho apresenta uma análise da contaminação de anotações em corpora especializados de Reconhecimento de Entidades Nomeadas (REN) na língua portuguesa. Identificamos três tipos de anotações sobrepostas (duplicadas, parciais e ambíguas), ocorrendo em instâncias de sentenças idênticas, e mostramos que tais problemas estão presentes em todos os corpora avaliados, tanto dentro quanto entre as divisões de dados originais. Quando disponíveis, especialistas do domínio revisaram manualmente os casos parciais e ambíguos; caso contrário, uma abordagem heurística foi usada para resolver conflitos. Geramos versões contaminadas e descontaminadas de cada corpus e as usamos para treinar e avaliar uma variedade de modelos REN, incluindo CRF, BiLSTM-CRF e arquiteturas de transformadores baseadas em codificadores. Para avaliar o impacto da contaminação no desempenho do modelo, conduzimos experimentos usando estratégias de validação cruzada e de validação contínua, e aplicamos testes estatísticos para comparar os resultados entre as versões do corpus. Os resultados indicam que inconsistências de anotações podem influenciar os resultados da avaliação, destacando a importância da preparação cuidadosa do conjunto de dados em tarefas de REN específicas do domínio.
publishDate 2025
dc.date.accessioned.fl_str_mv 2025-08-06T06:56:05Z
dc.date.issued.fl_str_mv 2025
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/294662
dc.identifier.nrb.pt_BR.fl_str_mv 001290043
url http://hdl.handle.net/10183/294662
identifier_str_mv 001290043
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/294662/2/001290043.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/294662/1/001290043.pdf
bitstream.checksum.fl_str_mv 36d9893d21cc1c65b9504e402efa2e0c
2525883bfe7e9efaa89d07969e0b4082
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br || lume@ufrgs.br
_version_ 1846255906544680960