Data contamination in specialized named entity recognition corpora

Nunes, Rafael Oleques

Data contamination in specialized named entity recognition corpora

Detalhes bibliográficos
Ano de defesa:	2025
Autor(a) principal:	Nunes, Rafael Oleques
Orientador(a):	Freitas, Carla Maria Dal Sasso
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Reconhecimento de entidade nomeada Modelos de linguagem de grande escala Processamento de linguagem natural Aprendizado profundo
Palavras-chave em Inglês:	Data contamination Low-resource Evaluation
Link de acesso:	http://hdl.handle.net/10183/294662
Resumo:	Este trabalho apresenta uma análise da contaminação de anotações em corpora especializados de Reconhecimento de Entidades Nomeadas (REN) na língua portuguesa. Identificamos três tipos de anotações sobrepostas (duplicadas, parciais e ambíguas), ocorrendo em instâncias de sentenças idênticas, e mostramos que tais problemas estão presentes em todos os corpora avaliados, tanto dentro quanto entre as divisões de dados originais. Quando disponíveis, especialistas do domínio revisaram manualmente os casos parciais e ambíguos; caso contrário, uma abordagem heurística foi usada para resolver conflitos. Geramos versões contaminadas e descontaminadas de cada corpus e as usamos para treinar e avaliar uma variedade de modelos REN, incluindo CRF, BiLSTM-CRF e arquiteturas de transformadores baseadas em codificadores. Para avaliar o impacto da contaminação no desempenho do modelo, conduzimos experimentos usando estratégias de validação cruzada e de validação contínua, e aplicamos testes estatísticos para comparar os resultados entre as versões do corpus. Os resultados indicam que inconsistências de anotações podem influenciar os resultados da avaliação, destacando a importância da preparação cuidadosa do conjunto de dados em tarefas de REN específicas do domínio.

Metadados do item

id	URGS_8ae29aba9e826e944a528a748ed65f52
oai_identifier_str	oai:www.lume.ufrgs.br:10183/294662
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling	Nunes, Rafael OlequesFreitas, Carla Maria Dal SassoBalreira, Dennis Giovani2025-08-06T06:56:05Z2025http://hdl.handle.net/10183/294662001290043Este trabalho apresenta uma análise da contaminação de anotações em corpora especializados de Reconhecimento de Entidades Nomeadas (REN) na língua portuguesa. Identificamos três tipos de anotações sobrepostas (duplicadas, parciais e ambíguas), ocorrendo em instâncias de sentenças idênticas, e mostramos que tais problemas estão presentes em todos os corpora avaliados, tanto dentro quanto entre as divisões de dados originais. Quando disponíveis, especialistas do domínio revisaram manualmente os casos parciais e ambíguos; caso contrário, uma abordagem heurística foi usada para resolver conflitos. Geramos versões contaminadas e descontaminadas de cada corpus e as usamos para treinar e avaliar uma variedade de modelos REN, incluindo CRF, BiLSTM-CRF e arquiteturas de transformadores baseadas em codificadores. Para avaliar o impacto da contaminação no desempenho do modelo, conduzimos experimentos usando estratégias de validação cruzada e de validação contínua, e aplicamos testes estatísticos para comparar os resultados entre as versões do corpus. Os resultados indicam que inconsistências de anotações podem influenciar os resultados da avaliação, destacando a importância da preparação cuidadosa do conjunto de dados em tarefas de REN específicas do domínio.This work presents an analysis of annotation contamination in specialized Named Entity Recognition (NER) corpora in the Portuguese language. We identify three types of overlapping annotations (duplicated, partial, and ambiguous) that occur within identical sentence instances. We demonstrate that such issues are present in all evaluated corpora within and across the original data splits. When available, domain experts manually reviewed partial and ambiguous cases; otherwise, a heuristic approach was used to resolve conflicts. We produced both contaminated and decontaminated versions of each corpus and used them to train and evaluate a range of NER models, including CRF, BiLSTM-CRF, and encoder-based transformer architectures. To assess the impact of contamination on model performance, we conducted experiments using both holdout and k-fold cross-validation strategies and applied statistical tests to compare results across corpus versions. The findings indicate that annotation inconsistencies can significantly influence evaluation outcomes, underscoring the importance of careful corpus preparation in domain-specific NER tasks.application/pdfengReconhecimento de entidade nomeadaModelos de linguagem de grande escalaProcessamento de linguagem naturalAprendizado profundoData contaminationLow-resourceEvaluationData contamination in specialized named entity recognition corporaContaminação de dados em corpora de reconhecimento de entidades nomeadas especializados info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2025mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001290043.pdf.txt001290043.pdf.txtExtracted Texttext/plain462982http://www.lume.ufrgs.br/bitstream/10183/294662/2/001290043.pdf.txt36d9893d21cc1c65b9504e402efa2e0cMD52ORIGINAL001290043.pdfTexto completo (inglês)application/pdf1887163http://www.lume.ufrgs.br/bitstream/10183/294662/1/001290043.pdf2525883bfe7e9efaa89d07969e0b4082MD5110183/2946622025-08-07 08:01:29.511069oai:www.lume.ufrgs.br:10183/294662Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br \|\| lume@ufrgs.bropendoar:18532025-08-07T11:01:29Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Data contamination in specialized named entity recognition corpora
dc.title.alternative.pt.fl_str_mv	Contaminação de dados em corpora de reconhecimento de entidades nomeadas especializados
title	Data contamination in specialized named entity recognition corpora
spellingShingle	Data contamination in specialized named entity recognition corpora Nunes, Rafael Oleques Reconhecimento de entidade nomeada Modelos de linguagem de grande escala Processamento de linguagem natural Aprendizado profundo Data contamination Low-resource Evaluation
title_short	Data contamination in specialized named entity recognition corpora
title_full	Data contamination in specialized named entity recognition corpora
title_fullStr	Data contamination in specialized named entity recognition corpora
title_full_unstemmed	Data contamination in specialized named entity recognition corpora
title_sort	Data contamination in specialized named entity recognition corpora
author	Nunes, Rafael Oleques
author_facet	Nunes, Rafael Oleques
author_role	author
dc.contributor.author.fl_str_mv	Nunes, Rafael Oleques
dc.contributor.advisor1.fl_str_mv	Freitas, Carla Maria Dal Sasso
dc.contributor.advisor-co1.fl_str_mv	Balreira, Dennis Giovani
contributor_str_mv	Freitas, Carla Maria Dal Sasso Balreira, Dennis Giovani
dc.subject.por.fl_str_mv	Reconhecimento de entidade nomeada Modelos de linguagem de grande escala Processamento de linguagem natural Aprendizado profundo
topic	Reconhecimento de entidade nomeada Modelos de linguagem de grande escala Processamento de linguagem natural Aprendizado profundo Data contamination Low-resource Evaluation
dc.subject.eng.fl_str_mv	Data contamination Low-resource Evaluation
description	Este trabalho apresenta uma análise da contaminação de anotações em corpora especializados de Reconhecimento de Entidades Nomeadas (REN) na língua portuguesa. Identificamos três tipos de anotações sobrepostas (duplicadas, parciais e ambíguas), ocorrendo em instâncias de sentenças idênticas, e mostramos que tais problemas estão presentes em todos os corpora avaliados, tanto dentro quanto entre as divisões de dados originais. Quando disponíveis, especialistas do domínio revisaram manualmente os casos parciais e ambíguos; caso contrário, uma abordagem heurística foi usada para resolver conflitos. Geramos versões contaminadas e descontaminadas de cada corpus e as usamos para treinar e avaliar uma variedade de modelos REN, incluindo CRF, BiLSTM-CRF e arquiteturas de transformadores baseadas em codificadores. Para avaliar o impacto da contaminação no desempenho do modelo, conduzimos experimentos usando estratégias de validação cruzada e de validação contínua, e aplicamos testes estatísticos para comparar os resultados entre as versões do corpus. Os resultados indicam que inconsistências de anotações podem influenciar os resultados da avaliação, destacando a importância da preparação cuidadosa do conjunto de dados em tarefas de REN específicas do domínio.
publishDate	2025
dc.date.accessioned.fl_str_mv	2025-08-06T06:56:05Z
dc.date.issued.fl_str_mv	2025
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/294662
dc.identifier.nrb.pt_BR.fl_str_mv	001290043
url	http://hdl.handle.net/10183/294662
identifier_str_mv	001290043
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/294662/2/001290043.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/294662/1/001290043.pdf
bitstream.checksum.fl_str_mv	36d9893d21cc1c65b9504e402efa2e0c 2525883bfe7e9efaa89d07969e0b4082
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br \|\| lume@ufrgs.br
_version_	1846255906544680960

Data contamination in specialized named entity recognition corpora

Registros relacionados