Data contamination in specialized named entity recognition corpora
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Link de acesso: | http://hdl.handle.net/10183/294662 |
Resumo: | Este trabalho apresenta uma análise da contaminação de anotações em corpora especializados de Reconhecimento de Entidades Nomeadas (REN) na língua portuguesa. Identificamos três tipos de anotações sobrepostas (duplicadas, parciais e ambíguas), ocorrendo em instâncias de sentenças idênticas, e mostramos que tais problemas estão presentes em todos os corpora avaliados, tanto dentro quanto entre as divisões de dados originais. Quando disponíveis, especialistas do domínio revisaram manualmente os casos parciais e ambíguos; caso contrário, uma abordagem heurística foi usada para resolver conflitos. Geramos versões contaminadas e descontaminadas de cada corpus e as usamos para treinar e avaliar uma variedade de modelos REN, incluindo CRF, BiLSTM-CRF e arquiteturas de transformadores baseadas em codificadores. Para avaliar o impacto da contaminação no desempenho do modelo, conduzimos experimentos usando estratégias de validação cruzada e de validação contínua, e aplicamos testes estatísticos para comparar os resultados entre as versões do corpus. Os resultados indicam que inconsistências de anotações podem influenciar os resultados da avaliação, destacando a importância da preparação cuidadosa do conjunto de dados em tarefas de REN específicas do domínio. |
| id |
URGS_8ae29aba9e826e944a528a748ed65f52 |
|---|---|
| oai_identifier_str |
oai:www.lume.ufrgs.br:10183/294662 |
| network_acronym_str |
URGS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| repository_id_str |
|
| spelling |
Nunes, Rafael OlequesFreitas, Carla Maria Dal SassoBalreira, Dennis Giovani2025-08-06T06:56:05Z2025http://hdl.handle.net/10183/294662001290043Este trabalho apresenta uma análise da contaminação de anotações em corpora especializados de Reconhecimento de Entidades Nomeadas (REN) na língua portuguesa. Identificamos três tipos de anotações sobrepostas (duplicadas, parciais e ambíguas), ocorrendo em instâncias de sentenças idênticas, e mostramos que tais problemas estão presentes em todos os corpora avaliados, tanto dentro quanto entre as divisões de dados originais. Quando disponíveis, especialistas do domínio revisaram manualmente os casos parciais e ambíguos; caso contrário, uma abordagem heurística foi usada para resolver conflitos. Geramos versões contaminadas e descontaminadas de cada corpus e as usamos para treinar e avaliar uma variedade de modelos REN, incluindo CRF, BiLSTM-CRF e arquiteturas de transformadores baseadas em codificadores. Para avaliar o impacto da contaminação no desempenho do modelo, conduzimos experimentos usando estratégias de validação cruzada e de validação contínua, e aplicamos testes estatísticos para comparar os resultados entre as versões do corpus. Os resultados indicam que inconsistências de anotações podem influenciar os resultados da avaliação, destacando a importância da preparação cuidadosa do conjunto de dados em tarefas de REN específicas do domínio.This work presents an analysis of annotation contamination in specialized Named Entity Recognition (NER) corpora in the Portuguese language. We identify three types of overlapping annotations (duplicated, partial, and ambiguous) that occur within identical sentence instances. We demonstrate that such issues are present in all evaluated corpora within and across the original data splits. When available, domain experts manually reviewed partial and ambiguous cases; otherwise, a heuristic approach was used to resolve conflicts. We produced both contaminated and decontaminated versions of each corpus and used them to train and evaluate a range of NER models, including CRF, BiLSTM-CRF, and encoder-based transformer architectures. To assess the impact of contamination on model performance, we conducted experiments using both holdout and k-fold cross-validation strategies and applied statistical tests to compare results across corpus versions. The findings indicate that annotation inconsistencies can significantly influence evaluation outcomes, underscoring the importance of careful corpus preparation in domain-specific NER tasks.application/pdfengReconhecimento de entidade nomeadaModelos de linguagem de grande escalaProcessamento de linguagem naturalAprendizado profundoData contaminationLow-resourceEvaluationData contamination in specialized named entity recognition corporaContaminação de dados em corpora de reconhecimento de entidades nomeadas especializados info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2025mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001290043.pdf.txt001290043.pdf.txtExtracted Texttext/plain462982http://www.lume.ufrgs.br/bitstream/10183/294662/2/001290043.pdf.txt36d9893d21cc1c65b9504e402efa2e0cMD52ORIGINAL001290043.pdfTexto completo (inglês)application/pdf1887163http://www.lume.ufrgs.br/bitstream/10183/294662/1/001290043.pdf2525883bfe7e9efaa89d07969e0b4082MD5110183/2946622025-08-07 08:01:29.511069oai:www.lume.ufrgs.br:10183/294662Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br || lume@ufrgs.bropendoar:18532025-08-07T11:01:29Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
| dc.title.pt_BR.fl_str_mv |
Data contamination in specialized named entity recognition corpora |
| dc.title.alternative.pt.fl_str_mv |
Contaminação de dados em corpora de reconhecimento de entidades nomeadas especializados |
| title |
Data contamination in specialized named entity recognition corpora |
| spellingShingle |
Data contamination in specialized named entity recognition corpora Nunes, Rafael Oleques Reconhecimento de entidade nomeada Modelos de linguagem de grande escala Processamento de linguagem natural Aprendizado profundo Data contamination Low-resource Evaluation |
| title_short |
Data contamination in specialized named entity recognition corpora |
| title_full |
Data contamination in specialized named entity recognition corpora |
| title_fullStr |
Data contamination in specialized named entity recognition corpora |
| title_full_unstemmed |
Data contamination in specialized named entity recognition corpora |
| title_sort |
Data contamination in specialized named entity recognition corpora |
| author |
Nunes, Rafael Oleques |
| author_facet |
Nunes, Rafael Oleques |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Nunes, Rafael Oleques |
| dc.contributor.advisor1.fl_str_mv |
Freitas, Carla Maria Dal Sasso |
| dc.contributor.advisor-co1.fl_str_mv |
Balreira, Dennis Giovani |
| contributor_str_mv |
Freitas, Carla Maria Dal Sasso Balreira, Dennis Giovani |
| dc.subject.por.fl_str_mv |
Reconhecimento de entidade nomeada Modelos de linguagem de grande escala Processamento de linguagem natural Aprendizado profundo |
| topic |
Reconhecimento de entidade nomeada Modelos de linguagem de grande escala Processamento de linguagem natural Aprendizado profundo Data contamination Low-resource Evaluation |
| dc.subject.eng.fl_str_mv |
Data contamination Low-resource Evaluation |
| description |
Este trabalho apresenta uma análise da contaminação de anotações em corpora especializados de Reconhecimento de Entidades Nomeadas (REN) na língua portuguesa. Identificamos três tipos de anotações sobrepostas (duplicadas, parciais e ambíguas), ocorrendo em instâncias de sentenças idênticas, e mostramos que tais problemas estão presentes em todos os corpora avaliados, tanto dentro quanto entre as divisões de dados originais. Quando disponíveis, especialistas do domínio revisaram manualmente os casos parciais e ambíguos; caso contrário, uma abordagem heurística foi usada para resolver conflitos. Geramos versões contaminadas e descontaminadas de cada corpus e as usamos para treinar e avaliar uma variedade de modelos REN, incluindo CRF, BiLSTM-CRF e arquiteturas de transformadores baseadas em codificadores. Para avaliar o impacto da contaminação no desempenho do modelo, conduzimos experimentos usando estratégias de validação cruzada e de validação contínua, e aplicamos testes estatísticos para comparar os resultados entre as versões do corpus. Os resultados indicam que inconsistências de anotações podem influenciar os resultados da avaliação, destacando a importância da preparação cuidadosa do conjunto de dados em tarefas de REN específicas do domínio. |
| publishDate |
2025 |
| dc.date.accessioned.fl_str_mv |
2025-08-06T06:56:05Z |
| dc.date.issued.fl_str_mv |
2025 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/294662 |
| dc.identifier.nrb.pt_BR.fl_str_mv |
001290043 |
| url |
http://hdl.handle.net/10183/294662 |
| identifier_str_mv |
001290043 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
| instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
| instacron_str |
UFRGS |
| institution |
UFRGS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/294662/2/001290043.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/294662/1/001290043.pdf |
| bitstream.checksum.fl_str_mv |
36d9893d21cc1c65b9504e402efa2e0c 2525883bfe7e9efaa89d07969e0b4082 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
| repository.mail.fl_str_mv |
lume@ufrgs.br || lume@ufrgs.br |
| _version_ |
1846255906544680960 |