Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Sarcinelli, João Lucas Luz Lima
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
LLM
NER
REN
Link de acesso: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-06082025-180517/
Resumo: O Reconhecimento de Entidades Nomeadas (REN) é uma tarefa essencial do Processamento de Linguagem Natural (PLN), com aplicações relevantes em áreas como saúde, direito e humanidades digitais. No entanto, sistemas modernos para REN, baseados em modelos de linguagem neural, demandam grandes volumes de dados anotados e recursos computacionais elevados, o que dificulta sua adoção em cenários de poucos recursos, especialmente na língua portuguesa e em domínios específicos. Grandes Modelos de Linguagem (LLMs, do inglês Large Language Models) ganham popularidade em cenários de poucos recursos, uma vez que não precisam de grandes volumes de dados anotados para realizar diferentes tarefas de PLN. No entanto, quando comparados aos modelos especializados para a tarefa de REN, LLMs desempenham consideravelmente pior, especialmente quando recursos computacionais ou financeiros são limitados e modelos reduzidos devem ser utilizados. Neste trabalho, investiga-se o uso desses LLMs abertos e reduzidos como alternativa viável para a tarefa de REN em português brasileiro. Propõe-se uma abordagem composta por três frentes principais: (i) o desenvolvimento do MariNER, um novo conjunto de dados anotado manualmente com textos históricos do início do século XX, previamente indisponível na web; (ii) a criação de um comitê de LLMs reduzidos, com mecanismos de votação e combinação de saídas para aumentar a robustez dos resultados; e (iii) o NEAGE, um método de aumento de dados sintéticos para REN via geração e extração, adaptado para operar com LLMs reduzidos em português. Os resultados mostram que, mesmo em cenários com infraestrutura limitada, é possível alavancar o uso desses modelos para produzir resultados competitivos. Além disso, o conjunto produzido contribui para ampliar os recursos disponíveis para REN em português brasileiro.
id USP_f268c5198928c9c82abd913a93c2859b
oai_identifier_str oai:teses.usp.br:tde-06082025-180517
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em PortuguêsReduced Large Language Models for Portuguese Named Entity RecognitionAprendizado em comitêAumento de dadosData augmentationEnsemble learningLLMLLMMineração de textoNERRENText miningO Reconhecimento de Entidades Nomeadas (REN) é uma tarefa essencial do Processamento de Linguagem Natural (PLN), com aplicações relevantes em áreas como saúde, direito e humanidades digitais. No entanto, sistemas modernos para REN, baseados em modelos de linguagem neural, demandam grandes volumes de dados anotados e recursos computacionais elevados, o que dificulta sua adoção em cenários de poucos recursos, especialmente na língua portuguesa e em domínios específicos. Grandes Modelos de Linguagem (LLMs, do inglês Large Language Models) ganham popularidade em cenários de poucos recursos, uma vez que não precisam de grandes volumes de dados anotados para realizar diferentes tarefas de PLN. No entanto, quando comparados aos modelos especializados para a tarefa de REN, LLMs desempenham consideravelmente pior, especialmente quando recursos computacionais ou financeiros são limitados e modelos reduzidos devem ser utilizados. Neste trabalho, investiga-se o uso desses LLMs abertos e reduzidos como alternativa viável para a tarefa de REN em português brasileiro. Propõe-se uma abordagem composta por três frentes principais: (i) o desenvolvimento do MariNER, um novo conjunto de dados anotado manualmente com textos históricos do início do século XX, previamente indisponível na web; (ii) a criação de um comitê de LLMs reduzidos, com mecanismos de votação e combinação de saídas para aumentar a robustez dos resultados; e (iii) o NEAGE, um método de aumento de dados sintéticos para REN via geração e extração, adaptado para operar com LLMs reduzidos em português. Os resultados mostram que, mesmo em cenários com infraestrutura limitada, é possível alavancar o uso desses modelos para produzir resultados competitivos. Além disso, o conjunto produzido contribui para ampliar os recursos disponíveis para REN em português brasileiro.Named Entity Recognition (NER) is a fundamental task in Natural Language Processing (NLP), with relevant applications in domains such as healthcare, law, and digital humanities. However, modern NER systems based on neural language models require large amounts of annotated data and high computational resources, which hinders their adoption in low-resource scenarios, especially for the Portuguese language and domain-specific contexts. Large Language Models (LLMs) are gaining popularity in low-resource settings, as they can perform various NLP tasks without the need for extensive annotated datasets. Nevertheless, when compared to models specialized in NER, LLMs tend to underperform significantly, particularly when smaller versions must be used due to resource constraints. This work investigates the use of open and reduced LLMs as a viable alternative for the NER task in Brazilian Portuguese. We propose a three-pronged approach: (i) the development of MariNER, a novel manually annotated dataset composed of historical texts from the early 20th century previously unavailable in the web; (ii) the creation of an ensemble of reduced LLMs, employing voting mechanisms and output aggregation to enhance robustness; and (iii) the NEAGE methodNamed Entity Augmentation via Generation and Extractiona data augmentation strategy tailored for reduced LLMs in Portuguese. Results demonstrate that, even in resource-constrained environments, these models can be leveraged to achieve competitive performance. Furthermore, the newly created dataset contributes to expanding the resources available for NER in Brazilian Portuguese.Biblioteca Digitais de Teses e Dissertações da USPSilva, Diego FurtadoSarcinelli, João Lucas Luz Lima2025-05-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-06082025-180517/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-08-07T09:01:02Zoai:teses.usp.br:tde-06082025-180517Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-08-07T09:01:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português
Reduced Large Language Models for Portuguese Named Entity Recognition
title Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português
spellingShingle Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português
Sarcinelli, João Lucas Luz Lima
Aprendizado em comitê
Aumento de dados
Data augmentation
Ensemble learning
LLM
LLM
Mineração de texto
NER
REN
Text mining
title_short Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português
title_full Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português
title_fullStr Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português
title_full_unstemmed Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português
title_sort Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português
author Sarcinelli, João Lucas Luz Lima
author_facet Sarcinelli, João Lucas Luz Lima
author_role author
dc.contributor.none.fl_str_mv Silva, Diego Furtado
dc.contributor.author.fl_str_mv Sarcinelli, João Lucas Luz Lima
dc.subject.por.fl_str_mv Aprendizado em comitê
Aumento de dados
Data augmentation
Ensemble learning
LLM
LLM
Mineração de texto
NER
REN
Text mining
topic Aprendizado em comitê
Aumento de dados
Data augmentation
Ensemble learning
LLM
LLM
Mineração de texto
NER
REN
Text mining
description O Reconhecimento de Entidades Nomeadas (REN) é uma tarefa essencial do Processamento de Linguagem Natural (PLN), com aplicações relevantes em áreas como saúde, direito e humanidades digitais. No entanto, sistemas modernos para REN, baseados em modelos de linguagem neural, demandam grandes volumes de dados anotados e recursos computacionais elevados, o que dificulta sua adoção em cenários de poucos recursos, especialmente na língua portuguesa e em domínios específicos. Grandes Modelos de Linguagem (LLMs, do inglês Large Language Models) ganham popularidade em cenários de poucos recursos, uma vez que não precisam de grandes volumes de dados anotados para realizar diferentes tarefas de PLN. No entanto, quando comparados aos modelos especializados para a tarefa de REN, LLMs desempenham consideravelmente pior, especialmente quando recursos computacionais ou financeiros são limitados e modelos reduzidos devem ser utilizados. Neste trabalho, investiga-se o uso desses LLMs abertos e reduzidos como alternativa viável para a tarefa de REN em português brasileiro. Propõe-se uma abordagem composta por três frentes principais: (i) o desenvolvimento do MariNER, um novo conjunto de dados anotado manualmente com textos históricos do início do século XX, previamente indisponível na web; (ii) a criação de um comitê de LLMs reduzidos, com mecanismos de votação e combinação de saídas para aumentar a robustez dos resultados; e (iii) o NEAGE, um método de aumento de dados sintéticos para REN via geração e extração, adaptado para operar com LLMs reduzidos em português. Os resultados mostram que, mesmo em cenários com infraestrutura limitada, é possível alavancar o uso desses modelos para produzir resultados competitivos. Além disso, o conjunto produzido contribui para ampliar os recursos disponíveis para REN em português brasileiro.
publishDate 2025
dc.date.none.fl_str_mv 2025-05-23
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-06082025-180517/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-06082025-180517/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1844786329448087552