Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-06082025-180517/ |
Resumo: | O Reconhecimento de Entidades Nomeadas (REN) é uma tarefa essencial do Processamento de Linguagem Natural (PLN), com aplicações relevantes em áreas como saúde, direito e humanidades digitais. No entanto, sistemas modernos para REN, baseados em modelos de linguagem neural, demandam grandes volumes de dados anotados e recursos computacionais elevados, o que dificulta sua adoção em cenários de poucos recursos, especialmente na língua portuguesa e em domínios específicos. Grandes Modelos de Linguagem (LLMs, do inglês Large Language Models) ganham popularidade em cenários de poucos recursos, uma vez que não precisam de grandes volumes de dados anotados para realizar diferentes tarefas de PLN. No entanto, quando comparados aos modelos especializados para a tarefa de REN, LLMs desempenham consideravelmente pior, especialmente quando recursos computacionais ou financeiros são limitados e modelos reduzidos devem ser utilizados. Neste trabalho, investiga-se o uso desses LLMs abertos e reduzidos como alternativa viável para a tarefa de REN em português brasileiro. Propõe-se uma abordagem composta por três frentes principais: (i) o desenvolvimento do MariNER, um novo conjunto de dados anotado manualmente com textos históricos do início do século XX, previamente indisponível na web; (ii) a criação de um comitê de LLMs reduzidos, com mecanismos de votação e combinação de saídas para aumentar a robustez dos resultados; e (iii) o NEAGE, um método de aumento de dados sintéticos para REN via geração e extração, adaptado para operar com LLMs reduzidos em português. Os resultados mostram que, mesmo em cenários com infraestrutura limitada, é possível alavancar o uso desses modelos para produzir resultados competitivos. Além disso, o conjunto produzido contribui para ampliar os recursos disponíveis para REN em português brasileiro. |
| id |
USP_f268c5198928c9c82abd913a93c2859b |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-06082025-180517 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em PortuguêsReduced Large Language Models for Portuguese Named Entity RecognitionAprendizado em comitêAumento de dadosData augmentationEnsemble learningLLMLLMMineração de textoNERRENText miningO Reconhecimento de Entidades Nomeadas (REN) é uma tarefa essencial do Processamento de Linguagem Natural (PLN), com aplicações relevantes em áreas como saúde, direito e humanidades digitais. No entanto, sistemas modernos para REN, baseados em modelos de linguagem neural, demandam grandes volumes de dados anotados e recursos computacionais elevados, o que dificulta sua adoção em cenários de poucos recursos, especialmente na língua portuguesa e em domínios específicos. Grandes Modelos de Linguagem (LLMs, do inglês Large Language Models) ganham popularidade em cenários de poucos recursos, uma vez que não precisam de grandes volumes de dados anotados para realizar diferentes tarefas de PLN. No entanto, quando comparados aos modelos especializados para a tarefa de REN, LLMs desempenham consideravelmente pior, especialmente quando recursos computacionais ou financeiros são limitados e modelos reduzidos devem ser utilizados. Neste trabalho, investiga-se o uso desses LLMs abertos e reduzidos como alternativa viável para a tarefa de REN em português brasileiro. Propõe-se uma abordagem composta por três frentes principais: (i) o desenvolvimento do MariNER, um novo conjunto de dados anotado manualmente com textos históricos do início do século XX, previamente indisponível na web; (ii) a criação de um comitê de LLMs reduzidos, com mecanismos de votação e combinação de saídas para aumentar a robustez dos resultados; e (iii) o NEAGE, um método de aumento de dados sintéticos para REN via geração e extração, adaptado para operar com LLMs reduzidos em português. Os resultados mostram que, mesmo em cenários com infraestrutura limitada, é possível alavancar o uso desses modelos para produzir resultados competitivos. Além disso, o conjunto produzido contribui para ampliar os recursos disponíveis para REN em português brasileiro.Named Entity Recognition (NER) is a fundamental task in Natural Language Processing (NLP), with relevant applications in domains such as healthcare, law, and digital humanities. However, modern NER systems based on neural language models require large amounts of annotated data and high computational resources, which hinders their adoption in low-resource scenarios, especially for the Portuguese language and domain-specific contexts. Large Language Models (LLMs) are gaining popularity in low-resource settings, as they can perform various NLP tasks without the need for extensive annotated datasets. Nevertheless, when compared to models specialized in NER, LLMs tend to underperform significantly, particularly when smaller versions must be used due to resource constraints. This work investigates the use of open and reduced LLMs as a viable alternative for the NER task in Brazilian Portuguese. We propose a three-pronged approach: (i) the development of MariNER, a novel manually annotated dataset composed of historical texts from the early 20th century previously unavailable in the web; (ii) the creation of an ensemble of reduced LLMs, employing voting mechanisms and output aggregation to enhance robustness; and (iii) the NEAGE methodNamed Entity Augmentation via Generation and Extractiona data augmentation strategy tailored for reduced LLMs in Portuguese. Results demonstrate that, even in resource-constrained environments, these models can be leveraged to achieve competitive performance. Furthermore, the newly created dataset contributes to expanding the resources available for NER in Brazilian Portuguese.Biblioteca Digitais de Teses e Dissertações da USPSilva, Diego FurtadoSarcinelli, João Lucas Luz Lima2025-05-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-06082025-180517/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-08-07T09:01:02Zoai:teses.usp.br:tde-06082025-180517Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-08-07T09:01:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português Reduced Large Language Models for Portuguese Named Entity Recognition |
| title |
Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português |
| spellingShingle |
Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português Sarcinelli, João Lucas Luz Lima Aprendizado em comitê Aumento de dados Data augmentation Ensemble learning LLM LLM Mineração de texto NER REN Text mining |
| title_short |
Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português |
| title_full |
Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português |
| title_fullStr |
Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português |
| title_full_unstemmed |
Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português |
| title_sort |
Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português |
| author |
Sarcinelli, João Lucas Luz Lima |
| author_facet |
Sarcinelli, João Lucas Luz Lima |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Silva, Diego Furtado |
| dc.contributor.author.fl_str_mv |
Sarcinelli, João Lucas Luz Lima |
| dc.subject.por.fl_str_mv |
Aprendizado em comitê Aumento de dados Data augmentation Ensemble learning LLM LLM Mineração de texto NER REN Text mining |
| topic |
Aprendizado em comitê Aumento de dados Data augmentation Ensemble learning LLM LLM Mineração de texto NER REN Text mining |
| description |
O Reconhecimento de Entidades Nomeadas (REN) é uma tarefa essencial do Processamento de Linguagem Natural (PLN), com aplicações relevantes em áreas como saúde, direito e humanidades digitais. No entanto, sistemas modernos para REN, baseados em modelos de linguagem neural, demandam grandes volumes de dados anotados e recursos computacionais elevados, o que dificulta sua adoção em cenários de poucos recursos, especialmente na língua portuguesa e em domínios específicos. Grandes Modelos de Linguagem (LLMs, do inglês Large Language Models) ganham popularidade em cenários de poucos recursos, uma vez que não precisam de grandes volumes de dados anotados para realizar diferentes tarefas de PLN. No entanto, quando comparados aos modelos especializados para a tarefa de REN, LLMs desempenham consideravelmente pior, especialmente quando recursos computacionais ou financeiros são limitados e modelos reduzidos devem ser utilizados. Neste trabalho, investiga-se o uso desses LLMs abertos e reduzidos como alternativa viável para a tarefa de REN em português brasileiro. Propõe-se uma abordagem composta por três frentes principais: (i) o desenvolvimento do MariNER, um novo conjunto de dados anotado manualmente com textos históricos do início do século XX, previamente indisponível na web; (ii) a criação de um comitê de LLMs reduzidos, com mecanismos de votação e combinação de saídas para aumentar a robustez dos resultados; e (iii) o NEAGE, um método de aumento de dados sintéticos para REN via geração e extração, adaptado para operar com LLMs reduzidos em português. Os resultados mostram que, mesmo em cenários com infraestrutura limitada, é possível alavancar o uso desses modelos para produzir resultados competitivos. Além disso, o conjunto produzido contribui para ampliar os recursos disponíveis para REN em português brasileiro. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-05-23 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-06082025-180517/ |
| url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-06082025-180517/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1844786329448087552 |