Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs)
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/45/45134/tde-05022025-190506/ |
Resumo: | Este trabalho estuda a tarefa de reconhecimento de entidades, em especial, entidades numéricas, empregando LLMs tanto nas análises qualitativas quanto quantitativas. Apesar das habilidade gerativas destes modelos serem um dos principais tópicos de atenção no campo de inteligência artificial, ainda existem poucos estudos analisando quantitativamente suas habilidades para tarefas mais tradicionais de NLP, como reconhecimento de entidades mencionadas. Esta ausência de estudos é ainda mais acentuada nas aplicações na língua portuguesa. Comparamos o uso de LLMs open-source (LLaMA 2) aplicando-se um finetuning de seus parâmetros, e de LLMs fechadas, como o ChatGPT e Gemini, aplicando-se técnicas de prompt engineering, em uma tarefa de reconhecimento de entidades numéricas. Como base para o estudo, os algoritmos serão testados em uma base de dados construída especialmente para o projeto, utilizando mais de 600 acórdãos jurídicos em português manualmente rotulados. Os resultados deste estudo também motivam uma discussão entre o paradigma atual de estudos de LLMs, comparando as habilidades e limitações de construção de prompts, instrucion-tuning e uma nova metodologia para finetuning via LoRA que não depende de prompts, aproximando estes modelos decoder-only à suas contrapartes mais tradicionais encoder-only. Neste relatório é apresentado as descrições teóricas dos dados utilizados, dos problemas estudados, dos algoritmos e da metodologia de construção de prompts e ajustes finos utilizadas. |
| id |
USP_0973403ae055a1cd10386afa13d72f2d |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-05022025-190506 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs)Numerical information extraction in legal texts using Large Language Models (LLMs)Ajuste de instruçõesAjuste finoAprendizado a base de promptsArtificial intelligenceAutomatic text classificationChatGPTChatGPTClassificação automática de textosEngenharia de promptsFinetuningGeminiGeminiInstruction-tuningInteligência artificialLinguística computacionalLLaMALLaMAMetaMetaNamed entity recognitionNatural language processingNeural networksNumber entity recognitionOpenAIOpenAIProcessamento de linguagem naturalPrompt engineeringPrompt-based learningReconhecimento de entidades mencionadasReconhecimento de entidades numéricasRedes neuraisEste trabalho estuda a tarefa de reconhecimento de entidades, em especial, entidades numéricas, empregando LLMs tanto nas análises qualitativas quanto quantitativas. Apesar das habilidade gerativas destes modelos serem um dos principais tópicos de atenção no campo de inteligência artificial, ainda existem poucos estudos analisando quantitativamente suas habilidades para tarefas mais tradicionais de NLP, como reconhecimento de entidades mencionadas. Esta ausência de estudos é ainda mais acentuada nas aplicações na língua portuguesa. Comparamos o uso de LLMs open-source (LLaMA 2) aplicando-se um finetuning de seus parâmetros, e de LLMs fechadas, como o ChatGPT e Gemini, aplicando-se técnicas de prompt engineering, em uma tarefa de reconhecimento de entidades numéricas. Como base para o estudo, os algoritmos serão testados em uma base de dados construída especialmente para o projeto, utilizando mais de 600 acórdãos jurídicos em português manualmente rotulados. Os resultados deste estudo também motivam uma discussão entre o paradigma atual de estudos de LLMs, comparando as habilidades e limitações de construção de prompts, instrucion-tuning e uma nova metodologia para finetuning via LoRA que não depende de prompts, aproximando estes modelos decoder-only à suas contrapartes mais tradicionais encoder-only. Neste relatório é apresentado as descrições teóricas dos dados utilizados, dos problemas estudados, dos algoritmos e da metodologia de construção de prompts e ajustes finos utilizadas.This work studies the task of entity recognition, specifically, numerical entities, employing LLMs in both qualitative and quantitative analyses. Despite the generative abilities of these models being one of the main topics of attention in the field of artificial intelligence, there are still few studies quantitatively analyzing their abilities for more traditional NLP tasks, such as named entity recognition. This lack of studies is even more pronounced in applications for the Portuguese language. We compare the use of open-source LLMs (LLaMA 2) by applying fine-tuning to their parameters, and closed LLMs, such as ChatGPT and Gemini, by applying prompt engineering techniques in a numerical entity recognition task. As the basis for the study, the algorithms will be tested on a dataset built specifically for the project, using over 600 manually labeled legal rulings in Portuguese. The results of this study also motivate a discussion around the current paradigm of LLM studies, comparing the strengths and limitations of prompt construction, instruction-tuning, and a new fine-tuning methodology via LoRA that does not depend on prompts, bringing these decoder-only models closer to their more traditional encoder-only counterparts. This report presents the theoretical descriptions of the data used, the problems studied, the algorithms, and the methodology of prompt construction and fine-tuning applied.Biblioteca Digitais de Teses e Dissertações da USPFinger, MarceloBitelli, Bruno Vianna2024-11-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-05022025-190506/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-03-08T00:01:02Zoai:teses.usp.br:tde-05022025-190506Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-03-08T00:01:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs) Numerical information extraction in legal texts using Large Language Models (LLMs) |
| title |
Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs) |
| spellingShingle |
Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs) Bitelli, Bruno Vianna Ajuste de instruções Ajuste fino Aprendizado a base de prompts Artificial intelligence Automatic text classification ChatGPT ChatGPT Classificação automática de textos Engenharia de prompts Finetuning Gemini Gemini Instruction-tuning Inteligência artificial Linguística computacional LLaMA LLaMA Meta Meta Named entity recognition Natural language processing Neural networks Number entity recognition OpenAI OpenAI Processamento de linguagem natural Prompt engineering Prompt-based learning Reconhecimento de entidades mencionadas Reconhecimento de entidades numéricas Redes neurais |
| title_short |
Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs) |
| title_full |
Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs) |
| title_fullStr |
Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs) |
| title_full_unstemmed |
Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs) |
| title_sort |
Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs) |
| author |
Bitelli, Bruno Vianna |
| author_facet |
Bitelli, Bruno Vianna |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Finger, Marcelo |
| dc.contributor.author.fl_str_mv |
Bitelli, Bruno Vianna |
| dc.subject.por.fl_str_mv |
Ajuste de instruções Ajuste fino Aprendizado a base de prompts Artificial intelligence Automatic text classification ChatGPT ChatGPT Classificação automática de textos Engenharia de prompts Finetuning Gemini Gemini Instruction-tuning Inteligência artificial Linguística computacional LLaMA LLaMA Meta Meta Named entity recognition Natural language processing Neural networks Number entity recognition OpenAI OpenAI Processamento de linguagem natural Prompt engineering Prompt-based learning Reconhecimento de entidades mencionadas Reconhecimento de entidades numéricas Redes neurais |
| topic |
Ajuste de instruções Ajuste fino Aprendizado a base de prompts Artificial intelligence Automatic text classification ChatGPT ChatGPT Classificação automática de textos Engenharia de prompts Finetuning Gemini Gemini Instruction-tuning Inteligência artificial Linguística computacional LLaMA LLaMA Meta Meta Named entity recognition Natural language processing Neural networks Number entity recognition OpenAI OpenAI Processamento de linguagem natural Prompt engineering Prompt-based learning Reconhecimento de entidades mencionadas Reconhecimento de entidades numéricas Redes neurais |
| description |
Este trabalho estuda a tarefa de reconhecimento de entidades, em especial, entidades numéricas, empregando LLMs tanto nas análises qualitativas quanto quantitativas. Apesar das habilidade gerativas destes modelos serem um dos principais tópicos de atenção no campo de inteligência artificial, ainda existem poucos estudos analisando quantitativamente suas habilidades para tarefas mais tradicionais de NLP, como reconhecimento de entidades mencionadas. Esta ausência de estudos é ainda mais acentuada nas aplicações na língua portuguesa. Comparamos o uso de LLMs open-source (LLaMA 2) aplicando-se um finetuning de seus parâmetros, e de LLMs fechadas, como o ChatGPT e Gemini, aplicando-se técnicas de prompt engineering, em uma tarefa de reconhecimento de entidades numéricas. Como base para o estudo, os algoritmos serão testados em uma base de dados construída especialmente para o projeto, utilizando mais de 600 acórdãos jurídicos em português manualmente rotulados. Os resultados deste estudo também motivam uma discussão entre o paradigma atual de estudos de LLMs, comparando as habilidades e limitações de construção de prompts, instrucion-tuning e uma nova metodologia para finetuning via LoRA que não depende de prompts, aproximando estes modelos decoder-only à suas contrapartes mais tradicionais encoder-only. Neste relatório é apresentado as descrições teóricas dos dados utilizados, dos problemas estudados, dos algoritmos e da metodologia de construção de prompts e ajustes finos utilizadas. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-11-06 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-05022025-190506/ |
| url |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-05022025-190506/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1839839139513499648 |