Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs)

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Bitelli, Bruno Vianna
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-05022025-190506/
Resumo: Este trabalho estuda a tarefa de reconhecimento de entidades, em especial, entidades numéricas, empregando LLMs tanto nas análises qualitativas quanto quantitativas. Apesar das habilidade gerativas destes modelos serem um dos principais tópicos de atenção no campo de inteligência artificial, ainda existem poucos estudos analisando quantitativamente suas habilidades para tarefas mais tradicionais de NLP, como reconhecimento de entidades mencionadas. Esta ausência de estudos é ainda mais acentuada nas aplicações na língua portuguesa. Comparamos o uso de LLMs open-source (LLaMA 2) aplicando-se um finetuning de seus parâmetros, e de LLMs fechadas, como o ChatGPT e Gemini, aplicando-se técnicas de prompt engineering, em uma tarefa de reconhecimento de entidades numéricas. Como base para o estudo, os algoritmos serão testados em uma base de dados construída especialmente para o projeto, utilizando mais de 600 acórdãos jurídicos em português manualmente rotulados. Os resultados deste estudo também motivam uma discussão entre o paradigma atual de estudos de LLMs, comparando as habilidades e limitações de construção de prompts, instrucion-tuning e uma nova metodologia para finetuning via LoRA que não depende de prompts, aproximando estes modelos decoder-only à suas contrapartes mais tradicionais encoder-only. Neste relatório é apresentado as descrições teóricas dos dados utilizados, dos problemas estudados, dos algoritmos e da metodologia de construção de prompts e ajustes finos utilizadas.
id USP_0973403ae055a1cd10386afa13d72f2d
oai_identifier_str oai:teses.usp.br:tde-05022025-190506
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs)Numerical information extraction in legal texts using Large Language Models (LLMs)Ajuste de instruçõesAjuste finoAprendizado a base de promptsArtificial intelligenceAutomatic text classificationChatGPTChatGPTClassificação automática de textosEngenharia de promptsFinetuningGeminiGeminiInstruction-tuningInteligência artificialLinguística computacionalLLaMALLaMAMetaMetaNamed entity recognitionNatural language processingNeural networksNumber entity recognitionOpenAIOpenAIProcessamento de linguagem naturalPrompt engineeringPrompt-based learningReconhecimento de entidades mencionadasReconhecimento de entidades numéricasRedes neuraisEste trabalho estuda a tarefa de reconhecimento de entidades, em especial, entidades numéricas, empregando LLMs tanto nas análises qualitativas quanto quantitativas. Apesar das habilidade gerativas destes modelos serem um dos principais tópicos de atenção no campo de inteligência artificial, ainda existem poucos estudos analisando quantitativamente suas habilidades para tarefas mais tradicionais de NLP, como reconhecimento de entidades mencionadas. Esta ausência de estudos é ainda mais acentuada nas aplicações na língua portuguesa. Comparamos o uso de LLMs open-source (LLaMA 2) aplicando-se um finetuning de seus parâmetros, e de LLMs fechadas, como o ChatGPT e Gemini, aplicando-se técnicas de prompt engineering, em uma tarefa de reconhecimento de entidades numéricas. Como base para o estudo, os algoritmos serão testados em uma base de dados construída especialmente para o projeto, utilizando mais de 600 acórdãos jurídicos em português manualmente rotulados. Os resultados deste estudo também motivam uma discussão entre o paradigma atual de estudos de LLMs, comparando as habilidades e limitações de construção de prompts, instrucion-tuning e uma nova metodologia para finetuning via LoRA que não depende de prompts, aproximando estes modelos decoder-only à suas contrapartes mais tradicionais encoder-only. Neste relatório é apresentado as descrições teóricas dos dados utilizados, dos problemas estudados, dos algoritmos e da metodologia de construção de prompts e ajustes finos utilizadas.This work studies the task of entity recognition, specifically, numerical entities, employing LLMs in both qualitative and quantitative analyses. Despite the generative abilities of these models being one of the main topics of attention in the field of artificial intelligence, there are still few studies quantitatively analyzing their abilities for more traditional NLP tasks, such as named entity recognition. This lack of studies is even more pronounced in applications for the Portuguese language. We compare the use of open-source LLMs (LLaMA 2) by applying fine-tuning to their parameters, and closed LLMs, such as ChatGPT and Gemini, by applying prompt engineering techniques in a numerical entity recognition task. As the basis for the study, the algorithms will be tested on a dataset built specifically for the project, using over 600 manually labeled legal rulings in Portuguese. The results of this study also motivate a discussion around the current paradigm of LLM studies, comparing the strengths and limitations of prompt construction, instruction-tuning, and a new fine-tuning methodology via LoRA that does not depend on prompts, bringing these decoder-only models closer to their more traditional encoder-only counterparts. This report presents the theoretical descriptions of the data used, the problems studied, the algorithms, and the methodology of prompt construction and fine-tuning applied.Biblioteca Digitais de Teses e Dissertações da USPFinger, MarceloBitelli, Bruno Vianna2024-11-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-05022025-190506/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-03-08T00:01:02Zoai:teses.usp.br:tde-05022025-190506Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-03-08T00:01:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs)
Numerical information extraction in legal texts using Large Language Models (LLMs)
title Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs)
spellingShingle Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs)
Bitelli, Bruno Vianna
Ajuste de instruções
Ajuste fino
Aprendizado a base de prompts
Artificial intelligence
Automatic text classification
ChatGPT
ChatGPT
Classificação automática de textos
Engenharia de prompts
Finetuning
Gemini
Gemini
Instruction-tuning
Inteligência artificial
Linguística computacional
LLaMA
LLaMA
Meta
Meta
Named entity recognition
Natural language processing
Neural networks
Number entity recognition
OpenAI
OpenAI
Processamento de linguagem natural
Prompt engineering
Prompt-based learning
Reconhecimento de entidades mencionadas
Reconhecimento de entidades numéricas
Redes neurais
title_short Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs)
title_full Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs)
title_fullStr Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs)
title_full_unstemmed Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs)
title_sort Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs)
author Bitelli, Bruno Vianna
author_facet Bitelli, Bruno Vianna
author_role author
dc.contributor.none.fl_str_mv Finger, Marcelo
dc.contributor.author.fl_str_mv Bitelli, Bruno Vianna
dc.subject.por.fl_str_mv Ajuste de instruções
Ajuste fino
Aprendizado a base de prompts
Artificial intelligence
Automatic text classification
ChatGPT
ChatGPT
Classificação automática de textos
Engenharia de prompts
Finetuning
Gemini
Gemini
Instruction-tuning
Inteligência artificial
Linguística computacional
LLaMA
LLaMA
Meta
Meta
Named entity recognition
Natural language processing
Neural networks
Number entity recognition
OpenAI
OpenAI
Processamento de linguagem natural
Prompt engineering
Prompt-based learning
Reconhecimento de entidades mencionadas
Reconhecimento de entidades numéricas
Redes neurais
topic Ajuste de instruções
Ajuste fino
Aprendizado a base de prompts
Artificial intelligence
Automatic text classification
ChatGPT
ChatGPT
Classificação automática de textos
Engenharia de prompts
Finetuning
Gemini
Gemini
Instruction-tuning
Inteligência artificial
Linguística computacional
LLaMA
LLaMA
Meta
Meta
Named entity recognition
Natural language processing
Neural networks
Number entity recognition
OpenAI
OpenAI
Processamento de linguagem natural
Prompt engineering
Prompt-based learning
Reconhecimento de entidades mencionadas
Reconhecimento de entidades numéricas
Redes neurais
description Este trabalho estuda a tarefa de reconhecimento de entidades, em especial, entidades numéricas, empregando LLMs tanto nas análises qualitativas quanto quantitativas. Apesar das habilidade gerativas destes modelos serem um dos principais tópicos de atenção no campo de inteligência artificial, ainda existem poucos estudos analisando quantitativamente suas habilidades para tarefas mais tradicionais de NLP, como reconhecimento de entidades mencionadas. Esta ausência de estudos é ainda mais acentuada nas aplicações na língua portuguesa. Comparamos o uso de LLMs open-source (LLaMA 2) aplicando-se um finetuning de seus parâmetros, e de LLMs fechadas, como o ChatGPT e Gemini, aplicando-se técnicas de prompt engineering, em uma tarefa de reconhecimento de entidades numéricas. Como base para o estudo, os algoritmos serão testados em uma base de dados construída especialmente para o projeto, utilizando mais de 600 acórdãos jurídicos em português manualmente rotulados. Os resultados deste estudo também motivam uma discussão entre o paradigma atual de estudos de LLMs, comparando as habilidades e limitações de construção de prompts, instrucion-tuning e uma nova metodologia para finetuning via LoRA que não depende de prompts, aproximando estes modelos decoder-only à suas contrapartes mais tradicionais encoder-only. Neste relatório é apresentado as descrições teóricas dos dados utilizados, dos problemas estudados, dos algoritmos e da metodologia de construção de prompts e ajustes finos utilizadas.
publishDate 2024
dc.date.none.fl_str_mv 2024-11-06
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45134/tde-05022025-190506/
url https://www.teses.usp.br/teses/disponiveis/45/45134/tde-05022025-190506/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1839839139513499648