Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Almeida, Vitor Freitas de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/591231
Resumo: A crescente digitalização do Judiciário brasileiro, com apenas 2,8% de processos físicos iniciados em 2021, faz com que a maioria dos processos atualmente tramite em meio eletrônico. Para analisar o conteúdo desses documentos em grande escala, são necessá-rias técnicas avançadas de Processamento de Linguagem Natural (PLN). Esse cenário é desafiador pela complexidade do discurso jurídico, marcada por terminologia técnica, argumentação densa e demanda por transparência. Diante disso, este trabalho propõe uma metodologia que combina a interpretabilidade baseada em Gradientes Integrados com uma LLM (GPT-4o) para oferecer um arcabouço de suporte a profissionais de PLN que precisam compreender melhor os resultados de suas tarefas, bem como avaliar o impacto da escolha da janela de contexto do modelo. Como estudo de caso, aborda-se a classificação de um conjunto de 300 mil petições iniciais do Tribunal de Justiça do Ceará (TJCE), categorizadas em 307 classes segundo as definições da Tabela Processual Unificada (TPU). Os resultados indicam que o uso de uma janela longa (4096 tokens) supera o uso de uma janela curta (512 tokens) em termos de desempenho geral. Entretanto, esse ganho varia conforme a categoria do Direito. Por exemplo, no Direito da Saúde, houve um aumento de +5,44 pontos percentuais, enquanto no Direito Processual Civil e no Direito do Trabalho, o acréscimo foi de apenas +0,48 pontos. Além disso, observou-se que, nos documentos com maiores ganhos, as atribuições se concentraram mais no final do texto, ao contrário dos demais. Identificou-se, portanto, uma correlação negativa (r = -0,68) entre a importância atribuída aos primeiros 512 tokens e o ganho de acurácia. Isso demonstra que o método de interpretabilidade é capaz de destacar as áreas mais relevantes utilizadas pelo modelo para compreender o assunto principal do texto. Também desenvolvemos uma técnica para identificar subtemas no texto que geram maior confusão para o modelo. Por exemplo, o modelo apresenta dificuldade em classificar textos sobre "contratos" como pertencentes ao Direito Civil ou ao Direito do Consumidor. Por fim, com base nas sentenças-chave geradas pelo método de interpretabilidade, elabora- mos uma série de prompts que, ao receberem essas sentenças, permitem à LLM identificar padrões de erros recorrentes no modelo. Verificamos que uma das confusões entre Direito Administrativo e Direito Tributário resulta da ênfase em termos como "férias" e "13º salário", além da dificuldade em distinguir entre o contexto da CLT e o regime estatutário. A sistematização desses erros culminou em uma taxonomia que oferece ao especialista elementos para aprimorar a precisão do modelo, além de proporcionar maior transparência sobre seu funcionamento. Palavras-chave: Inteligência Artificial. Interpretabilidade. Direito.
id UFOR_687318805c483f52dd45f4d4d60d34f2
oai_identifier_str oai::591231
network_acronym_str UFOR
network_name_str Biblioteca Digital de Teses e Dissertações da UNIFOR
repository_id_str
spelling Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentosInteligência artificial - Aspectos jurídicosLinguística - Aspectos jurídicosDireito - LegislaçãoA crescente digitalização do Judiciário brasileiro, com apenas 2,8% de processos físicos iniciados em 2021, faz com que a maioria dos processos atualmente tramite em meio eletrônico. Para analisar o conteúdo desses documentos em grande escala, são necessá-rias técnicas avançadas de Processamento de Linguagem Natural (PLN). Esse cenário é desafiador pela complexidade do discurso jurídico, marcada por terminologia técnica, argumentação densa e demanda por transparência. Diante disso, este trabalho propõe uma metodologia que combina a interpretabilidade baseada em Gradientes Integrados com uma LLM (GPT-4o) para oferecer um arcabouço de suporte a profissionais de PLN que precisam compreender melhor os resultados de suas tarefas, bem como avaliar o impacto da escolha da janela de contexto do modelo. Como estudo de caso, aborda-se a classificação de um conjunto de 300 mil petições iniciais do Tribunal de Justiça do Ceará (TJCE), categorizadas em 307 classes segundo as definições da Tabela Processual Unificada (TPU). Os resultados indicam que o uso de uma janela longa (4096 tokens) supera o uso de uma janela curta (512 tokens) em termos de desempenho geral. Entretanto, esse ganho varia conforme a categoria do Direito. Por exemplo, no Direito da Saúde, houve um aumento de +5,44 pontos percentuais, enquanto no Direito Processual Civil e no Direito do Trabalho, o acréscimo foi de apenas +0,48 pontos. Além disso, observou-se que, nos documentos com maiores ganhos, as atribuições se concentraram mais no final do texto, ao contrário dos demais. Identificou-se, portanto, uma correlação negativa (r = -0,68) entre a importância atribuída aos primeiros 512 tokens e o ganho de acurácia. Isso demonstra que o método de interpretabilidade é capaz de destacar as áreas mais relevantes utilizadas pelo modelo para compreender o assunto principal do texto. Também desenvolvemos uma técnica para identificar subtemas no texto que geram maior confusão para o modelo. Por exemplo, o modelo apresenta dificuldade em classificar textos sobre "contratos" como pertencentes ao Direito Civil ou ao Direito do Consumidor. Por fim, com base nas sentenças-chave geradas pelo método de interpretabilidade, elabora- mos uma série de prompts que, ao receberem essas sentenças, permitem à LLM identificar padrões de erros recorrentes no modelo. Verificamos que uma das confusões entre Direito Administrativo e Direito Tributário resulta da ênfase em termos como "férias" e "13º salário", além da dificuldade em distinguir entre o contexto da CLT e o regime estatutário. A sistematização desses erros culminou em uma taxonomia que oferece ao especialista elementos para aprimorar a precisão do modelo, além de proporcionar maior transparência sobre seu funcionamento. Palavras-chave: Inteligência Artificial. Interpretabilidade. Direito.The increasing digitization of the Brazilian Judiciary, with only 2.8% of new cases filed in paper form in 2021, means that most proceedings now take place electronically. Analyzing the content of these documents on a large scale requires advanced Natural Language Processing (NLP) techniques. This environment poses challenges due to the complexity of legal discourse, which features specialized terminology, dense argumentation, and a demand for transparency. In light of this, the present work proposes a methodology that combines Integrated Gradients interpretability with a Large Language Model (GPT-4) to provide an analytical framework for NLP professionals who need deeper insights into their results, as well as to assess how the model’s choice of context window impacts performance. As a case study, we examine the classification of 300,000 initial pleadings from the Court of Justice of Ceará (TJCE), divided into 307 classes based on the Unified Procedural Table (TPU). Results suggest that using a longer context window (4096 tokens) outperforms a shorter window (512 tokens) in overall performance. However, the extent of this improvement varies among different branches of law. For example, in Health Law, accuracy improved by 5.44 percentage points, whereas the increase was only 0.48 points in Civil Procedure Law and Labor Law. Moreover, in the documents showing greater gains, the most relevant portions tended to appear near the end of the text, unlike in others. Accordingly, we identified a negative correlation (r = -0.68) between the importance placed on the first 512 tokens and the accuracy gain. This demonstrates that the interpretability method can highlight the most relevant text segments used by the model to understand the main topic. We also developed a technique to identify subtopics that pose greater challenges. For instance, the model struggles to classify texts involving "contracts" as Civil Law or Consumer Law. Finally, based on the key sentences generated by the interpretability method, we developed a series of prompts that, when supplied with these sentences, enable the LLM to pinpoint recurring errors in the model. We found that one source of confusion between Administrative Law and Tax Law arises from an overemphasis on terms like "vacation" and "13th salary," as well as difficulty distinguishing between the CLT’s framework and the statutory regime. The systematic evaluation of these errors led to a taxonomy that provides specialists with ways to improve the model’s accuracy and offers greater transparency regarding its decision-making process. Keywords: Artificial Intelligence. Interpretability. Legal NLP.A dissertação foi enviada com autorização e certificação via CI 8204/25 em 13/02/2025Furtado, João José Vasco PeixotoPires, Rilder de SousaOliveira, Patrícia RufinoPinheiro, Vladia Celia MonteiroMonteiro Neto, João AraújoUniversidade de Fortaleza. Programa de Pós-Graduação em Informática AplicadaAlmeida, Vitor Freitas de2025info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf80f.https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/591231https://uol.unifor.br/auth-sophia/exibicao/40187porreponame:Biblioteca Digital de Teses e Dissertações da UNIFORinstname:Universidade de Fortaleza (UNIFOR)instacron:UNIFORinfo:eu-repo/semantics/openAccess2025-02-20T00:41:40Zoai::591231Biblioteca Digital de Teses e Dissertaçõeshttps://www.unifor.br/bdtdONGhttp://dspace.unifor.br/oai/requestbib@unifor.br||bib@unifor.bropendoar:2025-02-20T00:41:40Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)false
dc.title.none.fl_str_mv Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos
title Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos
spellingShingle Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos
Almeida, Vitor Freitas de
Inteligência artificial - Aspectos jurídicos
Linguística - Aspectos jurídicos
Direito - Legislação
title_short Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos
title_full Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos
title_fullStr Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos
title_full_unstemmed Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos
title_sort Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos
author Almeida, Vitor Freitas de
author_facet Almeida, Vitor Freitas de
author_role author
dc.contributor.none.fl_str_mv Furtado, João José Vasco Peixoto
Pires, Rilder de Sousa
Oliveira, Patrícia Rufino
Pinheiro, Vladia Celia Monteiro
Monteiro Neto, João Araújo
Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
dc.contributor.author.fl_str_mv Almeida, Vitor Freitas de
dc.subject.por.fl_str_mv Inteligência artificial - Aspectos jurídicos
Linguística - Aspectos jurídicos
Direito - Legislação
topic Inteligência artificial - Aspectos jurídicos
Linguística - Aspectos jurídicos
Direito - Legislação
description A crescente digitalização do Judiciário brasileiro, com apenas 2,8% de processos físicos iniciados em 2021, faz com que a maioria dos processos atualmente tramite em meio eletrônico. Para analisar o conteúdo desses documentos em grande escala, são necessá-rias técnicas avançadas de Processamento de Linguagem Natural (PLN). Esse cenário é desafiador pela complexidade do discurso jurídico, marcada por terminologia técnica, argumentação densa e demanda por transparência. Diante disso, este trabalho propõe uma metodologia que combina a interpretabilidade baseada em Gradientes Integrados com uma LLM (GPT-4o) para oferecer um arcabouço de suporte a profissionais de PLN que precisam compreender melhor os resultados de suas tarefas, bem como avaliar o impacto da escolha da janela de contexto do modelo. Como estudo de caso, aborda-se a classificação de um conjunto de 300 mil petições iniciais do Tribunal de Justiça do Ceará (TJCE), categorizadas em 307 classes segundo as definições da Tabela Processual Unificada (TPU). Os resultados indicam que o uso de uma janela longa (4096 tokens) supera o uso de uma janela curta (512 tokens) em termos de desempenho geral. Entretanto, esse ganho varia conforme a categoria do Direito. Por exemplo, no Direito da Saúde, houve um aumento de +5,44 pontos percentuais, enquanto no Direito Processual Civil e no Direito do Trabalho, o acréscimo foi de apenas +0,48 pontos. Além disso, observou-se que, nos documentos com maiores ganhos, as atribuições se concentraram mais no final do texto, ao contrário dos demais. Identificou-se, portanto, uma correlação negativa (r = -0,68) entre a importância atribuída aos primeiros 512 tokens e o ganho de acurácia. Isso demonstra que o método de interpretabilidade é capaz de destacar as áreas mais relevantes utilizadas pelo modelo para compreender o assunto principal do texto. Também desenvolvemos uma técnica para identificar subtemas no texto que geram maior confusão para o modelo. Por exemplo, o modelo apresenta dificuldade em classificar textos sobre "contratos" como pertencentes ao Direito Civil ou ao Direito do Consumidor. Por fim, com base nas sentenças-chave geradas pelo método de interpretabilidade, elabora- mos uma série de prompts que, ao receberem essas sentenças, permitem à LLM identificar padrões de erros recorrentes no modelo. Verificamos que uma das confusões entre Direito Administrativo e Direito Tributário resulta da ênfase em termos como "férias" e "13º salário", além da dificuldade em distinguir entre o contexto da CLT e o regime estatutário. A sistematização desses erros culminou em uma taxonomia que oferece ao especialista elementos para aprimorar a precisão do modelo, além de proporcionar maior transparência sobre seu funcionamento. Palavras-chave: Inteligência Artificial. Interpretabilidade. Direito.
publishDate 2025
dc.date.none.fl_str_mv 2025
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/591231
url https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/591231
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://uol.unifor.br/auth-sophia/exibicao/40187
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
80f.
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR
instname:Universidade de Fortaleza (UNIFOR)
instacron:UNIFOR
instname_str Universidade de Fortaleza (UNIFOR)
instacron_str UNIFOR
institution UNIFOR
reponame_str Biblioteca Digital de Teses e Dissertações da UNIFOR
collection Biblioteca Digital de Teses e Dissertações da UNIFOR
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)
repository.mail.fl_str_mv bib@unifor.br||bib@unifor.br
_version_ 1846365346324283392