Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos

Almeida, Vitor Freitas de

Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos

Detalhes bibliográficos
Ano de defesa:	2025
Autor(a) principal:	Almeida, Vitor Freitas de
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Inteligência artificial - Aspectos jurídicos Linguística - Aspectos jurídicos Direito - Legislação
Link de acesso:	https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/591231
Resumo:	A crescente digitalização do Judiciário brasileiro, com apenas 2,8% de processos físicos iniciados em 2021, faz com que a maioria dos processos atualmente tramite em meio eletrônico. Para analisar o conteúdo desses documentos em grande escala, são necessá-rias técnicas avançadas de Processamento de Linguagem Natural (PLN). Esse cenário é desafiador pela complexidade do discurso jurídico, marcada por terminologia técnica, argumentação densa e demanda por transparência. Diante disso, este trabalho propõe uma metodologia que combina a interpretabilidade baseada em Gradientes Integrados com uma LLM (GPT-4o) para oferecer um arcabouço de suporte a profissionais de PLN que precisam compreender melhor os resultados de suas tarefas, bem como avaliar o impacto da escolha da janela de contexto do modelo. Como estudo de caso, aborda-se a classificação de um conjunto de 300 mil petições iniciais do Tribunal de Justiça do Ceará (TJCE), categorizadas em 307 classes segundo as definições da Tabela Processual Unificada (TPU). Os resultados indicam que o uso de uma janela longa (4096 tokens) supera o uso de uma janela curta (512 tokens) em termos de desempenho geral. Entretanto, esse ganho varia conforme a categoria do Direito. Por exemplo, no Direito da Saúde, houve um aumento de +5,44 pontos percentuais, enquanto no Direito Processual Civil e no Direito do Trabalho, o acréscimo foi de apenas +0,48 pontos. Além disso, observou-se que, nos documentos com maiores ganhos, as atribuições se concentraram mais no final do texto, ao contrário dos demais. Identificou-se, portanto, uma correlação negativa (r = -0,68) entre a importância atribuída aos primeiros 512 tokens e o ganho de acurácia. Isso demonstra que o método de interpretabilidade é capaz de destacar as áreas mais relevantes utilizadas pelo modelo para compreender o assunto principal do texto. Também desenvolvemos uma técnica para identificar subtemas no texto que geram maior confusão para o modelo. Por exemplo, o modelo apresenta dificuldade em classificar textos sobre "contratos" como pertencentes ao Direito Civil ou ao Direito do Consumidor. Por fim, com base nas sentenças-chave geradas pelo método de interpretabilidade, elabora- mos uma série de prompts que, ao receberem essas sentenças, permitem à LLM identificar padrões de erros recorrentes no modelo. Verificamos que uma das confusões entre Direito Administrativo e Direito Tributário resulta da ênfase em termos como "férias" e "13º salário", além da dificuldade em distinguir entre o contexto da CLT e o regime estatutário. A sistematização desses erros culminou em uma taxonomia que oferece ao especialista elementos para aprimorar a precisão do modelo, além de proporcionar maior transparência sobre seu funcionamento. Palavras-chave: Inteligência Artificial. Interpretabilidade. Direito.

Metadados do item

id	UFOR_687318805c483f52dd45f4d4d60d34f2
oai_identifier_str	oai::591231
network_acronym_str	UFOR
network_name_str	Biblioteca Digital de Teses e Dissertações da UNIFOR
repository_id_str
spelling	Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentosInteligência artificial - Aspectos jurídicosLinguística - Aspectos jurídicosDireito - LegislaçãoA crescente digitalização do Judiciário brasileiro, com apenas 2,8% de processos físicos iniciados em 2021, faz com que a maioria dos processos atualmente tramite em meio eletrônico. Para analisar o conteúdo desses documentos em grande escala, são necessá-rias técnicas avançadas de Processamento de Linguagem Natural (PLN). Esse cenário é desafiador pela complexidade do discurso jurídico, marcada por terminologia técnica, argumentação densa e demanda por transparência. Diante disso, este trabalho propõe uma metodologia que combina a interpretabilidade baseada em Gradientes Integrados com uma LLM (GPT-4o) para oferecer um arcabouço de suporte a profissionais de PLN que precisam compreender melhor os resultados de suas tarefas, bem como avaliar o impacto da escolha da janela de contexto do modelo. Como estudo de caso, aborda-se a classificação de um conjunto de 300 mil petições iniciais do Tribunal de Justiça do Ceará (TJCE), categorizadas em 307 classes segundo as definições da Tabela Processual Unificada (TPU). Os resultados indicam que o uso de uma janela longa (4096 tokens) supera o uso de uma janela curta (512 tokens) em termos de desempenho geral. Entretanto, esse ganho varia conforme a categoria do Direito. Por exemplo, no Direito da Saúde, houve um aumento de +5,44 pontos percentuais, enquanto no Direito Processual Civil e no Direito do Trabalho, o acréscimo foi de apenas +0,48 pontos. Além disso, observou-se que, nos documentos com maiores ganhos, as atribuições se concentraram mais no final do texto, ao contrário dos demais. Identificou-se, portanto, uma correlação negativa (r = -0,68) entre a importância atribuída aos primeiros 512 tokens e o ganho de acurácia. Isso demonstra que o método de interpretabilidade é capaz de destacar as áreas mais relevantes utilizadas pelo modelo para compreender o assunto principal do texto. Também desenvolvemos uma técnica para identificar subtemas no texto que geram maior confusão para o modelo. Por exemplo, o modelo apresenta dificuldade em classificar textos sobre "contratos" como pertencentes ao Direito Civil ou ao Direito do Consumidor. Por fim, com base nas sentenças-chave geradas pelo método de interpretabilidade, elabora- mos uma série de prompts que, ao receberem essas sentenças, permitem à LLM identificar padrões de erros recorrentes no modelo. Verificamos que uma das confusões entre Direito Administrativo e Direito Tributário resulta da ênfase em termos como "férias" e "13º salário", além da dificuldade em distinguir entre o contexto da CLT e o regime estatutário. A sistematização desses erros culminou em uma taxonomia que oferece ao especialista elementos para aprimorar a precisão do modelo, além de proporcionar maior transparência sobre seu funcionamento. Palavras-chave: Inteligência Artificial. Interpretabilidade. Direito.The increasing digitization of the Brazilian Judiciary, with only 2.8% of new cases filed in paper form in 2021, means that most proceedings now take place electronically. Analyzing the content of these documents on a large scale requires advanced Natural Language Processing (NLP) techniques. This environment poses challenges due to the complexity of legal discourse, which features specialized terminology, dense argumentation, and a demand for transparency. In light of this, the present work proposes a methodology that combines Integrated Gradients interpretability with a Large Language Model (GPT-4) to provide an analytical framework for NLP professionals who need deeper insights into their results, as well as to assess how the model’s choice of context window impacts performance. As a case study, we examine the classification of 300,000 initial pleadings from the Court of Justice of Ceará (TJCE), divided into 307 classes based on the Unified Procedural Table (TPU). Results suggest that using a longer context window (4096 tokens) outperforms a shorter window (512 tokens) in overall performance. However, the extent of this improvement varies among different branches of law. For example, in Health Law, accuracy improved by 5.44 percentage points, whereas the increase was only 0.48 points in Civil Procedure Law and Labor Law. Moreover, in the documents showing greater gains, the most relevant portions tended to appear near the end of the text, unlike in others. Accordingly, we identified a negative correlation (r = -0.68) between the importance placed on the first 512 tokens and the accuracy gain. This demonstrates that the interpretability method can highlight the most relevant text segments used by the model to understand the main topic. We also developed a technique to identify subtopics that pose greater challenges. For instance, the model struggles to classify texts involving "contracts" as Civil Law or Consumer Law. Finally, based on the key sentences generated by the interpretability method, we developed a series of prompts that, when supplied with these sentences, enable the LLM to pinpoint recurring errors in the model. We found that one source of confusion between Administrative Law and Tax Law arises from an overemphasis on terms like "vacation" and "13th salary," as well as difficulty distinguishing between the CLT’s framework and the statutory regime. The systematic evaluation of these errors led to a taxonomy that provides specialists with ways to improve the model’s accuracy and offers greater transparency regarding its decision-making process. Keywords: Artificial Intelligence. Interpretability. Legal NLP.A dissertação foi enviada com autorização e certificação via CI 8204/25 em 13/02/2025Furtado, João José Vasco PeixotoPires, Rilder de SousaOliveira, Patrícia RufinoPinheiro, Vladia Celia MonteiroMonteiro Neto, João AraújoUniversidade de Fortaleza. Programa de Pós-Graduação em Informática AplicadaAlmeida, Vitor Freitas de2025info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf80f.https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/591231https://uol.unifor.br/auth-sophia/exibicao/40187porreponame:Biblioteca Digital de Teses e Dissertações da UNIFORinstname:Universidade de Fortaleza (UNIFOR)instacron:UNIFORinfo:eu-repo/semantics/openAccess2025-02-20T00:41:40Zoai::591231Biblioteca Digital de Teses e Dissertaçõeshttps://www.unifor.br/bdtdONGhttp://dspace.unifor.br/oai/requestbib@unifor.br\|\|bib@unifor.bropendoar:2025-02-20T00:41:40Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)false
dc.title.none.fl_str_mv	Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos
title	Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos
spellingShingle	Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos Almeida, Vitor Freitas de Inteligência artificial - Aspectos jurídicos Linguística - Aspectos jurídicos Direito - Legislação
title_short	Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos
title_full	Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos
title_fullStr	Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos
title_full_unstemmed	Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos
title_sort	Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos
author	Almeida, Vitor Freitas de
author_facet	Almeida, Vitor Freitas de
author_role	author
dc.contributor.none.fl_str_mv	Furtado, João José Vasco Peixoto Pires, Rilder de Sousa Oliveira, Patrícia Rufino Pinheiro, Vladia Celia Monteiro Monteiro Neto, João Araújo Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
dc.contributor.author.fl_str_mv	Almeida, Vitor Freitas de
dc.subject.por.fl_str_mv	Inteligência artificial - Aspectos jurídicos Linguística - Aspectos jurídicos Direito - Legislação
topic	Inteligência artificial - Aspectos jurídicos Linguística - Aspectos jurídicos Direito - Legislação
description	A crescente digitalização do Judiciário brasileiro, com apenas 2,8% de processos físicos iniciados em 2021, faz com que a maioria dos processos atualmente tramite em meio eletrônico. Para analisar o conteúdo desses documentos em grande escala, são necessá-rias técnicas avançadas de Processamento de Linguagem Natural (PLN). Esse cenário é desafiador pela complexidade do discurso jurídico, marcada por terminologia técnica, argumentação densa e demanda por transparência. Diante disso, este trabalho propõe uma metodologia que combina a interpretabilidade baseada em Gradientes Integrados com uma LLM (GPT-4o) para oferecer um arcabouço de suporte a profissionais de PLN que precisam compreender melhor os resultados de suas tarefas, bem como avaliar o impacto da escolha da janela de contexto do modelo. Como estudo de caso, aborda-se a classificação de um conjunto de 300 mil petições iniciais do Tribunal de Justiça do Ceará (TJCE), categorizadas em 307 classes segundo as definições da Tabela Processual Unificada (TPU). Os resultados indicam que o uso de uma janela longa (4096 tokens) supera o uso de uma janela curta (512 tokens) em termos de desempenho geral. Entretanto, esse ganho varia conforme a categoria do Direito. Por exemplo, no Direito da Saúde, houve um aumento de +5,44 pontos percentuais, enquanto no Direito Processual Civil e no Direito do Trabalho, o acréscimo foi de apenas +0,48 pontos. Além disso, observou-se que, nos documentos com maiores ganhos, as atribuições se concentraram mais no final do texto, ao contrário dos demais. Identificou-se, portanto, uma correlação negativa (r = -0,68) entre a importância atribuída aos primeiros 512 tokens e o ganho de acurácia. Isso demonstra que o método de interpretabilidade é capaz de destacar as áreas mais relevantes utilizadas pelo modelo para compreender o assunto principal do texto. Também desenvolvemos uma técnica para identificar subtemas no texto que geram maior confusão para o modelo. Por exemplo, o modelo apresenta dificuldade em classificar textos sobre "contratos" como pertencentes ao Direito Civil ou ao Direito do Consumidor. Por fim, com base nas sentenças-chave geradas pelo método de interpretabilidade, elabora- mos uma série de prompts que, ao receberem essas sentenças, permitem à LLM identificar padrões de erros recorrentes no modelo. Verificamos que uma das confusões entre Direito Administrativo e Direito Tributário resulta da ênfase em termos como "férias" e "13º salário", além da dificuldade em distinguir entre o contexto da CLT e o regime estatutário. A sistematização desses erros culminou em uma taxonomia que oferece ao especialista elementos para aprimorar a precisão do modelo, além de proporcionar maior transparência sobre seu funcionamento. Palavras-chave: Inteligência Artificial. Interpretabilidade. Direito.
publishDate	2025
dc.date.none.fl_str_mv	2025
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/591231
url	https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/591231
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	https://uol.unifor.br/auth-sophia/exibicao/40187
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf 80f.
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR instname:Universidade de Fortaleza (UNIFOR) instacron:UNIFOR
instname_str	Universidade de Fortaleza (UNIFOR)
instacron_str	UNIFOR
institution	UNIFOR
reponame_str	Biblioteca Digital de Teses e Dissertações da UNIFOR
collection	Biblioteca Digital de Teses e Dissertações da UNIFOR
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)
repository.mail.fl_str_mv	bib@unifor.br\|\|bib@unifor.br
_version_	1846365346324283392

Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos

Registros relacionados