CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastiva

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Lins, Alex Aguiar
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/593605
Resumo: O crescente interesse por sumarização automática de documentos legais (em inglês, Automatic Legal Document Summarization - ALDS) tem atraído a atenção de pesquisadores em Processamento de Linguagem Natural (PLN), especialmente devido às particularidades dos textos jurídicos, que se distinguem por sua natureza técnica, vocabulário especializado e maior extensão. Este trabalho explorou amplamente tanto as abordagens extrativas quanto abstrativas para a sumarização de documentos legais, destacando as técnicas mais relevantes aplicadas nesse contexto. Devido à estrutura formal e ao vocabulário técnico dos documentos legais, os melhores desempenhos observados indicaram a eficácia da Aprendizagem Contrastiva, com ênfase na geração de sumários Diversificados Negativos ou falsos durante o treinamento dos modelos. Como avanço científico, este estudo propõe o modelo CLSJUR.BR, uma abordagem de sumarização abstrativa automática de documentos legais em português, que incorpora a técnica de Aprendizagem Contrastiva que gera sumários Diversificados Positivos a partir da diversificação proporcionada pelo Diverse Beam Search, ainda inédita na tarefa de ALDS. O modelo é estruturado em dois estágios principais: "Geração de Sumários Candidatos", onde múltiplos sumários diversificados são gerados, e "Avaliação de Sumários e Eleição do Sumário Final", onde os sumários são avaliados sem a necessidade de sumários de referência (reference-free evaluation). O modelo foi treinado e avaliado com base em modelos prétreinados, incluindo versões multilíngues e especializadas no domínio legal e em português, e no conjunto de dados RulingBR, composto por decisões judiciais de um tribunal superior do Sistema Jurídico Brasileiro, e comparado com sistemas de referência através de métricas como ROUGE, BERTScore e AlingScore. A avaliação experimental abordou as questões de pesquisa que orientaram a investigação. Na primeira questão de pesquisa, que analisou a contribuição de métodos alternativos de Aprendizagem Contrastiva para o desempenho de sistemas ALDS, os resultados mostraram que o método de "Gradiente de Sumários Diversificados Positivos" foi mais eficiente do que o "Gradiente de Sumários Diversificados Negativos", utilizado pelo sistema LegalSumm. Na segunda questão de pesquisa, que investigou o impacto de modelos pré-treinados para um idioma e domínio específico na ALDS para a língua portuguesa, concluiu-se que os modelos especializados, como LegalBert-PT e Bertimbau, apresentaram melhores resultados em comparação com modelos multilíngues e de domínio geral, especialmente para textos menores. Na terceira questão, que avaliou o desempenho dos LLMs, os experimentos indicaram que o CLSJUR.BR teve maior dificuldade em sumarizar textos longos em comparação com os LLMs da série GPT, mas superou-os na sumarização de textos curtos. Na avaliação qualitativa, o CLSJUR.BR foi o mais bem avaliado pelo avaliador LLM, confirmando a superioridade da técnica de "Gradiente de Sumários Diversificados Positivos". Além disso, os sumários avaliados por humanos mostraram uma moderada variação em relação à avaliação do LLM, com quatro dos seis sumários avaliados pelos especialistas convergindo com as análises do LLM. Além da principal contribuição que foi o desenvolvimento de um modelo de ALDS para o domínio jurídico brasileiro, utilizando diversas técnicas de Aprendizagem Contrastiva. esta pesquisa apresenta as seguintes contribuições: um estudo comparativo de sumarizadores em diferentes cenários, variando o uso de modelos de linguagem pré-treinados, incluindo modelos multilíngues, especializados em português e adaptados ao domínio legal; experimentos exploratórios com LLMs e estratégias de prompts; e uma abordagem para avaliação qualitativa dos sumários gerados, com avaliadores humanos e não-humanos (LLMs), para identificar lacunas e sugerir melhorias nas técnicas e modelos empregados. Entre as limitações do estudo, destacam-se as restrições relacionadas aos modelos de linguagem, custos de treinamento, e limitações do corpus e avaliadores humanos. Futuras extensões sugerem refinamentos nos LLMs, experimentos com outros LLMs e estratégias de prompts; consideração da factualidade e das entidades nomeadas (NER) no modelo proposto; e buscas por novos corpora jurídicos em português. Palavras-chave: Sumarização Automática de Textos. Documentos Jurídicos. Documentos Legais. Modelos de Linguagem. Aprendizagem Contrastiva. Reference-free Evaluation.
id UFOR_06fcf4203b912c03e851559fcb8d51a5
oai_identifier_str oai::593605
network_acronym_str UFOR
network_name_str Biblioteca Digital de Teses e Dissertações da UNIFOR
repository_id_str
spelling CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastivaDocumentoscopiaAprendizagem de máquinaLinguagem jurídicaO crescente interesse por sumarização automática de documentos legais (em inglês, Automatic Legal Document Summarization - ALDS) tem atraído a atenção de pesquisadores em Processamento de Linguagem Natural (PLN), especialmente devido às particularidades dos textos jurídicos, que se distinguem por sua natureza técnica, vocabulário especializado e maior extensão. Este trabalho explorou amplamente tanto as abordagens extrativas quanto abstrativas para a sumarização de documentos legais, destacando as técnicas mais relevantes aplicadas nesse contexto. Devido à estrutura formal e ao vocabulário técnico dos documentos legais, os melhores desempenhos observados indicaram a eficácia da Aprendizagem Contrastiva, com ênfase na geração de sumários Diversificados Negativos ou falsos durante o treinamento dos modelos. Como avanço científico, este estudo propõe o modelo CLSJUR.BR, uma abordagem de sumarização abstrativa automática de documentos legais em português, que incorpora a técnica de Aprendizagem Contrastiva que gera sumários Diversificados Positivos a partir da diversificação proporcionada pelo Diverse Beam Search, ainda inédita na tarefa de ALDS. O modelo é estruturado em dois estágios principais: "Geração de Sumários Candidatos", onde múltiplos sumários diversificados são gerados, e "Avaliação de Sumários e Eleição do Sumário Final", onde os sumários são avaliados sem a necessidade de sumários de referência (reference-free evaluation). O modelo foi treinado e avaliado com base em modelos prétreinados, incluindo versões multilíngues e especializadas no domínio legal e em português, e no conjunto de dados RulingBR, composto por decisões judiciais de um tribunal superior do Sistema Jurídico Brasileiro, e comparado com sistemas de referência através de métricas como ROUGE, BERTScore e AlingScore. A avaliação experimental abordou as questões de pesquisa que orientaram a investigação. Na primeira questão de pesquisa, que analisou a contribuição de métodos alternativos de Aprendizagem Contrastiva para o desempenho de sistemas ALDS, os resultados mostraram que o método de "Gradiente de Sumários Diversificados Positivos" foi mais eficiente do que o "Gradiente de Sumários Diversificados Negativos", utilizado pelo sistema LegalSumm. Na segunda questão de pesquisa, que investigou o impacto de modelos pré-treinados para um idioma e domínio específico na ALDS para a língua portuguesa, concluiu-se que os modelos especializados, como LegalBert-PT e Bertimbau, apresentaram melhores resultados em comparação com modelos multilíngues e de domínio geral, especialmente para textos menores. Na terceira questão, que avaliou o desempenho dos LLMs, os experimentos indicaram que o CLSJUR.BR teve maior dificuldade em sumarizar textos longos em comparação com os LLMs da série GPT, mas superou-os na sumarização de textos curtos. Na avaliação qualitativa, o CLSJUR.BR foi o mais bem avaliado pelo avaliador LLM, confirmando a superioridade da técnica de "Gradiente de Sumários Diversificados Positivos". Além disso, os sumários avaliados por humanos mostraram uma moderada variação em relação à avaliação do LLM, com quatro dos seis sumários avaliados pelos especialistas convergindo com as análises do LLM. Além da principal contribuição que foi o desenvolvimento de um modelo de ALDS para o domínio jurídico brasileiro, utilizando diversas técnicas de Aprendizagem Contrastiva. esta pesquisa apresenta as seguintes contribuições: um estudo comparativo de sumarizadores em diferentes cenários, variando o uso de modelos de linguagem pré-treinados, incluindo modelos multilíngues, especializados em português e adaptados ao domínio legal; experimentos exploratórios com LLMs e estratégias de prompts; e uma abordagem para avaliação qualitativa dos sumários gerados, com avaliadores humanos e não-humanos (LLMs), para identificar lacunas e sugerir melhorias nas técnicas e modelos empregados. Entre as limitações do estudo, destacam-se as restrições relacionadas aos modelos de linguagem, custos de treinamento, e limitações do corpus e avaliadores humanos. Futuras extensões sugerem refinamentos nos LLMs, experimentos com outros LLMs e estratégias de prompts; consideração da factualidade e das entidades nomeadas (NER) no modelo proposto; e buscas por novos corpora jurídicos em português. Palavras-chave: Sumarização Automática de Textos. Documentos Jurídicos. Documentos Legais. Modelos de Linguagem. Aprendizagem Contrastiva. Reference-free Evaluation.The growing interest in Automatic Legal Document Summarization (ALDS) has attracted the attention of researchers in Natural Language Processing (NLP), especially due to the particularities of legal texts, which are characterized by their technical nature, specialized vocabulary, and greater length. This work extensively explored both extractive and abstractive approaches to legal document summarization, highlighting the most relevant techniques applied in this context. Due to the formal structure and technical vocabulary of legal documents, the best performance results indicated the effectiveness of Contrastive Learning, with an emphasis on generating negative or false summaries during the training of models. As a scientific advancement, this study proposes the CLSJUR.BR model, an abstractive automatic summarization approach for legal documents in Portuguese, which incorporates the Contrastive Learning technique that generates positive summaries through diversification provided by Diverse Beam Search, a method that has not yet been applied in ALDS. The model is structured in two main stages: "Candidate Summary Generation," where multiple diversified summaries are generated, and "Summary Evaluation and Final Summary Selection," where the summaries are evaluated without the need for reference summaries (reference-free evaluation). The model was trained and evaluated using pre-trained models, including multilingual and legal-domain-specific versions, and the RulingBR dataset, which consists of judicial decisions from a higher court in the Brazilian Legal System. It was compared with reference systems through metrics such as ROUGE, BERTScore, and AlingScore. The experimental evaluation addressed the research questions that guided the investigation. The first research question, which analyzed the contribution of alternative Contrastive Learning methods to the performance of ALDS systems, showed that the "Positive Summary Gradient" method was more efficient than the "Negative Summary Gradient" used by the LegalSumm system. The second research question, which investigated the impact of pre-trained models for a specific language and domain in ALDS for Portuguese, concluded that specialized models such as LegalBert-PT and Bertimbau outperformed multilingual and general-domain models, especially for shorter texts. The third research question, which evaluated the performance of LLMs, indicated that CLSJUR.BR had more difficulty summarizing long texts compared to GPT-series LLMs, but outperformed them in summarizing shorter texts. In the qualitative evaluation, CLSJUR.BR was the highest rated by the LLM evaluator, confirming the superiority of the "Positive Summary Gradient" technique. Additionally, human-evaluated summaries showed moderate variation compared to the LLM evaluation, with four out of six summaries evaluated by experts converging with the LLM analysis. In addition to the main contribution, which was the development of an ALDS model for the Brazilian legal domain using various Contrastive Learning techniques, this research presents the following contributions: a comparative study of summarizers in different scenarios, varying the use of pre-trained language models, including multilingual, Portuguese-specialized, and legal-domain-adapted models; exploratory experiments with LLMs and prompt strategies; and an approach to the qualitative evaluation of generated summaries, with human and nonhuman (LLM) evaluators, to identify gaps and suggest improvements in the techniques and models used. Limitations of the study include restrictions related to language models, training costs, and limitations of the corpus and human evaluators. Future extensions suggest refinements in LLMs, experiments with other LLMs and prompt strategies; consideration of factuality and named entities (NER) in the proposed model; and searches for new legal corpora in Portuguese. Keywords: Automatic Text Summarization, Legal Documents, Language Models, Contrastive Learning, Reference-free Evaluation.A Tese foi enviada com autorização e certificação via CI 39980/25 em 07/07/2025.Pinheiro, Vladia Celia MonteiroMoreira, Viviane PereiraCarvalho, Aline Marina PaesFurtado, João José Vasco PeixotoMonteiro Neto, João AraújoUniversidade de Fortaleza. Programa de Pós-Graduação em Informática AplicadaLins, Alex Aguiar2025info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdf225f.https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/593605https://uol.unifor.br/auth-sophia/exibicao/43467porreponame:Biblioteca Digital de Teses e Dissertações da UNIFORinstname:Universidade de Fortaleza (UNIFOR)instacron:UNIFORinfo:eu-repo/semantics/openAccess2025-07-07T14:28:12Zoai::593605Biblioteca Digital de Teses e Dissertaçõeshttps://www.unifor.br/bdtdONGhttp://dspace.unifor.br/oai/requestbib@unifor.br||bib@unifor.bropendoar:2025-07-07T14:28:12Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)false
dc.title.none.fl_str_mv CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastiva
title CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastiva
spellingShingle CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastiva
Lins, Alex Aguiar
Documentoscopia
Aprendizagem de máquina
Linguagem jurídica
title_short CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastiva
title_full CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastiva
title_fullStr CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastiva
title_full_unstemmed CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastiva
title_sort CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastiva
author Lins, Alex Aguiar
author_facet Lins, Alex Aguiar
author_role author
dc.contributor.none.fl_str_mv Pinheiro, Vladia Celia Monteiro
Moreira, Viviane Pereira
Carvalho, Aline Marina Paes
Furtado, João José Vasco Peixoto
Monteiro Neto, João Araújo
Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
dc.contributor.author.fl_str_mv Lins, Alex Aguiar
dc.subject.por.fl_str_mv Documentoscopia
Aprendizagem de máquina
Linguagem jurídica
topic Documentoscopia
Aprendizagem de máquina
Linguagem jurídica
description O crescente interesse por sumarização automática de documentos legais (em inglês, Automatic Legal Document Summarization - ALDS) tem atraído a atenção de pesquisadores em Processamento de Linguagem Natural (PLN), especialmente devido às particularidades dos textos jurídicos, que se distinguem por sua natureza técnica, vocabulário especializado e maior extensão. Este trabalho explorou amplamente tanto as abordagens extrativas quanto abstrativas para a sumarização de documentos legais, destacando as técnicas mais relevantes aplicadas nesse contexto. Devido à estrutura formal e ao vocabulário técnico dos documentos legais, os melhores desempenhos observados indicaram a eficácia da Aprendizagem Contrastiva, com ênfase na geração de sumários Diversificados Negativos ou falsos durante o treinamento dos modelos. Como avanço científico, este estudo propõe o modelo CLSJUR.BR, uma abordagem de sumarização abstrativa automática de documentos legais em português, que incorpora a técnica de Aprendizagem Contrastiva que gera sumários Diversificados Positivos a partir da diversificação proporcionada pelo Diverse Beam Search, ainda inédita na tarefa de ALDS. O modelo é estruturado em dois estágios principais: "Geração de Sumários Candidatos", onde múltiplos sumários diversificados são gerados, e "Avaliação de Sumários e Eleição do Sumário Final", onde os sumários são avaliados sem a necessidade de sumários de referência (reference-free evaluation). O modelo foi treinado e avaliado com base em modelos prétreinados, incluindo versões multilíngues e especializadas no domínio legal e em português, e no conjunto de dados RulingBR, composto por decisões judiciais de um tribunal superior do Sistema Jurídico Brasileiro, e comparado com sistemas de referência através de métricas como ROUGE, BERTScore e AlingScore. A avaliação experimental abordou as questões de pesquisa que orientaram a investigação. Na primeira questão de pesquisa, que analisou a contribuição de métodos alternativos de Aprendizagem Contrastiva para o desempenho de sistemas ALDS, os resultados mostraram que o método de "Gradiente de Sumários Diversificados Positivos" foi mais eficiente do que o "Gradiente de Sumários Diversificados Negativos", utilizado pelo sistema LegalSumm. Na segunda questão de pesquisa, que investigou o impacto de modelos pré-treinados para um idioma e domínio específico na ALDS para a língua portuguesa, concluiu-se que os modelos especializados, como LegalBert-PT e Bertimbau, apresentaram melhores resultados em comparação com modelos multilíngues e de domínio geral, especialmente para textos menores. Na terceira questão, que avaliou o desempenho dos LLMs, os experimentos indicaram que o CLSJUR.BR teve maior dificuldade em sumarizar textos longos em comparação com os LLMs da série GPT, mas superou-os na sumarização de textos curtos. Na avaliação qualitativa, o CLSJUR.BR foi o mais bem avaliado pelo avaliador LLM, confirmando a superioridade da técnica de "Gradiente de Sumários Diversificados Positivos". Além disso, os sumários avaliados por humanos mostraram uma moderada variação em relação à avaliação do LLM, com quatro dos seis sumários avaliados pelos especialistas convergindo com as análises do LLM. Além da principal contribuição que foi o desenvolvimento de um modelo de ALDS para o domínio jurídico brasileiro, utilizando diversas técnicas de Aprendizagem Contrastiva. esta pesquisa apresenta as seguintes contribuições: um estudo comparativo de sumarizadores em diferentes cenários, variando o uso de modelos de linguagem pré-treinados, incluindo modelos multilíngues, especializados em português e adaptados ao domínio legal; experimentos exploratórios com LLMs e estratégias de prompts; e uma abordagem para avaliação qualitativa dos sumários gerados, com avaliadores humanos e não-humanos (LLMs), para identificar lacunas e sugerir melhorias nas técnicas e modelos empregados. Entre as limitações do estudo, destacam-se as restrições relacionadas aos modelos de linguagem, custos de treinamento, e limitações do corpus e avaliadores humanos. Futuras extensões sugerem refinamentos nos LLMs, experimentos com outros LLMs e estratégias de prompts; consideração da factualidade e das entidades nomeadas (NER) no modelo proposto; e buscas por novos corpora jurídicos em português. Palavras-chave: Sumarização Automática de Textos. Documentos Jurídicos. Documentos Legais. Modelos de Linguagem. Aprendizagem Contrastiva. Reference-free Evaluation.
publishDate 2025
dc.date.none.fl_str_mv 2025
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/593605
url https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/593605
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://uol.unifor.br/auth-sophia/exibicao/43467
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
225f.
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR
instname:Universidade de Fortaleza (UNIFOR)
instacron:UNIFOR
instname_str Universidade de Fortaleza (UNIFOR)
instacron_str UNIFOR
institution UNIFOR
reponame_str Biblioteca Digital de Teses e Dissertações da UNIFOR
collection Biblioteca Digital de Teses e Dissertações da UNIFOR
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)
repository.mail.fl_str_mv bib@unifor.br||bib@unifor.br
_version_ 1846365347468279808