CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastiva
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/593605 |
Resumo: | O crescente interesse por sumarização automática de documentos legais (em inglês, Automatic Legal Document Summarization - ALDS) tem atraído a atenção de pesquisadores em Processamento de Linguagem Natural (PLN), especialmente devido às particularidades dos textos jurídicos, que se distinguem por sua natureza técnica, vocabulário especializado e maior extensão. Este trabalho explorou amplamente tanto as abordagens extrativas quanto abstrativas para a sumarização de documentos legais, destacando as técnicas mais relevantes aplicadas nesse contexto. Devido à estrutura formal e ao vocabulário técnico dos documentos legais, os melhores desempenhos observados indicaram a eficácia da Aprendizagem Contrastiva, com ênfase na geração de sumários Diversificados Negativos ou falsos durante o treinamento dos modelos. Como avanço científico, este estudo propõe o modelo CLSJUR.BR, uma abordagem de sumarização abstrativa automática de documentos legais em português, que incorpora a técnica de Aprendizagem Contrastiva que gera sumários Diversificados Positivos a partir da diversificação proporcionada pelo Diverse Beam Search, ainda inédita na tarefa de ALDS. O modelo é estruturado em dois estágios principais: "Geração de Sumários Candidatos", onde múltiplos sumários diversificados são gerados, e "Avaliação de Sumários e Eleição do Sumário Final", onde os sumários são avaliados sem a necessidade de sumários de referência (reference-free evaluation). O modelo foi treinado e avaliado com base em modelos prétreinados, incluindo versões multilíngues e especializadas no domínio legal e em português, e no conjunto de dados RulingBR, composto por decisões judiciais de um tribunal superior do Sistema Jurídico Brasileiro, e comparado com sistemas de referência através de métricas como ROUGE, BERTScore e AlingScore. A avaliação experimental abordou as questões de pesquisa que orientaram a investigação. Na primeira questão de pesquisa, que analisou a contribuição de métodos alternativos de Aprendizagem Contrastiva para o desempenho de sistemas ALDS, os resultados mostraram que o método de "Gradiente de Sumários Diversificados Positivos" foi mais eficiente do que o "Gradiente de Sumários Diversificados Negativos", utilizado pelo sistema LegalSumm. Na segunda questão de pesquisa, que investigou o impacto de modelos pré-treinados para um idioma e domínio específico na ALDS para a língua portuguesa, concluiu-se que os modelos especializados, como LegalBert-PT e Bertimbau, apresentaram melhores resultados em comparação com modelos multilíngues e de domínio geral, especialmente para textos menores. Na terceira questão, que avaliou o desempenho dos LLMs, os experimentos indicaram que o CLSJUR.BR teve maior dificuldade em sumarizar textos longos em comparação com os LLMs da série GPT, mas superou-os na sumarização de textos curtos. Na avaliação qualitativa, o CLSJUR.BR foi o mais bem avaliado pelo avaliador LLM, confirmando a superioridade da técnica de "Gradiente de Sumários Diversificados Positivos". Além disso, os sumários avaliados por humanos mostraram uma moderada variação em relação à avaliação do LLM, com quatro dos seis sumários avaliados pelos especialistas convergindo com as análises do LLM. Além da principal contribuição que foi o desenvolvimento de um modelo de ALDS para o domínio jurídico brasileiro, utilizando diversas técnicas de Aprendizagem Contrastiva. esta pesquisa apresenta as seguintes contribuições: um estudo comparativo de sumarizadores em diferentes cenários, variando o uso de modelos de linguagem pré-treinados, incluindo modelos multilíngues, especializados em português e adaptados ao domínio legal; experimentos exploratórios com LLMs e estratégias de prompts; e uma abordagem para avaliação qualitativa dos sumários gerados, com avaliadores humanos e não-humanos (LLMs), para identificar lacunas e sugerir melhorias nas técnicas e modelos empregados. Entre as limitações do estudo, destacam-se as restrições relacionadas aos modelos de linguagem, custos de treinamento, e limitações do corpus e avaliadores humanos. Futuras extensões sugerem refinamentos nos LLMs, experimentos com outros LLMs e estratégias de prompts; consideração da factualidade e das entidades nomeadas (NER) no modelo proposto; e buscas por novos corpora jurídicos em português. Palavras-chave: Sumarização Automática de Textos. Documentos Jurídicos. Documentos Legais. Modelos de Linguagem. Aprendizagem Contrastiva. Reference-free Evaluation. |
| id |
UFOR_06fcf4203b912c03e851559fcb8d51a5 |
|---|---|
| oai_identifier_str |
oai::593605 |
| network_acronym_str |
UFOR |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UNIFOR |
| repository_id_str |
|
| spelling |
CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastivaDocumentoscopiaAprendizagem de máquinaLinguagem jurídicaO crescente interesse por sumarização automática de documentos legais (em inglês, Automatic Legal Document Summarization - ALDS) tem atraído a atenção de pesquisadores em Processamento de Linguagem Natural (PLN), especialmente devido às particularidades dos textos jurídicos, que se distinguem por sua natureza técnica, vocabulário especializado e maior extensão. Este trabalho explorou amplamente tanto as abordagens extrativas quanto abstrativas para a sumarização de documentos legais, destacando as técnicas mais relevantes aplicadas nesse contexto. Devido à estrutura formal e ao vocabulário técnico dos documentos legais, os melhores desempenhos observados indicaram a eficácia da Aprendizagem Contrastiva, com ênfase na geração de sumários Diversificados Negativos ou falsos durante o treinamento dos modelos. Como avanço científico, este estudo propõe o modelo CLSJUR.BR, uma abordagem de sumarização abstrativa automática de documentos legais em português, que incorpora a técnica de Aprendizagem Contrastiva que gera sumários Diversificados Positivos a partir da diversificação proporcionada pelo Diverse Beam Search, ainda inédita na tarefa de ALDS. O modelo é estruturado em dois estágios principais: "Geração de Sumários Candidatos", onde múltiplos sumários diversificados são gerados, e "Avaliação de Sumários e Eleição do Sumário Final", onde os sumários são avaliados sem a necessidade de sumários de referência (reference-free evaluation). O modelo foi treinado e avaliado com base em modelos prétreinados, incluindo versões multilíngues e especializadas no domínio legal e em português, e no conjunto de dados RulingBR, composto por decisões judiciais de um tribunal superior do Sistema Jurídico Brasileiro, e comparado com sistemas de referência através de métricas como ROUGE, BERTScore e AlingScore. A avaliação experimental abordou as questões de pesquisa que orientaram a investigação. Na primeira questão de pesquisa, que analisou a contribuição de métodos alternativos de Aprendizagem Contrastiva para o desempenho de sistemas ALDS, os resultados mostraram que o método de "Gradiente de Sumários Diversificados Positivos" foi mais eficiente do que o "Gradiente de Sumários Diversificados Negativos", utilizado pelo sistema LegalSumm. Na segunda questão de pesquisa, que investigou o impacto de modelos pré-treinados para um idioma e domínio específico na ALDS para a língua portuguesa, concluiu-se que os modelos especializados, como LegalBert-PT e Bertimbau, apresentaram melhores resultados em comparação com modelos multilíngues e de domínio geral, especialmente para textos menores. Na terceira questão, que avaliou o desempenho dos LLMs, os experimentos indicaram que o CLSJUR.BR teve maior dificuldade em sumarizar textos longos em comparação com os LLMs da série GPT, mas superou-os na sumarização de textos curtos. Na avaliação qualitativa, o CLSJUR.BR foi o mais bem avaliado pelo avaliador LLM, confirmando a superioridade da técnica de "Gradiente de Sumários Diversificados Positivos". Além disso, os sumários avaliados por humanos mostraram uma moderada variação em relação à avaliação do LLM, com quatro dos seis sumários avaliados pelos especialistas convergindo com as análises do LLM. Além da principal contribuição que foi o desenvolvimento de um modelo de ALDS para o domínio jurídico brasileiro, utilizando diversas técnicas de Aprendizagem Contrastiva. esta pesquisa apresenta as seguintes contribuições: um estudo comparativo de sumarizadores em diferentes cenários, variando o uso de modelos de linguagem pré-treinados, incluindo modelos multilíngues, especializados em português e adaptados ao domínio legal; experimentos exploratórios com LLMs e estratégias de prompts; e uma abordagem para avaliação qualitativa dos sumários gerados, com avaliadores humanos e não-humanos (LLMs), para identificar lacunas e sugerir melhorias nas técnicas e modelos empregados. Entre as limitações do estudo, destacam-se as restrições relacionadas aos modelos de linguagem, custos de treinamento, e limitações do corpus e avaliadores humanos. Futuras extensões sugerem refinamentos nos LLMs, experimentos com outros LLMs e estratégias de prompts; consideração da factualidade e das entidades nomeadas (NER) no modelo proposto; e buscas por novos corpora jurídicos em português. Palavras-chave: Sumarização Automática de Textos. Documentos Jurídicos. Documentos Legais. Modelos de Linguagem. Aprendizagem Contrastiva. Reference-free Evaluation.The growing interest in Automatic Legal Document Summarization (ALDS) has attracted the attention of researchers in Natural Language Processing (NLP), especially due to the particularities of legal texts, which are characterized by their technical nature, specialized vocabulary, and greater length. This work extensively explored both extractive and abstractive approaches to legal document summarization, highlighting the most relevant techniques applied in this context. Due to the formal structure and technical vocabulary of legal documents, the best performance results indicated the effectiveness of Contrastive Learning, with an emphasis on generating negative or false summaries during the training of models. As a scientific advancement, this study proposes the CLSJUR.BR model, an abstractive automatic summarization approach for legal documents in Portuguese, which incorporates the Contrastive Learning technique that generates positive summaries through diversification provided by Diverse Beam Search, a method that has not yet been applied in ALDS. The model is structured in two main stages: "Candidate Summary Generation," where multiple diversified summaries are generated, and "Summary Evaluation and Final Summary Selection," where the summaries are evaluated without the need for reference summaries (reference-free evaluation). The model was trained and evaluated using pre-trained models, including multilingual and legal-domain-specific versions, and the RulingBR dataset, which consists of judicial decisions from a higher court in the Brazilian Legal System. It was compared with reference systems through metrics such as ROUGE, BERTScore, and AlingScore. The experimental evaluation addressed the research questions that guided the investigation. The first research question, which analyzed the contribution of alternative Contrastive Learning methods to the performance of ALDS systems, showed that the "Positive Summary Gradient" method was more efficient than the "Negative Summary Gradient" used by the LegalSumm system. The second research question, which investigated the impact of pre-trained models for a specific language and domain in ALDS for Portuguese, concluded that specialized models such as LegalBert-PT and Bertimbau outperformed multilingual and general-domain models, especially for shorter texts. The third research question, which evaluated the performance of LLMs, indicated that CLSJUR.BR had more difficulty summarizing long texts compared to GPT-series LLMs, but outperformed them in summarizing shorter texts. In the qualitative evaluation, CLSJUR.BR was the highest rated by the LLM evaluator, confirming the superiority of the "Positive Summary Gradient" technique. Additionally, human-evaluated summaries showed moderate variation compared to the LLM evaluation, with four out of six summaries evaluated by experts converging with the LLM analysis. In addition to the main contribution, which was the development of an ALDS model for the Brazilian legal domain using various Contrastive Learning techniques, this research presents the following contributions: a comparative study of summarizers in different scenarios, varying the use of pre-trained language models, including multilingual, Portuguese-specialized, and legal-domain-adapted models; exploratory experiments with LLMs and prompt strategies; and an approach to the qualitative evaluation of generated summaries, with human and nonhuman (LLM) evaluators, to identify gaps and suggest improvements in the techniques and models used. Limitations of the study include restrictions related to language models, training costs, and limitations of the corpus and human evaluators. Future extensions suggest refinements in LLMs, experiments with other LLMs and prompt strategies; consideration of factuality and named entities (NER) in the proposed model; and searches for new legal corpora in Portuguese. Keywords: Automatic Text Summarization, Legal Documents, Language Models, Contrastive Learning, Reference-free Evaluation.A Tese foi enviada com autorização e certificação via CI 39980/25 em 07/07/2025.Pinheiro, Vladia Celia MonteiroMoreira, Viviane PereiraCarvalho, Aline Marina PaesFurtado, João José Vasco PeixotoMonteiro Neto, João AraújoUniversidade de Fortaleza. Programa de Pós-Graduação em Informática AplicadaLins, Alex Aguiar2025info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdf225f.https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/593605https://uol.unifor.br/auth-sophia/exibicao/43467porreponame:Biblioteca Digital de Teses e Dissertações da UNIFORinstname:Universidade de Fortaleza (UNIFOR)instacron:UNIFORinfo:eu-repo/semantics/openAccess2025-07-07T14:28:12Zoai::593605Biblioteca Digital de Teses e Dissertaçõeshttps://www.unifor.br/bdtdONGhttp://dspace.unifor.br/oai/requestbib@unifor.br||bib@unifor.bropendoar:2025-07-07T14:28:12Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)false |
| dc.title.none.fl_str_mv |
CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastiva |
| title |
CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastiva |
| spellingShingle |
CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastiva Lins, Alex Aguiar Documentoscopia Aprendizagem de máquina Linguagem jurídica |
| title_short |
CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastiva |
| title_full |
CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastiva |
| title_fullStr |
CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastiva |
| title_full_unstemmed |
CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastiva |
| title_sort |
CLSJUR.BR - um modelo para sumarização abstrativa de documentos legais em língua portuguesa baseado em aprendizagem contrastiva |
| author |
Lins, Alex Aguiar |
| author_facet |
Lins, Alex Aguiar |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Pinheiro, Vladia Celia Monteiro Moreira, Viviane Pereira Carvalho, Aline Marina Paes Furtado, João José Vasco Peixoto Monteiro Neto, João Araújo Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada |
| dc.contributor.author.fl_str_mv |
Lins, Alex Aguiar |
| dc.subject.por.fl_str_mv |
Documentoscopia Aprendizagem de máquina Linguagem jurídica |
| topic |
Documentoscopia Aprendizagem de máquina Linguagem jurídica |
| description |
O crescente interesse por sumarização automática de documentos legais (em inglês, Automatic Legal Document Summarization - ALDS) tem atraído a atenção de pesquisadores em Processamento de Linguagem Natural (PLN), especialmente devido às particularidades dos textos jurídicos, que se distinguem por sua natureza técnica, vocabulário especializado e maior extensão. Este trabalho explorou amplamente tanto as abordagens extrativas quanto abstrativas para a sumarização de documentos legais, destacando as técnicas mais relevantes aplicadas nesse contexto. Devido à estrutura formal e ao vocabulário técnico dos documentos legais, os melhores desempenhos observados indicaram a eficácia da Aprendizagem Contrastiva, com ênfase na geração de sumários Diversificados Negativos ou falsos durante o treinamento dos modelos. Como avanço científico, este estudo propõe o modelo CLSJUR.BR, uma abordagem de sumarização abstrativa automática de documentos legais em português, que incorpora a técnica de Aprendizagem Contrastiva que gera sumários Diversificados Positivos a partir da diversificação proporcionada pelo Diverse Beam Search, ainda inédita na tarefa de ALDS. O modelo é estruturado em dois estágios principais: "Geração de Sumários Candidatos", onde múltiplos sumários diversificados são gerados, e "Avaliação de Sumários e Eleição do Sumário Final", onde os sumários são avaliados sem a necessidade de sumários de referência (reference-free evaluation). O modelo foi treinado e avaliado com base em modelos prétreinados, incluindo versões multilíngues e especializadas no domínio legal e em português, e no conjunto de dados RulingBR, composto por decisões judiciais de um tribunal superior do Sistema Jurídico Brasileiro, e comparado com sistemas de referência através de métricas como ROUGE, BERTScore e AlingScore. A avaliação experimental abordou as questões de pesquisa que orientaram a investigação. Na primeira questão de pesquisa, que analisou a contribuição de métodos alternativos de Aprendizagem Contrastiva para o desempenho de sistemas ALDS, os resultados mostraram que o método de "Gradiente de Sumários Diversificados Positivos" foi mais eficiente do que o "Gradiente de Sumários Diversificados Negativos", utilizado pelo sistema LegalSumm. Na segunda questão de pesquisa, que investigou o impacto de modelos pré-treinados para um idioma e domínio específico na ALDS para a língua portuguesa, concluiu-se que os modelos especializados, como LegalBert-PT e Bertimbau, apresentaram melhores resultados em comparação com modelos multilíngues e de domínio geral, especialmente para textos menores. Na terceira questão, que avaliou o desempenho dos LLMs, os experimentos indicaram que o CLSJUR.BR teve maior dificuldade em sumarizar textos longos em comparação com os LLMs da série GPT, mas superou-os na sumarização de textos curtos. Na avaliação qualitativa, o CLSJUR.BR foi o mais bem avaliado pelo avaliador LLM, confirmando a superioridade da técnica de "Gradiente de Sumários Diversificados Positivos". Além disso, os sumários avaliados por humanos mostraram uma moderada variação em relação à avaliação do LLM, com quatro dos seis sumários avaliados pelos especialistas convergindo com as análises do LLM. Além da principal contribuição que foi o desenvolvimento de um modelo de ALDS para o domínio jurídico brasileiro, utilizando diversas técnicas de Aprendizagem Contrastiva. esta pesquisa apresenta as seguintes contribuições: um estudo comparativo de sumarizadores em diferentes cenários, variando o uso de modelos de linguagem pré-treinados, incluindo modelos multilíngues, especializados em português e adaptados ao domínio legal; experimentos exploratórios com LLMs e estratégias de prompts; e uma abordagem para avaliação qualitativa dos sumários gerados, com avaliadores humanos e não-humanos (LLMs), para identificar lacunas e sugerir melhorias nas técnicas e modelos empregados. Entre as limitações do estudo, destacam-se as restrições relacionadas aos modelos de linguagem, custos de treinamento, e limitações do corpus e avaliadores humanos. Futuras extensões sugerem refinamentos nos LLMs, experimentos com outros LLMs e estratégias de prompts; consideração da factualidade e das entidades nomeadas (NER) no modelo proposto; e buscas por novos corpora jurídicos em português. Palavras-chave: Sumarização Automática de Textos. Documentos Jurídicos. Documentos Legais. Modelos de Linguagem. Aprendizagem Contrastiva. Reference-free Evaluation. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/593605 |
| url |
https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/593605 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
https://uol.unifor.br/auth-sophia/exibicao/43467 |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf 225f. |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR instname:Universidade de Fortaleza (UNIFOR) instacron:UNIFOR |
| instname_str |
Universidade de Fortaleza (UNIFOR) |
| instacron_str |
UNIFOR |
| institution |
UNIFOR |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UNIFOR |
| collection |
Biblioteca Digital de Teses e Dissertações da UNIFOR |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR) |
| repository.mail.fl_str_mv |
bib@unifor.br||bib@unifor.br |
| _version_ |
1846365347468279808 |