Um modelo de classificação multiclasse de processos judiciais em língua portuguesa

Aguiar, André Wescley Oliveira de

Um modelo de classificação multiclasse de processos judiciais em língua portuguesa

Detalhes bibliográficos
Ano de defesa:	2023
Autor(a) principal:	Aguiar, André Wescley Oliveira de
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Linguagem de programação Informática - Aspectos jurídicos Direito e tecnologia
Link de acesso:	https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/583405
Resumo:	Recentemente, o Conselho Nacional de Justiça (CNJ) destacou a importância de soluções robustas para realizar a classificação automatizada de processos judiciais. A correta classificação do processo judicial melhora substancialmente a assertividade de (i) distribuição, (ii) organização da agenda de audiências e sessões, (iii) classificação de medidas urgentes e provas, (iv) identificação de prescrição e (v) prevenção. Este trabalho investiga diferentes métodos de classificação de textos e diferentes combinações de embeddings, extraídos de modelos de língua portuguesa, e informações sobre legislação citadas nos documentos iniciais. Os modelos foram treinados com uma Coleção Dourada composta por 16 mil petições iniciais e indiciamentos do Tribunal de Justiça do Estado do Ceará, no Brasil, cujos processos foram classificados nas cinco classes mais representativas do CNJ - Processo Civil Comum, Execução de Título Extrajudicial, Ação Criminal - Processo Ordinário, Processo Civil Especial e Execução Fiscal. Nosso melhor resultado foi obtido pelo modelo BERT, alcançando 0,88 de F1-score (macro), no cenário do experimento que representa a ação em um embedding formado pela concatenação dos textos de todas as petições que contenham pelo menos uma citação a uma legislação. Os documentos jurídicos têm características específicas, como documentos longos, vocabulário especializado, sintaxe formal, semântica baseada em um amplo domínio específico de conhecimento e citações de leis. Nossa interpretação é que a representação do documento por meio de embeddings contextuais gerados pelo BERT, assim como a arquitetura do modelo com contextos bidirecionais, possibilita a captura do contexto específico do domínio dos documentos jurídicos. Palavras-chave: Classificação de Textos, Domínio Jurídico, Processos Judiciais Brasileiros, Modelos de Linguagem.

Metadados do item

id	UFOR_26467141b90bfe2efc5f762d2630b585
oai_identifier_str	oai::583405
network_acronym_str	UFOR
network_name_str	Biblioteca Digital de Teses e Dissertações da UNIFOR
repository_id_str
spelling	Um modelo de classificação multiclasse de processos judiciais em língua portuguesaLinguagem de programaçãoInformática - Aspectos jurídicosDireito e tecnologiaRecentemente, o Conselho Nacional de Justiça (CNJ) destacou a importância de soluções robustas para realizar a classificação automatizada de processos judiciais. A correta classificação do processo judicial melhora substancialmente a assertividade de (i) distribuição, (ii) organização da agenda de audiências e sessões, (iii) classificação de medidas urgentes e provas, (iv) identificação de prescrição e (v) prevenção. Este trabalho investiga diferentes métodos de classificação de textos e diferentes combinações de embeddings, extraídos de modelos de língua portuguesa, e informações sobre legislação citadas nos documentos iniciais. Os modelos foram treinados com uma Coleção Dourada composta por 16 mil petições iniciais e indiciamentos do Tribunal de Justiça do Estado do Ceará, no Brasil, cujos processos foram classificados nas cinco classes mais representativas do CNJ - Processo Civil Comum, Execução de Título Extrajudicial, Ação Criminal - Processo Ordinário, Processo Civil Especial e Execução Fiscal. Nosso melhor resultado foi obtido pelo modelo BERT, alcançando 0,88 de F1-score (macro), no cenário do experimento que representa a ação em um embedding formado pela concatenação dos textos de todas as petições que contenham pelo menos uma citação a uma legislação. Os documentos jurídicos têm características específicas, como documentos longos, vocabulário especializado, sintaxe formal, semântica baseada em um amplo domínio específico de conhecimento e citações de leis. Nossa interpretação é que a representação do documento por meio de embeddings contextuais gerados pelo BERT, assim como a arquitetura do modelo com contextos bidirecionais, possibilita a captura do contexto específico do domínio dos documentos jurídicos. Palavras-chave: Classificação de Textos, Domínio Jurídico, Processos Judiciais Brasileiros, Modelos de Linguagem.Recently, Brazil’s National Council of Justice (CNJ) highlighted the importance of robust solutions to perform automated lawsuit classification. A correct lawsuit classification substantially improves the assertiveness of (i) distribution, (ii) organization of the agenda of court hearing and sessions, (iii) classification of urgent measures and evidence, (iv) identification of prescription and (v) prevention. This paper investigates different text classification methods and different combinations of embeddings, extracted from Portuguese language models, and information about legislation cited in the initial documents. The models were trained with a Golden Collection of 16 thousand initial petitions and indictments from the Court of Justice of the State of Ceará, in Brazil, whose lawsuits were classified in the five more representative CNJ’s classes - Common Civil Procedure, Execution of Extrajudicial Title, Criminal Action - Ordinary Procedure, Special Civil Court Procedure, and Tax Enforcement. Our best result was obtained by the BERT model, achieving 0.88 of F1-score (macro), in the experiment scenario that represents the lawsuit in an embedding formed by concatenating the texts of all the petitions that contain at least one citation to one legislation. Legal documents have specific characteristics such as long documents, specialized vocabulary, formal syntax, semantics based on a broad specific domain of knowledge, and citations to laws. Our interpretation is that the representation of the document through contextual embeddings generated by BERT, as well as the architecture of the model with bidirectional contexts, makes it possible to capture the specific context of the domain of legal documents. Keywords: Text Classification, Legal Domain, Brazilian Lawsuits, Language ModelsA Dissertação foi enviada com autorização e certificação via CI 18056/24 em 21/03/2024.Pinheiro, Vladia Celia MonteiroCaminha Neto, Carlos de OliveiraSilveira, Francisca Raquel de VasconcelosUniversidade de Fortaleza. Programa de Pós-Graduação em Informática AplicadaAguiar, André Wescley Oliveira de2023info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf55f.https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/583405https://uol.unifor.br/auth-sophia/exibicao/34687porreponame:Biblioteca Digital de Teses e Dissertações da UNIFORinstname:Universidade de Fortaleza (UNIFOR)instacron:UNIFORinfo:eu-repo/semantics/openAccess2024-03-26T19:14:21Zoai::583405Biblioteca Digital de Teses e Dissertaçõeshttps://www.unifor.br/bdtdONGhttp://dspace.unifor.br/oai/requestbib@unifor.br\|\|bib@unifor.bropendoar:2024-03-26T19:14:21Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)false
dc.title.none.fl_str_mv	Um modelo de classificação multiclasse de processos judiciais em língua portuguesa
title	Um modelo de classificação multiclasse de processos judiciais em língua portuguesa
spellingShingle	Um modelo de classificação multiclasse de processos judiciais em língua portuguesa Aguiar, André Wescley Oliveira de Linguagem de programação Informática - Aspectos jurídicos Direito e tecnologia
title_short	Um modelo de classificação multiclasse de processos judiciais em língua portuguesa
title_full	Um modelo de classificação multiclasse de processos judiciais em língua portuguesa
title_fullStr	Um modelo de classificação multiclasse de processos judiciais em língua portuguesa
title_full_unstemmed	Um modelo de classificação multiclasse de processos judiciais em língua portuguesa
title_sort	Um modelo de classificação multiclasse de processos judiciais em língua portuguesa
author	Aguiar, André Wescley Oliveira de
author_facet	Aguiar, André Wescley Oliveira de
author_role	author
dc.contributor.none.fl_str_mv	Pinheiro, Vladia Celia Monteiro Caminha Neto, Carlos de Oliveira Silveira, Francisca Raquel de Vasconcelos Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
dc.contributor.author.fl_str_mv	Aguiar, André Wescley Oliveira de
dc.subject.por.fl_str_mv	Linguagem de programação Informática - Aspectos jurídicos Direito e tecnologia
topic	Linguagem de programação Informática - Aspectos jurídicos Direito e tecnologia
description	Recentemente, o Conselho Nacional de Justiça (CNJ) destacou a importância de soluções robustas para realizar a classificação automatizada de processos judiciais. A correta classificação do processo judicial melhora substancialmente a assertividade de (i) distribuição, (ii) organização da agenda de audiências e sessões, (iii) classificação de medidas urgentes e provas, (iv) identificação de prescrição e (v) prevenção. Este trabalho investiga diferentes métodos de classificação de textos e diferentes combinações de embeddings, extraídos de modelos de língua portuguesa, e informações sobre legislação citadas nos documentos iniciais. Os modelos foram treinados com uma Coleção Dourada composta por 16 mil petições iniciais e indiciamentos do Tribunal de Justiça do Estado do Ceará, no Brasil, cujos processos foram classificados nas cinco classes mais representativas do CNJ - Processo Civil Comum, Execução de Título Extrajudicial, Ação Criminal - Processo Ordinário, Processo Civil Especial e Execução Fiscal. Nosso melhor resultado foi obtido pelo modelo BERT, alcançando 0,88 de F1-score (macro), no cenário do experimento que representa a ação em um embedding formado pela concatenação dos textos de todas as petições que contenham pelo menos uma citação a uma legislação. Os documentos jurídicos têm características específicas, como documentos longos, vocabulário especializado, sintaxe formal, semântica baseada em um amplo domínio específico de conhecimento e citações de leis. Nossa interpretação é que a representação do documento por meio de embeddings contextuais gerados pelo BERT, assim como a arquitetura do modelo com contextos bidirecionais, possibilita a captura do contexto específico do domínio dos documentos jurídicos. Palavras-chave: Classificação de Textos, Domínio Jurídico, Processos Judiciais Brasileiros, Modelos de Linguagem.
publishDate	2023
dc.date.none.fl_str_mv	2023
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/583405
url	https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/583405
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	https://uol.unifor.br/auth-sophia/exibicao/34687
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf 55f.
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR instname:Universidade de Fortaleza (UNIFOR) instacron:UNIFOR
instname_str	Universidade de Fortaleza (UNIFOR)
instacron_str	UNIFOR
institution	UNIFOR
reponame_str	Biblioteca Digital de Teses e Dissertações da UNIFOR
collection	Biblioteca Digital de Teses e Dissertações da UNIFOR
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)
repository.mail.fl_str_mv	bib@unifor.br\|\|bib@unifor.br
_version_	1846365344140099584

Um modelo de classificação multiclasse de processos judiciais em língua portuguesa

Registros relacionados