Agrupamento e categorização de documentos jurídicos

Furquim, Luis Otávio de Colla

Agrupamento e categorização de documentos jurídicos

Detalhes bibliográficos
Ano de defesa:	2011
Autor(a) principal:	Furquim, Luis Otávio de Colla
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informáca BR PUCRS Programa de Pós-Graduação em Ciência da Computação
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	INFORMÁTICA PROCESSAMENTO DE TEXTOS (COMPUTAÇÃO) CATEGORIZAÇÃO (LINGUÍSTICA) ALGORITMOS (PROGRAMAÇÃO) CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Link de acesso:	http://tede2.pucrs.br/tede2/handle/tede/5181
Resumo:	Este trabalho estuda a aplicação de técnicas de aprendizado de máquina (agrupamento e classificação) à pesquisa de jurisprudência, no âmbito do processo judicial eletrônico. Discute e implementa alternativas para o agrupamento dos documentos da jurisprudência, gerando automaticamente classes que servem ao posterior processo de categorização dos documentos anexados ao processo jurídico. O algoritmo TClus de Aggarwal, Gates e Yu é selecionado para desenvolvimento de exemplo de uso, com propostas de alteração no descarte de documentos e grupos, e passando a incluir a divisão de grupos. A proposta ainda introduz um paradigma "bag of terms and law references"em lugar do "bag of words", quando utiliza, na geração dos atributos, os tesauros do Senado Federal e da Justiça Federal para detectar termos jurídicos nos documentos e expressões regulares para detectar referências legislativas. No exemplo de uso, empregam-se documentos oriundos da jurisprudência do Tribunal Regional Federal da 4a Região. Os resultados dos agrupamentos foram avaliados pelas medidas Relative Hardness e p- e submetidos aos testes de significância de Wilcoxon e contagem de vitórias e derrotas. Os resultados da categorização foram avaliados por avaliadores humanos. A discussão e análise desses resultados abrangeu a comparação do sucesso e falha na classificação em relação à similaridade do documento com o centróide no momento da categorização, à quantidade de documentos nos grupos, à quantidade e tipo de atributos nos centróides e à coesão dos grupos. Discute-se, ainda, a geração dos atributos e suas implicações nos resultados da classificação. Contribuições deste estudo: confirmação da possibilidade de uso do aprendizado de máquina na pesquisa jurisprudencial, evolução do algoritmo TClus ao eliminar os descartes de documentos e grupos e ao implementar a divisão de grupos, proposta de novo paradigma bag of terms and law references, através de prototipação do processo proposto com exemplo de uso e avaliações automáticas na fase de clustering, e por especialista humano na fase de categorização.

Metadados do item

id	P_RS_f16c175c7dd2e8d07b8068ff920fede6
oai_identifier_str	oai:tede2.pucrs.br:tede/5181
network_acronym_str	P_RS
network_name_str	Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling	Agrupamento e categorização de documentos jurídicosINFORMÁTICAPROCESSAMENTO DE TEXTOS (COMPUTAÇÃO)CATEGORIZAÇÃO (LINGUÍSTICA)ALGORITMOS (PROGRAMAÇÃO)CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOEste trabalho estuda a aplicação de técnicas de aprendizado de máquina (agrupamento e classificação) à pesquisa de jurisprudência, no âmbito do processo judicial eletrônico. Discute e implementa alternativas para o agrupamento dos documentos da jurisprudência, gerando automaticamente classes que servem ao posterior processo de categorização dos documentos anexados ao processo jurídico. O algoritmo TClus de Aggarwal, Gates e Yu é selecionado para desenvolvimento de exemplo de uso, com propostas de alteração no descarte de documentos e grupos, e passando a incluir a divisão de grupos. A proposta ainda introduz um paradigma "bag of terms and law references"em lugar do "bag of words", quando utiliza, na geração dos atributos, os tesauros do Senado Federal e da Justiça Federal para detectar termos jurídicos nos documentos e expressões regulares para detectar referências legislativas. No exemplo de uso, empregam-se documentos oriundos da jurisprudência do Tribunal Regional Federal da 4a Região. Os resultados dos agrupamentos foram avaliados pelas medidas Relative Hardness e p- e submetidos aos testes de significância de Wilcoxon e contagem de vitórias e derrotas. Os resultados da categorização foram avaliados por avaliadores humanos. A discussão e análise desses resultados abrangeu a comparação do sucesso e falha na classificação em relação à similaridade do documento com o centróide no momento da categorização, à quantidade de documentos nos grupos, à quantidade e tipo de atributos nos centróides e à coesão dos grupos. Discute-se, ainda, a geração dos atributos e suas implicações nos resultados da classificação. Contribuições deste estudo: confirmação da possibilidade de uso do aprendizado de máquina na pesquisa jurisprudencial, evolução do algoritmo TClus ao eliminar os descartes de documentos e grupos e ao implementar a divisão de grupos, proposta de novo paradigma bag of terms and law references, através de prototipação do processo proposto com exemplo de uso e avaliações automáticas na fase de clustering, e por especialista humano na fase de categorização.In this work we study the use of machine learning (clustering and classification) in judicial decisions search under electronic legal proceedings. We discuss and develop alternatives for precedent clustering, automatically generating classes to use to categorize when a user attaches new documents to its electronic legal proceeding. A changed version of the algorithm TClus, authored by Aggarwal, Gates and Yu was selected to be the use example, we propose removing its document and cluster discarding features and adding a cluster division feature. We introduce here a new paradigm bag of terms and law references instead of bag of words by generating attributes using two thesauri from the Brazilian Federal Senate and the Brazilian Federal Justice to detect legal terms a regular expressions to detect law references. In our use example, we build a corpus with precedents of the 4th Region s Federal Court. The clustering results were evaluated with the Relative Hardness Measure and the p-Measure which were then tested with Wilcoxon s Signed-ranks Test and the Count of Wins and Losses Test to determine its significance. The categorization results were evaluated by human specialists. The analysis and discussion of these results covered comparations of true/false positives against document similarity with the centroid, quantity of documents in the clusters, quantity and type of the attributes in the centroids e cluster cohesion. We also discuss attribute generation and its implications in the classification results. Contributions in this work: we confirmed that it is possible to use machine learning techniques in judicial decisions search, we developed an evolution of the TClus algorithm by removing its document and group discarding features and creating a group division feature, we proposed a new paradigm called bag of terms and law references evaluated by a prototype of the proposed process in a use case and automatic evaluation in the clustering phase and a human specialist evaluation in the categorization phase.Pontifícia Universidade Católica do Rio Grande do SulFaculdade de InformácaBRPUCRSPrograma de Pós-Graduação em Ciência da ComputaçãoLima, Vera Lúcia Strube dehttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4781127A8Furquim, Luis Otávio de Colla2015-04-14T14:49:50Z2012-06-292011-03-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfFURQUIM, Luis Otávio de Colla. Agrupamento e categorização de documentos jurídicos. 2011. 146 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2011.http://tede2.pucrs.br/tede2/handle/tede/5181porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RS2015-04-30T11:15:44Zoai:tede2.pucrs.br:tede/5181Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br\|\|opendoar:2015-04-30T11:15:44Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.none.fl_str_mv	Agrupamento e categorização de documentos jurídicos
title	Agrupamento e categorização de documentos jurídicos
spellingShingle	Agrupamento e categorização de documentos jurídicos Furquim, Luis Otávio de Colla INFORMÁTICA PROCESSAMENTO DE TEXTOS (COMPUTAÇÃO) CATEGORIZAÇÃO (LINGUÍSTICA) ALGORITMOS (PROGRAMAÇÃO) CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short	Agrupamento e categorização de documentos jurídicos
title_full	Agrupamento e categorização de documentos jurídicos
title_fullStr	Agrupamento e categorização de documentos jurídicos
title_full_unstemmed	Agrupamento e categorização de documentos jurídicos
title_sort	Agrupamento e categorização de documentos jurídicos
author	Furquim, Luis Otávio de Colla
author_facet	Furquim, Luis Otávio de Colla
author_role	author
dc.contributor.none.fl_str_mv	Lima, Vera Lúcia Strube de http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4781127A8
dc.contributor.author.fl_str_mv	Furquim, Luis Otávio de Colla
dc.subject.por.fl_str_mv	INFORMÁTICA PROCESSAMENTO DE TEXTOS (COMPUTAÇÃO) CATEGORIZAÇÃO (LINGUÍSTICA) ALGORITMOS (PROGRAMAÇÃO) CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic	INFORMÁTICA PROCESSAMENTO DE TEXTOS (COMPUTAÇÃO) CATEGORIZAÇÃO (LINGUÍSTICA) ALGORITMOS (PROGRAMAÇÃO) CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description	Este trabalho estuda a aplicação de técnicas de aprendizado de máquina (agrupamento e classificação) à pesquisa de jurisprudência, no âmbito do processo judicial eletrônico. Discute e implementa alternativas para o agrupamento dos documentos da jurisprudência, gerando automaticamente classes que servem ao posterior processo de categorização dos documentos anexados ao processo jurídico. O algoritmo TClus de Aggarwal, Gates e Yu é selecionado para desenvolvimento de exemplo de uso, com propostas de alteração no descarte de documentos e grupos, e passando a incluir a divisão de grupos. A proposta ainda introduz um paradigma "bag of terms and law references"em lugar do "bag of words", quando utiliza, na geração dos atributos, os tesauros do Senado Federal e da Justiça Federal para detectar termos jurídicos nos documentos e expressões regulares para detectar referências legislativas. No exemplo de uso, empregam-se documentos oriundos da jurisprudência do Tribunal Regional Federal da 4a Região. Os resultados dos agrupamentos foram avaliados pelas medidas Relative Hardness e p- e submetidos aos testes de significância de Wilcoxon e contagem de vitórias e derrotas. Os resultados da categorização foram avaliados por avaliadores humanos. A discussão e análise desses resultados abrangeu a comparação do sucesso e falha na classificação em relação à similaridade do documento com o centróide no momento da categorização, à quantidade de documentos nos grupos, à quantidade e tipo de atributos nos centróides e à coesão dos grupos. Discute-se, ainda, a geração dos atributos e suas implicações nos resultados da classificação. Contribuições deste estudo: confirmação da possibilidade de uso do aprendizado de máquina na pesquisa jurisprudencial, evolução do algoritmo TClus ao eliminar os descartes de documentos e grupos e ao implementar a divisão de grupos, proposta de novo paradigma bag of terms and law references, através de prototipação do processo proposto com exemplo de uso e avaliações automáticas na fase de clustering, e por especialista humano na fase de categorização.
publishDate	2011
dc.date.none.fl_str_mv	2011-03-25 2012-06-29 2015-04-14T14:49:50Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	FURQUIM, Luis Otávio de Colla. Agrupamento e categorização de documentos jurídicos. 2011. 146 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2011. http://tede2.pucrs.br/tede2/handle/tede/5181
identifier_str_mv	FURQUIM, Luis Otávio de Colla. Agrupamento e categorização de documentos jurídicos. 2011. 146 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2011.
url	http://tede2.pucrs.br/tede2/handle/tede/5181
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informáca BR PUCRS Programa de Pós-Graduação em Ciência da Computação
publisher.none.fl_str_mv	Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informáca BR PUCRS Programa de Pós-Graduação em Ciência da Computação
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS
instname_str	Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str	PUC_RS
institution	PUC_RS
reponame_str	Biblioteca Digital de Teses e Dissertações da PUC_RS
collection	Biblioteca Digital de Teses e Dissertações da PUC_RS
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv	biblioteca.central@pucrs.br\|\|
_version_	1850041267023511552

Agrupamento e categorização de documentos jurídicos

Registros relacionados