Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais

Araújo Neto, Alfredo Silveira

Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais

Detalhes bibliográficos
Ano de defesa:	2015
Autor(a) principal:	Araújo Neto, Alfredo Silveira
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Estadual do Ceará
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Computação aplicada Heurística Mineracao de Dados Otimização combinatória
Link de acesso:	https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=88784
Resumo:	<div style=""><font face="Arial, Verdana"><span style="font-size: 13.3333px;">Os rápidos avanços das tecnologias relacionadas à captura e ao armazenamento de dados </span></font><span style="font-size: 13.3333px; font-family: Arial, Verdana;">em formato digital têm permitido às organizações o acúmulo de um volume de informações </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">extremamente elevado, constituído em maior proporção por dados em formato não estruturado, </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">representados por textos. Neste contexto, a mineração de dados apresenta-se como um processo </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">de descoberta automática que age sobre grandes bancos de dados, que possibilita a extração de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">conhecimento a partir de documentos textuais brutos e que promove um aperfeiçoamento na </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">recuperação de informações relevantes por parte das organizações. Dentre as inúmeras fontes de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">documentos textuais, disponíveis em meio digital, encontram-se os diários de justiça eletrônicos, </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">que têm como propósito tornar públicos de modo oficial todos os atos do Poder Judiciário. Não </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">obstante a publicação em formato digital tenha proporcionado melhorias representadas pela </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">supressão de imperfeições pertinentes à divulgação em formato impresso, verifica-se que a </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">aplicação de métodos de mineração de dados, capazes de classificar os atos processuais sem a </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">interferência humana, poderia tornar mais célere a análise dos seus conteúdos. Neste sentido, </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">este trabalho desenvolve uma ferramenta apta a agrupar e categorizar de forma automática atos </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">processuais digitais, e, para este fim, quatro métodos de agrupamento de objetos, utilizando-se de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">três índices de dissimilaridade, foram avaliados. Inicialmente, a atividade de determinação dos </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">grupos foi modelada como um problema de otimização e por intermédio da aplicação dos métodos </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">iterativos pesquisa harmônica, algoritmo genético e K-means os índices de dissimilaridade </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">distância Euclidiana, do Coseno e de Hamming foram avaliados, auferindo-se como o índice </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">de dissimilaridade mais apropriado a distância do Coseno. Em seguida, com o emprego da </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">distância do Coseno, os métodos iterativos pesquisa harmônica, algoritmo genético e K-means </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">foram confrontados entre si, obtendo-se como procedimento mais adequado o algoritmo Kmeans. </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">O método K-means, novamente utilizando-se da distância do Coseno como índice de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">dissimilaridade, foi posteriormente comparado ao algoritmo de passagem única C3M, outra vez </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">se sobressaindo. A despeito do método C3M possuir a característica singular de determinar o </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">número de grupos K, verificou-se que a quantidade de grupos estabelecida pelo mesmo não </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">apresentava a precisão esperada, exigindo por consequência a investigação de outras técnicas </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">capazes de determinar o número de grupos presente em uma coleção de documentos. </span><span style="font-size: 13.3333px;">Palavras-chave: Mineração de Dados. Heurística. Otimização Combinatória. Computação </span><span style="font-size: 13.3333px;">Bioinspirada. Descoberta de Conhecimento.</span></div>

Metadados do item

id	UECE-0_6f614cfa72d992d457e0f8e7a2a5d409
oai_identifier_str	oai:uece.br:88784
network_acronym_str	UECE-0
network_name_str	Repositório Institucional da UECE
repository_id_str
spelling	Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitaisComputação aplicada Heurística Mineracao de Dados Otimização combinatória<div style=""><font face="Arial, Verdana"><span style="font-size: 13.3333px;">Os rápidos avanços das tecnologias relacionadas à captura e ao armazenamento de dados </span></font><span style="font-size: 13.3333px; font-family: Arial, Verdana;">em formato digital têm permitido às organizações o acúmulo de um volume de informações </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">extremamente elevado, constituído em maior proporção por dados em formato não estruturado, </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">representados por textos. Neste contexto, a mineração de dados apresenta-se como um processo </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">de descoberta automática que age sobre grandes bancos de dados, que possibilita a extração de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">conhecimento a partir de documentos textuais brutos e que promove um aperfeiçoamento na </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">recuperação de informações relevantes por parte das organizações. Dentre as inúmeras fontes de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">documentos textuais, disponíveis em meio digital, encontram-se os diários de justiça eletrônicos, </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">que têm como propósito tornar públicos de modo oficial todos os atos do Poder Judiciário. Não </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">obstante a publicação em formato digital tenha proporcionado melhorias representadas pela </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">supressão de imperfeições pertinentes à divulgação em formato impresso, verifica-se que a </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">aplicação de métodos de mineração de dados, capazes de classificar os atos processuais sem a </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">interferência humana, poderia tornar mais célere a análise dos seus conteúdos. Neste sentido, </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">este trabalho desenvolve uma ferramenta apta a agrupar e categorizar de forma automática atos </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">processuais digitais, e, para este fim, quatro métodos de agrupamento de objetos, utilizando-se de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">três índices de dissimilaridade, foram avaliados. Inicialmente, a atividade de determinação dos </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">grupos foi modelada como um problema de otimização e por intermédio da aplicação dos métodos </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">iterativos pesquisa harmônica, algoritmo genético e K-means os índices de dissimilaridade </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">distância Euclidiana, do Coseno e de Hamming foram avaliados, auferindo-se como o índice </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">de dissimilaridade mais apropriado a distância do Coseno. Em seguida, com o emprego da </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">distância do Coseno, os métodos iterativos pesquisa harmônica, algoritmo genético e K-means </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">foram confrontados entre si, obtendo-se como procedimento mais adequado o algoritmo Kmeans. </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">O método K-means, novamente utilizando-se da distância do Coseno como índice de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">dissimilaridade, foi posteriormente comparado ao algoritmo de passagem única C3M, outra vez </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">se sobressaindo. A despeito do método C3M possuir a característica singular de determinar o </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">número de grupos K, verificou-se que a quantidade de grupos estabelecida pelo mesmo não </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">apresentava a precisão esperada, exigindo por consequência a investigação de outras técnicas </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">capazes de determinar o número de grupos presente em uma coleção de documentos. </span><span style="font-size: 13.3333px;">Palavras-chave: Mineração de Dados. Heurística. Otimização Combinatória. Computação </span><span style="font-size: 13.3333px;">Bioinspirada. Descoberta de Conhecimento.</span></div><div style=""><font face="Arial, Verdana"><span style="font-size: 13.3333px;">The rapid advances in technologies related to the capture and storage of data in digital format </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">have allowed to organizations the accumulation of a volume of information extremely high, </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">constituted a higher proportion of data in unstructured format, represented by texts. In this </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">context, data mining is presented as a self-discovery process that acts on large databases, which </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">enables the knowledge extraction from raw text documents, and promoting improved recovery of </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">relevant information by organizations. Among the many sources of textual documents available </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">in digital form, are electronic diaries of justice, which are intended to make public officially all </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">the acts of the Judiciary. Despite the publication in digital form has provided improvements </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">represented by the removal of imperfections related to divulgation at printed format, it is observed </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">that the application of data mining methods, able to classify the procedural acts without human </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">interference, could render more rapid analysis of its contents. Thus, this paper develops a tool </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">able to group and categorize automatically digital procedural acts, and, for this purpose, four </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">methods of grouping objects, using three dissimilarity indexes were evaluated. Initially, the </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">activity of determination of groups was modeled as an optimization problem, and through the </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">application of iterative methods harmonic research, genetic algorithm and K-means, indexes of </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">dissimilarity Euclidean distance, cosine distance and Hamming distance were evaluated, yielding </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">as index dissimilarity most appropriate the distance from Cosine. Then, with employment of </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">the cosine distance, iterative methods harmonic research, genetic algorithm and K-means were </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">compared, obtaining the K-means algorithm as most appropriate procedure. The K-means </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">method, using the cosine distance as dissimilarity index, was subsequently compared to the </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">single pass algorithm C3M, again protruding. Despite the C3M method has the unique feature of </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">determine the number of groups K, it was found that the amount of groups established by it does </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">not showed the expected accuracy, requiring therefore the investigation of other techniques able </span></font><span style="font-size: 13.3333px; font-family: Arial, Verdana;">to determine the number of groups present in a collection of documents. </span><font face="Arial, Verdana" style="font-size: 10pt;"><span style="font-size: 13.3333px;">Keywords: Data Mining. Heuristic. Combinatorial Optimization. Bio-inspired Computing. </span></font><span style="font-size: 13.3333px;">Knowledge Discovery</span></div>Universidade Estadual do CearáMARCOS JOSE NEGREIROS GOMESAraújo Neto, Alfredo Silveira2019-08-06T14:21:35Z2015info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=88784info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UECEinstname:Universidade Estadual do Cearáinstacron:UECE2019-08-06T14:21:35Zoai:uece.br:88784Repositório InstitucionalPUBhttps://siduece.uece.br/siduece/api/oai/requestopendoar:2019-08-06T14:21:35Repositório Institucional da UECE - Universidade Estadual do Cearáfalse
dc.title.none.fl_str_mv	Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais
title	Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais
spellingShingle	Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais Araújo Neto, Alfredo Silveira Computação aplicada Heurística Mineracao de Dados Otimização combinatória
title_short	Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais
title_full	Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais
title_fullStr	Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais
title_full_unstemmed	Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais
title_sort	Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais
author	Araújo Neto, Alfredo Silveira
author_facet	Araújo Neto, Alfredo Silveira
author_role	author
dc.contributor.none.fl_str_mv	MARCOS JOSE NEGREIROS GOMES
dc.contributor.author.fl_str_mv	Araújo Neto, Alfredo Silveira
dc.subject.por.fl_str_mv	Computação aplicada Heurística Mineracao de Dados Otimização combinatória
topic	Computação aplicada Heurística Mineracao de Dados Otimização combinatória
description	<div style=""><font face="Arial, Verdana"><span style="font-size: 13.3333px;">Os rápidos avanços das tecnologias relacionadas à captura e ao armazenamento de dados </span></font><span style="font-size: 13.3333px; font-family: Arial, Verdana;">em formato digital têm permitido às organizações o acúmulo de um volume de informações </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">extremamente elevado, constituído em maior proporção por dados em formato não estruturado, </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">representados por textos. Neste contexto, a mineração de dados apresenta-se como um processo </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">de descoberta automática que age sobre grandes bancos de dados, que possibilita a extração de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">conhecimento a partir de documentos textuais brutos e que promove um aperfeiçoamento na </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">recuperação de informações relevantes por parte das organizações. Dentre as inúmeras fontes de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">documentos textuais, disponíveis em meio digital, encontram-se os diários de justiça eletrônicos, </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">que têm como propósito tornar públicos de modo oficial todos os atos do Poder Judiciário. Não </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">obstante a publicação em formato digital tenha proporcionado melhorias representadas pela </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">supressão de imperfeições pertinentes à divulgação em formato impresso, verifica-se que a </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">aplicação de métodos de mineração de dados, capazes de classificar os atos processuais sem a </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">interferência humana, poderia tornar mais célere a análise dos seus conteúdos. Neste sentido, </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">este trabalho desenvolve uma ferramenta apta a agrupar e categorizar de forma automática atos </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">processuais digitais, e, para este fim, quatro métodos de agrupamento de objetos, utilizando-se de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">três índices de dissimilaridade, foram avaliados. Inicialmente, a atividade de determinação dos </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">grupos foi modelada como um problema de otimização e por intermédio da aplicação dos métodos </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">iterativos pesquisa harmônica, algoritmo genético e K-means os índices de dissimilaridade </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">distância Euclidiana, do Coseno e de Hamming foram avaliados, auferindo-se como o índice </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">de dissimilaridade mais apropriado a distância do Coseno. Em seguida, com o emprego da </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">distância do Coseno, os métodos iterativos pesquisa harmônica, algoritmo genético e K-means </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">foram confrontados entre si, obtendo-se como procedimento mais adequado o algoritmo Kmeans. </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">O método K-means, novamente utilizando-se da distância do Coseno como índice de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">dissimilaridade, foi posteriormente comparado ao algoritmo de passagem única C3M, outra vez </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">se sobressaindo. A despeito do método C3M possuir a característica singular de determinar o </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">número de grupos K, verificou-se que a quantidade de grupos estabelecida pelo mesmo não </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">apresentava a precisão esperada, exigindo por consequência a investigação de outras técnicas </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">capazes de determinar o número de grupos presente em uma coleção de documentos. </span><span style="font-size: 13.3333px;">Palavras-chave: Mineração de Dados. Heurística. Otimização Combinatória. Computação </span><span style="font-size: 13.3333px;">Bioinspirada. Descoberta de Conhecimento.</span></div>
publishDate	2015
dc.date.none.fl_str_mv	2015 2019-08-06T14:21:35Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=88784
url	https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=88784
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Estadual do Ceará
publisher.none.fl_str_mv	Universidade Estadual do Ceará
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UECE instname:Universidade Estadual do Ceará instacron:UECE
instname_str	Universidade Estadual do Ceará
instacron_str	UECE
institution	UECE
reponame_str	Repositório Institucional da UECE
collection	Repositório Institucional da UECE
repository.name.fl_str_mv	Repositório Institucional da UECE - Universidade Estadual do Ceará
repository.mail.fl_str_mv
_version_	1828296391532740608

Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais

Registros relacionados