Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais
| Ano de defesa: | 2015 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Estadual do Ceará
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=88784 |
Resumo: | <div style=""><font face="Arial, Verdana"><span style="font-size: 13.3333px;">Os rápidos avanços das tecnologias relacionadas à captura e ao armazenamento de dados </span></font><span style="font-size: 13.3333px; font-family: Arial, Verdana;">em formato digital têm permitido às organizações o acúmulo de um volume de informações </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">extremamente elevado, constituído em maior proporção por dados em formato não estruturado, </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">representados por textos. Neste contexto, a mineração de dados apresenta-se como um processo </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">de descoberta automática que age sobre grandes bancos de dados, que possibilita a extração de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">conhecimento a partir de documentos textuais brutos e que promove um aperfeiçoamento na </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">recuperação de informações relevantes por parte das organizações. Dentre as inúmeras fontes de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">documentos textuais, disponíveis em meio digital, encontram-se os diários de justiça eletrônicos, </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">que têm como propósito tornar públicos de modo oficial todos os atos do Poder Judiciário. Não </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">obstante a publicação em formato digital tenha proporcionado melhorias representadas pela </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">supressão de imperfeições pertinentes à divulgação em formato impresso, verifica-se que a </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">aplicação de métodos de mineração de dados, capazes de classificar os atos processuais sem a </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">interferência humana, poderia tornar mais célere a análise dos seus conteúdos. Neste sentido, </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">este trabalho desenvolve uma ferramenta apta a agrupar e categorizar de forma automática atos </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">processuais digitais, e, para este fim, quatro métodos de agrupamento de objetos, utilizando-se de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">três índices de dissimilaridade, foram avaliados. Inicialmente, a atividade de determinação dos </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">grupos foi modelada como um problema de otimização e por intermédio da aplicação dos métodos </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">iterativos pesquisa harmônica, algoritmo genético e K-means os índices de dissimilaridade </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">distância Euclidiana, do Coseno e de Hamming foram avaliados, auferindo-se como o índice </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">de dissimilaridade mais apropriado a distância do Coseno. Em seguida, com o emprego da </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">distância do Coseno, os métodos iterativos pesquisa harmônica, algoritmo genético e K-means </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">foram confrontados entre si, obtendo-se como procedimento mais adequado o algoritmo Kmeans. </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">O método K-means, novamente utilizando-se da distância do Coseno como índice de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">dissimilaridade, foi posteriormente comparado ao algoritmo de passagem única C3M, outra vez </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">se sobressaindo. A despeito do método C3M possuir a característica singular de determinar o </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">número de grupos K, verificou-se que a quantidade de grupos estabelecida pelo mesmo não </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">apresentava a precisão esperada, exigindo por consequência a investigação de outras técnicas </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">capazes de determinar o número de grupos presente em uma coleção de documentos. </span><span style="font-size: 13.3333px;">Palavras-chave: Mineração de Dados. Heurística. Otimização Combinatória. Computação </span><span style="font-size: 13.3333px;">Bioinspirada. Descoberta de Conhecimento.</span></div> |
| id |
UECE-0_6f614cfa72d992d457e0f8e7a2a5d409 |
|---|---|
| oai_identifier_str |
oai:uece.br:88784 |
| network_acronym_str |
UECE-0 |
| network_name_str |
Repositório Institucional da UECE |
| repository_id_str |
|
| spelling |
Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitaisComputação aplicada Heurística Mineracao de Dados Otimização combinatória<div style=""><font face="Arial, Verdana"><span style="font-size: 13.3333px;">Os rápidos avanços das tecnologias relacionadas à captura e ao armazenamento de dados </span></font><span style="font-size: 13.3333px; font-family: Arial, Verdana;">em formato digital têm permitido às organizações o acúmulo de um volume de informações </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">extremamente elevado, constituído em maior proporção por dados em formato não estruturado, </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">representados por textos. Neste contexto, a mineração de dados apresenta-se como um processo </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">de descoberta automática que age sobre grandes bancos de dados, que possibilita a extração de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">conhecimento a partir de documentos textuais brutos e que promove um aperfeiçoamento na </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">recuperação de informações relevantes por parte das organizações. Dentre as inúmeras fontes de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">documentos textuais, disponíveis em meio digital, encontram-se os diários de justiça eletrônicos, </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">que têm como propósito tornar públicos de modo oficial todos os atos do Poder Judiciário. Não </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">obstante a publicação em formato digital tenha proporcionado melhorias representadas pela </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">supressão de imperfeições pertinentes à divulgação em formato impresso, verifica-se que a </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">aplicação de métodos de mineração de dados, capazes de classificar os atos processuais sem a </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">interferência humana, poderia tornar mais célere a análise dos seus conteúdos. Neste sentido, </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">este trabalho desenvolve uma ferramenta apta a agrupar e categorizar de forma automática atos </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">processuais digitais, e, para este fim, quatro métodos de agrupamento de objetos, utilizando-se de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">três índices de dissimilaridade, foram avaliados. Inicialmente, a atividade de determinação dos </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">grupos foi modelada como um problema de otimização e por intermédio da aplicação dos métodos </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">iterativos pesquisa harmônica, algoritmo genético e K-means os índices de dissimilaridade </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">distância Euclidiana, do Coseno e de Hamming foram avaliados, auferindo-se como o índice </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">de dissimilaridade mais apropriado a distância do Coseno. Em seguida, com o emprego da </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">distância do Coseno, os métodos iterativos pesquisa harmônica, algoritmo genético e K-means </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">foram confrontados entre si, obtendo-se como procedimento mais adequado o algoritmo Kmeans. </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">O método K-means, novamente utilizando-se da distância do Coseno como índice de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">dissimilaridade, foi posteriormente comparado ao algoritmo de passagem única C3M, outra vez </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">se sobressaindo. A despeito do método C3M possuir a característica singular de determinar o </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">número de grupos K, verificou-se que a quantidade de grupos estabelecida pelo mesmo não </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">apresentava a precisão esperada, exigindo por consequência a investigação de outras técnicas </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">capazes de determinar o número de grupos presente em uma coleção de documentos. </span><span style="font-size: 13.3333px;">Palavras-chave: Mineração de Dados. Heurística. Otimização Combinatória. Computação </span><span style="font-size: 13.3333px;">Bioinspirada. Descoberta de Conhecimento.</span></div><div style=""><font face="Arial, Verdana"><span style="font-size: 13.3333px;">The rapid advances in technologies related to the capture and storage of data in digital format </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">have allowed to organizations the accumulation of a volume of information extremely high, </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">constituted a higher proportion of data in unstructured format, represented by texts. In this </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">context, data mining is presented as a self-discovery process that acts on large databases, which </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">enables the knowledge extraction from raw text documents, and promoting improved recovery of </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">relevant information by organizations. Among the many sources of textual documents available </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">in digital form, are electronic diaries of justice, which are intended to make public officially all </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">the acts of the Judiciary. Despite the publication in digital form has provided improvements </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">represented by the removal of imperfections related to divulgation at printed format, it is observed </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">that the application of data mining methods, able to classify the procedural acts without human </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">interference, could render more rapid analysis of its contents. Thus, this paper develops a tool </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">able to group and categorize automatically digital procedural acts, and, for this purpose, four </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">methods of grouping objects, using three dissimilarity indexes were evaluated. Initially, the </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">activity of determination of groups was modeled as an optimization problem, and through the </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">application of iterative methods harmonic research, genetic algorithm and K-means, indexes of </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">dissimilarity Euclidean distance, cosine distance and Hamming distance were evaluated, yielding </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">as index dissimilarity most appropriate the distance from Cosine. Then, with employment of </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">the cosine distance, iterative methods harmonic research, genetic algorithm and K-means were </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">compared, obtaining the K-means algorithm as most appropriate procedure. The K-means </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">method, using the cosine distance as dissimilarity index, was subsequently compared to the </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">single pass algorithm C3M, again protruding. Despite the C3M method has the unique feature of </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">determine the number of groups K, it was found that the amount of groups established by it does </span></font><font face="Arial, Verdana"><span style="font-size: 13.3333px;">not showed the expected accuracy, requiring therefore the investigation of other techniques able </span></font><span style="font-size: 13.3333px; font-family: Arial, Verdana;">to determine the number of groups present in a collection of documents. </span><font face="Arial, Verdana" style="font-size: 10pt;"><span style="font-size: 13.3333px;">Keywords: Data Mining. Heuristic. Combinatorial Optimization. Bio-inspired Computing. </span></font><span style="font-size: 13.3333px;">Knowledge Discovery</span></div>Universidade Estadual do CearáMARCOS JOSE NEGREIROS GOMESAraújo Neto, Alfredo Silveira2019-08-06T14:21:35Z2015info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=88784info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UECEinstname:Universidade Estadual do Cearáinstacron:UECE2019-08-06T14:21:35Zoai:uece.br:88784Repositório InstitucionalPUBhttps://siduece.uece.br/siduece/api/oai/requestopendoar:2019-08-06T14:21:35Repositório Institucional da UECE - Universidade Estadual do Cearáfalse |
| dc.title.none.fl_str_mv |
Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais |
| title |
Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais |
| spellingShingle |
Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais Araújo Neto, Alfredo Silveira Computação aplicada Heurística Mineracao de Dados Otimização combinatória |
| title_short |
Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais |
| title_full |
Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais |
| title_fullStr |
Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais |
| title_full_unstemmed |
Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais |
| title_sort |
Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais |
| author |
Araújo Neto, Alfredo Silveira |
| author_facet |
Araújo Neto, Alfredo Silveira |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
MARCOS JOSE NEGREIROS GOMES |
| dc.contributor.author.fl_str_mv |
Araújo Neto, Alfredo Silveira |
| dc.subject.por.fl_str_mv |
Computação aplicada Heurística Mineracao de Dados Otimização combinatória |
| topic |
Computação aplicada Heurística Mineracao de Dados Otimização combinatória |
| description |
<div style=""><font face="Arial, Verdana"><span style="font-size: 13.3333px;">Os rápidos avanços das tecnologias relacionadas à captura e ao armazenamento de dados </span></font><span style="font-size: 13.3333px; font-family: Arial, Verdana;">em formato digital têm permitido às organizações o acúmulo de um volume de informações </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">extremamente elevado, constituído em maior proporção por dados em formato não estruturado, </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">representados por textos. Neste contexto, a mineração de dados apresenta-se como um processo </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">de descoberta automática que age sobre grandes bancos de dados, que possibilita a extração de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">conhecimento a partir de documentos textuais brutos e que promove um aperfeiçoamento na </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">recuperação de informações relevantes por parte das organizações. Dentre as inúmeras fontes de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">documentos textuais, disponíveis em meio digital, encontram-se os diários de justiça eletrônicos, </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">que têm como propósito tornar públicos de modo oficial todos os atos do Poder Judiciário. Não </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">obstante a publicação em formato digital tenha proporcionado melhorias representadas pela </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">supressão de imperfeições pertinentes à divulgação em formato impresso, verifica-se que a </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">aplicação de métodos de mineração de dados, capazes de classificar os atos processuais sem a </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">interferência humana, poderia tornar mais célere a análise dos seus conteúdos. Neste sentido, </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">este trabalho desenvolve uma ferramenta apta a agrupar e categorizar de forma automática atos </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">processuais digitais, e, para este fim, quatro métodos de agrupamento de objetos, utilizando-se de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">três índices de dissimilaridade, foram avaliados. Inicialmente, a atividade de determinação dos </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">grupos foi modelada como um problema de otimização e por intermédio da aplicação dos métodos </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">iterativos pesquisa harmônica, algoritmo genético e K-means os índices de dissimilaridade </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">distância Euclidiana, do Coseno e de Hamming foram avaliados, auferindo-se como o índice </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">de dissimilaridade mais apropriado a distância do Coseno. Em seguida, com o emprego da </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">distância do Coseno, os métodos iterativos pesquisa harmônica, algoritmo genético e K-means </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">foram confrontados entre si, obtendo-se como procedimento mais adequado o algoritmo Kmeans. </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">O método K-means, novamente utilizando-se da distância do Coseno como índice de </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">dissimilaridade, foi posteriormente comparado ao algoritmo de passagem única C3M, outra vez </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">se sobressaindo. A despeito do método C3M possuir a característica singular de determinar o </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">número de grupos K, verificou-se que a quantidade de grupos estabelecida pelo mesmo não </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">apresentava a precisão esperada, exigindo por consequência a investigação de outras técnicas </span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">capazes de determinar o número de grupos presente em uma coleção de documentos. </span><span style="font-size: 13.3333px;">Palavras-chave: Mineração de Dados. Heurística. Otimização Combinatória. Computação </span><span style="font-size: 13.3333px;">Bioinspirada. Descoberta de Conhecimento.</span></div> |
| publishDate |
2015 |
| dc.date.none.fl_str_mv |
2015 2019-08-06T14:21:35Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=88784 |
| url |
https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=88784 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Estadual do Ceará |
| publisher.none.fl_str_mv |
Universidade Estadual do Ceará |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UECE instname:Universidade Estadual do Ceará instacron:UECE |
| instname_str |
Universidade Estadual do Ceará |
| instacron_str |
UECE |
| institution |
UECE |
| reponame_str |
Repositório Institucional da UECE |
| collection |
Repositório Institucional da UECE |
| repository.name.fl_str_mv |
Repositório Institucional da UECE - Universidade Estadual do Ceará |
| repository.mail.fl_str_mv |
|
| _version_ |
1828296391532740608 |