Classificação automática de documentos baseada em mineração de texto e processamento de linguagem natural no contexto do Tribunal de Contas do Rio Grande do Norte

Porto, Diego Rolim

Classificação automática de documentos baseada em mineração de texto e processamento de linguagem natural no contexto do Tribunal de Contas do Rio Grande do Norte

Detalhes bibliográficos
Ano de defesa:	2022
Autor(a) principal:	Porto, Diego Rolim
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal do Rio Grande do Norte Brasil UFRN Programa de Pós-Graduação em Tecnologia da Informação Instituto Metrópole Digital
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Mineração de texto Processamento de linguagem natural TF-IDF Doc2Vec
Link de acesso:	https://repositorio.ufrn.br/handle/123456789/48335
Resumo:	The manual classification of documents represents, in most cases, a slow and demanding process since it is based on reading part of the documents. Based on this fact, the main objective of this work is to carry out a study of different Text Mining and Natural Language Processing (NLP) techniques for the automatic classification of documents related to the accountability of the city councils of the Rio Grande do Norte State. In this sense, we have chosen two methods found in the literature, as being: TF-IDF and Doc2Vec, because they have distinctive characteristics. In this context, it is important to analyze the performance of both methods, as well as the complexity in the construction of dictionaries to be used in the first, and the necessary training stage for the second. For this end, two sets of documents were created, one for training or creating dictionaries, and another for testing both methods. In this sense, the experimental results showed that the methodology based on Doc2Vec is more indicated to be used by the State's Court of Auditors. This result is justified by the accuracy of 100% obtained in the performed tests and due to better scalability of the implementations used in the method.

Metadados do item

id	UFRN_f9f991303b375f4a0ef6df12df749e1e
oai_identifier_str	oai:repositorio.ufrn.br:123456789/48335
network_acronym_str	UFRN
network_name_str	Repositório Institucional da UFRN
repository_id_str
spelling	Classificação automática de documentos baseada em mineração de texto e processamento de linguagem natural no contexto do Tribunal de Contas do Rio Grande do NorteAutomatic classification of documents based on text mining and natural language processing in the context of the Tribunal de Contas do Estado do Rio Grande do NorteMineração de textoProcessamento de linguagem naturalTF-IDFDoc2VecThe manual classification of documents represents, in most cases, a slow and demanding process since it is based on reading part of the documents. Based on this fact, the main objective of this work is to carry out a study of different Text Mining and Natural Language Processing (NLP) techniques for the automatic classification of documents related to the accountability of the city councils of the Rio Grande do Norte State. In this sense, we have chosen two methods found in the literature, as being: TF-IDF and Doc2Vec, because they have distinctive characteristics. In this context, it is important to analyze the performance of both methods, as well as the complexity in the construction of dictionaries to be used in the first, and the necessary training stage for the second. For this end, two sets of documents were created, one for training or creating dictionaries, and another for testing both methods. In this sense, the experimental results showed that the methodology based on Doc2Vec is more indicated to be used by the State's Court of Auditors. This result is justified by the accuracy of 100% obtained in the performed tests and due to better scalability of the implementations used in the method.Tribunal de Contas do Estado do Rio Grande do NorteA classificação manual de documentos representa, na maioria dos casos, um processo lento e custoso, visto que tal processo está baseado na leitura de parte dos documentos. Assim, este trabalho tem como objetivo a realização de um estudo de diferentes técnicas de Mineração de Texto e Processamento de Linguagem Natural (PLN) para a classificação automática de documentos relacionados à prestação de contas dos municípios do Estado do Rio Grande do Norte. Dessa forma, dentre os métodos encontrados na literatura, escolheu-se o TF-IDF e o Doc2Vec, principalmente por apresentarem características distintas. Nesse contexto, é importante analisar o desempenho de ambos os métodos, assim como a complexidade da construção de dicionários para o primeiro e a etapa de treinamento necessária para o segundo. Para esse fim, foram criados dois conjuntos de documentos, sendo um para treinamento ou criação dos dicionários, e outro para o teste de ambos os métodos. Nesse sentido, os resultados experimentais demonstraram que a metodologia baseada em Doc2Vec é mais indicada para a aplicação no Tribunal de Contas do Estado do Rio Grande do Norte. Este resultado é justificado baseando-se na acurácia de 100\% obtida nos testes realizados e em uma melhor escalabilidade das implementações utilizadas no método.Universidade Federal do Rio Grande do NorteBrasilUFRNPrograma de Pós-Graduação em Tecnologia da InformaçãoInstituto Metrópole DigitalXavier Júnior, João Carloshttp://lattes.cnpq.br/7922298079989261http://lattes.cnpq.br/5088238300241110Canuto, Anne Magaly de Paulahttp://lattes.cnpq.br/1357887401899097Santos, Ilueny Constâncio Chaves doshttp://lattes.cnpq.br/8930351118408164Porto, Diego Rolim2022-07-05T17:41:07Z2022-07-05T17:41:07Z2022-06-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfPORTO, Diego Rolim. Classificação automática de documentos baseada em mineração de texto e processamento de linguagem natural. 2022. 14 f. Trabalho de Conclusão de Curso (Residência em Tecnologia da Informação) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2022.https://repositorio.ufrn.br/handle/123456789/48335Attribution 3.0 Brazilhttp://creativecommons.org/licenses/by/3.0/br/info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRN2023-04-28T16:41:27Zoai:repositorio.ufrn.br:123456789/48335Repositório InstitucionalPUBhttp://repositorio.ufrn.br/oai/repositorio@bczm.ufrn.bropendoar:2023-04-28T16:41:27Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.none.fl_str_mv	Classificação automática de documentos baseada em mineração de texto e processamento de linguagem natural no contexto do Tribunal de Contas do Rio Grande do Norte Automatic classification of documents based on text mining and natural language processing in the context of the Tribunal de Contas do Estado do Rio Grande do Norte
title	Classificação automática de documentos baseada em mineração de texto e processamento de linguagem natural no contexto do Tribunal de Contas do Rio Grande do Norte
spellingShingle	Classificação automática de documentos baseada em mineração de texto e processamento de linguagem natural no contexto do Tribunal de Contas do Rio Grande do Norte Porto, Diego Rolim Mineração de texto Processamento de linguagem natural TF-IDF Doc2Vec
title_short	Classificação automática de documentos baseada em mineração de texto e processamento de linguagem natural no contexto do Tribunal de Contas do Rio Grande do Norte
title_full	Classificação automática de documentos baseada em mineração de texto e processamento de linguagem natural no contexto do Tribunal de Contas do Rio Grande do Norte
title_fullStr	Classificação automática de documentos baseada em mineração de texto e processamento de linguagem natural no contexto do Tribunal de Contas do Rio Grande do Norte
title_full_unstemmed	Classificação automática de documentos baseada em mineração de texto e processamento de linguagem natural no contexto do Tribunal de Contas do Rio Grande do Norte
title_sort	Classificação automática de documentos baseada em mineração de texto e processamento de linguagem natural no contexto do Tribunal de Contas do Rio Grande do Norte
author	Porto, Diego Rolim
author_facet	Porto, Diego Rolim
author_role	author
dc.contributor.none.fl_str_mv	Xavier Júnior, João Carlos http://lattes.cnpq.br/7922298079989261 http://lattes.cnpq.br/5088238300241110 Canuto, Anne Magaly de Paula http://lattes.cnpq.br/1357887401899097 Santos, Ilueny Constâncio Chaves dos http://lattes.cnpq.br/8930351118408164
dc.contributor.author.fl_str_mv	Porto, Diego Rolim
dc.subject.por.fl_str_mv	Mineração de texto Processamento de linguagem natural TF-IDF Doc2Vec
topic	Mineração de texto Processamento de linguagem natural TF-IDF Doc2Vec
description	The manual classification of documents represents, in most cases, a slow and demanding process since it is based on reading part of the documents. Based on this fact, the main objective of this work is to carry out a study of different Text Mining and Natural Language Processing (NLP) techniques for the automatic classification of documents related to the accountability of the city councils of the Rio Grande do Norte State. In this sense, we have chosen two methods found in the literature, as being: TF-IDF and Doc2Vec, because they have distinctive characteristics. In this context, it is important to analyze the performance of both methods, as well as the complexity in the construction of dictionaries to be used in the first, and the necessary training stage for the second. For this end, two sets of documents were created, one for training or creating dictionaries, and another for testing both methods. In this sense, the experimental results showed that the methodology based on Doc2Vec is more indicated to be used by the State's Court of Auditors. This result is justified by the accuracy of 100% obtained in the performed tests and due to better scalability of the implementations used in the method.
publishDate	2022
dc.date.none.fl_str_mv	2022-07-05T17:41:07Z 2022-07-05T17:41:07Z 2022-06-15
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	PORTO, Diego Rolim. Classificação automática de documentos baseada em mineração de texto e processamento de linguagem natural. 2022. 14 f. Trabalho de Conclusão de Curso (Residência em Tecnologia da Informação) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2022. https://repositorio.ufrn.br/handle/123456789/48335
identifier_str_mv	PORTO, Diego Rolim. Classificação automática de documentos baseada em mineração de texto e processamento de linguagem natural. 2022. 14 f. Trabalho de Conclusão de Curso (Residência em Tecnologia da Informação) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2022.
url	https://repositorio.ufrn.br/handle/123456789/48335
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Attribution 3.0 Brazil http://creativecommons.org/licenses/by/3.0/br/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Attribution 3.0 Brazil http://creativecommons.org/licenses/by/3.0/br/
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal do Rio Grande do Norte Brasil UFRN Programa de Pós-Graduação em Tecnologia da Informação Instituto Metrópole Digital
publisher.none.fl_str_mv	Universidade Federal do Rio Grande do Norte Brasil UFRN Programa de Pós-Graduação em Tecnologia da Informação Instituto Metrópole Digital
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN
instname_str	Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str	UFRN
institution	UFRN
reponame_str	Repositório Institucional da UFRN
collection	Repositório Institucional da UFRN
repository.name.fl_str_mv	Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv	repositorio@bczm.ufrn.br
_version_	1855758825403973632

Classificação automática de documentos baseada em mineração de texto e processamento de linguagem natural no contexto do Tribunal de Contas do Rio Grande do Norte

Registros relacionados