Classificação de documentos da administração pública utilizando inteligência artificial

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Carvalho, Rogerio Rodrigues lattes
Orientador(a): Costa, Ronaldo Martins da lattes
Banca de defesa: Costa, Ronaldo Martins da, Souza, Rodrigo Gonçalves de, Silva, Nádia Félix Felipe da
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Goiás
Programa de Pós-Graduação: Programa de Pós-graduação em Ciência da Computação (INF)
Departamento: Instituto de Informática - INF (RMG)
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.bc.ufg.br/tede/handle/tede/13362
Resumo: Public organizations face difficulties in classifying and promoting transparency of the numerous documents produced during the execution of their activities. Correct classification of documents is critical to prevent public access to sensitive information and protect individuals and organizations from malicious use. This work proposes two approachs to perform the task of classifying sensitive documents, using state-of-the-art artificial intelligence techniques and best practices found in the literature: a conventional method, which uses artificial intelligence techniques and regular expressions to analyze the textual content of documents, and an alternative method, which employs the CBIR technique to classify documents when text extraction is not viable. Using real data from the Electronic Information System (SEI) of the Federal University of Goiás (UFG), the results achieved demonstrated that the application of regular expressions as a preliminary check can improve the computational efficiency of the classification process, despite showing a modest increase in classification precision. The conventional method proved to be effective in document classification, with the BERT model standing out for its performance with an accuracy rate of 94%. The alternative method, in turn, offered a viable solution for challenging scenarios, showing promising results with an accuracy rate of 87% in classifying public documents
id UFG-2_efa6e9d780620d073d2ccc37726b39ff
oai_identifier_str oai:repositorio.bc.ufg.br:tede/13362
network_acronym_str UFG-2
network_name_str Repositório Institucional da UFG
repository_id_str
spelling Costa, Ronaldo Martins dahttp://lattes.cnpq.br/7080590204832262Costa, Ronaldo Martins daSouza, Rodrigo Gonçalves deSilva, Nádia Félix Felipe dahttp://lattes.cnpq.br/6731355656093216Carvalho, Rogerio Rodrigues2024-09-16T19:45:18Z2024-09-16T19:45:18Z2024-04-30CARVALHO, R. R. Classificação de documentos da administração pública utilizando inteligência artificial. 2004. 64 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2024.http://repositorio.bc.ufg.br/tede/handle/tede/13362Public organizations face difficulties in classifying and promoting transparency of the numerous documents produced during the execution of their activities. Correct classification of documents is critical to prevent public access to sensitive information and protect individuals and organizations from malicious use. This work proposes two approachs to perform the task of classifying sensitive documents, using state-of-the-art artificial intelligence techniques and best practices found in the literature: a conventional method, which uses artificial intelligence techniques and regular expressions to analyze the textual content of documents, and an alternative method, which employs the CBIR technique to classify documents when text extraction is not viable. Using real data from the Electronic Information System (SEI) of the Federal University of Goiás (UFG), the results achieved demonstrated that the application of regular expressions as a preliminary check can improve the computational efficiency of the classification process, despite showing a modest increase in classification precision. The conventional method proved to be effective in document classification, with the BERT model standing out for its performance with an accuracy rate of 94%. The alternative method, in turn, offered a viable solution for challenging scenarios, showing promising results with an accuracy rate of 87% in classifying public documentsAs organizações públicas enfrentam dificuldades para realizar a devida classificação e promover a transparência dos inúmeros documentos produzidos durante a execução de suas atividades. A classificação correta dos documentos é fundamental para prevenir o acesso público a informações sensíveis e proteger indivíduos e organizações contra o uso malicioso. Este trabalho propõe dois métodos para realizar a tarefa de classificação de documentos sensíveis, utilizando técnicas de inteligência artificial do estado da arte e melhores práticas encontradas na literatura: um método convencional, que utiliza técnicas de inteligência artificial e expressões regulares analisando o conteúdo textual dos documentos, e um método alternativo, que emprega a técnica de CBIR para a classificação de documentos quando a extração de texto não é viável, baseando-se nas imagens dos documentos. Utilizando dados reais do Sistema Eletrônico de Informações (SEI) da Universidade Federal de Goiás (UFG), os resultados alcançados demonstraram que a aplicação de expressões regulares como uma verificação preliminar pode melhorar a eficiência computacional do processo de classificação, apesar de apresentar um aumento modesto na precisão da classificação. O método convencional mostrou-se eficaz na classificação de documentos, com o modelo BERT destacando-se por seu desempenho com taxa de acerto de 94%. O método alternativo, por sua vez, ofereceu uma solução viável para cenários desafiadores, apresentando resultados promissores com taxa de acerto de 87% na classificação de documentos públicosporUniversidade Federal de GoiásPrograma de Pós-graduação em Ciência da Computação (INF)UFGBrasilInstituto de Informática - INF (RMG)Attribution-NonCommercial-NoDerivatives 4.0 Internationalinfo:eu-repo/semantics/openAccessClassificação de documentosDados sensíveisOrganização públicaInteligência artificialDocument classificationSensitive dataPublic organizationArtificial intelligenceCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOClassificação de documentos da administração pública utilizando inteligência artificialClassification of public administration documents using artificial intelligenceinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGLICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.bc.ufg.br/tede/bitstreams/85630427-ebe6-41db-9abe-74accf5966ed/download8a4605be74aa9ea9d79846c1fba20a33MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8805http://repositorio.bc.ufg.br/tede/bitstreams/cfbf439e-05ed-44c0-bef0-f05c1dc03834/download4460e5956bc1d1639be9ae6146a50347MD52ORIGINALDissertação - Rogerio Rodrigues Carvalho - 2024.pdfDissertação - Rogerio Rodrigues Carvalho - 2024.pdfapplication/pdf1878410http://repositorio.bc.ufg.br/tede/bitstreams/e82a5fb4-9bbd-4a93-8314-591185a3340c/download346eda72c2a4b9fc751104604dabe94aMD53tede/133622024-09-16 16:45:18.357http://creativecommons.org/licenses/by-nc-nd/4.0/Attribution-NonCommercial-NoDerivatives 4.0 Internationalopen.accessoai:repositorio.bc.ufg.br:tede/13362http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttps://repositorio.bc.ufg.br/tedeserver/oai/requestgrt.bc@ufg.bropendoar:oai:repositorio.bc.ufg.br:tede/12342024-09-16T19:45:18Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)falseTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
dc.title.none.fl_str_mv Classificação de documentos da administração pública utilizando inteligência artificial
dc.title.alternative.eng.fl_str_mv Classification of public administration documents using artificial intelligence
title Classificação de documentos da administração pública utilizando inteligência artificial
spellingShingle Classificação de documentos da administração pública utilizando inteligência artificial
Carvalho, Rogerio Rodrigues
Classificação de documentos
Dados sensíveis
Organização pública
Inteligência artificial
Document classification
Sensitive data
Public organization
Artificial intelligence
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Classificação de documentos da administração pública utilizando inteligência artificial
title_full Classificação de documentos da administração pública utilizando inteligência artificial
title_fullStr Classificação de documentos da administração pública utilizando inteligência artificial
title_full_unstemmed Classificação de documentos da administração pública utilizando inteligência artificial
title_sort Classificação de documentos da administração pública utilizando inteligência artificial
author Carvalho, Rogerio Rodrigues
author_facet Carvalho, Rogerio Rodrigues
author_role author
dc.contributor.advisor1.fl_str_mv Costa, Ronaldo Martins da
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/7080590204832262
dc.contributor.referee1.fl_str_mv Costa, Ronaldo Martins da
dc.contributor.referee2.fl_str_mv Souza, Rodrigo Gonçalves de
dc.contributor.referee3.fl_str_mv Silva, Nádia Félix Felipe da
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/6731355656093216
dc.contributor.author.fl_str_mv Carvalho, Rogerio Rodrigues
contributor_str_mv Costa, Ronaldo Martins da
Costa, Ronaldo Martins da
Souza, Rodrigo Gonçalves de
Silva, Nádia Félix Felipe da
dc.subject.por.fl_str_mv Classificação de documentos
Dados sensíveis
Organização pública
Inteligência artificial
topic Classificação de documentos
Dados sensíveis
Organização pública
Inteligência artificial
Document classification
Sensitive data
Public organization
Artificial intelligence
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Document classification
Sensitive data
Public organization
Artificial intelligence
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Public organizations face difficulties in classifying and promoting transparency of the numerous documents produced during the execution of their activities. Correct classification of documents is critical to prevent public access to sensitive information and protect individuals and organizations from malicious use. This work proposes two approachs to perform the task of classifying sensitive documents, using state-of-the-art artificial intelligence techniques and best practices found in the literature: a conventional method, which uses artificial intelligence techniques and regular expressions to analyze the textual content of documents, and an alternative method, which employs the CBIR technique to classify documents when text extraction is not viable. Using real data from the Electronic Information System (SEI) of the Federal University of Goiás (UFG), the results achieved demonstrated that the application of regular expressions as a preliminary check can improve the computational efficiency of the classification process, despite showing a modest increase in classification precision. The conventional method proved to be effective in document classification, with the BERT model standing out for its performance with an accuracy rate of 94%. The alternative method, in turn, offered a viable solution for challenging scenarios, showing promising results with an accuracy rate of 87% in classifying public documents
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-09-16T19:45:18Z
dc.date.available.fl_str_mv 2024-09-16T19:45:18Z
dc.date.issued.fl_str_mv 2024-04-30
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv CARVALHO, R. R. Classificação de documentos da administração pública utilizando inteligência artificial. 2004. 64 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2024.
dc.identifier.uri.fl_str_mv http://repositorio.bc.ufg.br/tede/handle/tede/13362
identifier_str_mv CARVALHO, R. R. Classificação de documentos da administração pública utilizando inteligência artificial. 2004. 64 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2024.
url http://repositorio.bc.ufg.br/tede/handle/tede/13362
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Goiás
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Ciência da Computação (INF)
dc.publisher.initials.fl_str_mv UFG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto de Informática - INF (RMG)
publisher.none.fl_str_mv Universidade Federal de Goiás
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFG
instname:Universidade Federal de Goiás (UFG)
instacron:UFG
instname_str Universidade Federal de Goiás (UFG)
instacron_str UFG
institution UFG
reponame_str Repositório Institucional da UFG
collection Repositório Institucional da UFG
bitstream.url.fl_str_mv http://repositorio.bc.ufg.br/tede/bitstreams/85630427-ebe6-41db-9abe-74accf5966ed/download
http://repositorio.bc.ufg.br/tede/bitstreams/cfbf439e-05ed-44c0-bef0-f05c1dc03834/download
http://repositorio.bc.ufg.br/tede/bitstreams/e82a5fb4-9bbd-4a93-8314-591185a3340c/download
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
4460e5956bc1d1639be9ae6146a50347
346eda72c2a4b9fc751104604dabe94a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)
repository.mail.fl_str_mv grt.bc@ufg.br
_version_ 1861293862644875264