Classificação de documentos da administração pública utilizando inteligência artificial
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | , , |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de Goiás
|
| Programa de Pós-Graduação: |
Programa de Pós-graduação em Ciência da Computação (INF)
|
| Departamento: |
Instituto de Informática - INF (RMG)
|
| País: |
Brasil
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | http://repositorio.bc.ufg.br/tede/handle/tede/13362 |
Resumo: | Public organizations face difficulties in classifying and promoting transparency of the numerous documents produced during the execution of their activities. Correct classification of documents is critical to prevent public access to sensitive information and protect individuals and organizations from malicious use. This work proposes two approachs to perform the task of classifying sensitive documents, using state-of-the-art artificial intelligence techniques and best practices found in the literature: a conventional method, which uses artificial intelligence techniques and regular expressions to analyze the textual content of documents, and an alternative method, which employs the CBIR technique to classify documents when text extraction is not viable. Using real data from the Electronic Information System (SEI) of the Federal University of Goiás (UFG), the results achieved demonstrated that the application of regular expressions as a preliminary check can improve the computational efficiency of the classification process, despite showing a modest increase in classification precision. The conventional method proved to be effective in document classification, with the BERT model standing out for its performance with an accuracy rate of 94%. The alternative method, in turn, offered a viable solution for challenging scenarios, showing promising results with an accuracy rate of 87% in classifying public documents |
| id |
UFG-2_efa6e9d780620d073d2ccc37726b39ff |
|---|---|
| oai_identifier_str |
oai:repositorio.bc.ufg.br:tede/13362 |
| network_acronym_str |
UFG-2 |
| network_name_str |
Repositório Institucional da UFG |
| repository_id_str |
|
| spelling |
Costa, Ronaldo Martins dahttp://lattes.cnpq.br/7080590204832262Costa, Ronaldo Martins daSouza, Rodrigo Gonçalves deSilva, Nádia Félix Felipe dahttp://lattes.cnpq.br/6731355656093216Carvalho, Rogerio Rodrigues2024-09-16T19:45:18Z2024-09-16T19:45:18Z2024-04-30CARVALHO, R. R. Classificação de documentos da administração pública utilizando inteligência artificial. 2004. 64 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2024.http://repositorio.bc.ufg.br/tede/handle/tede/13362Public organizations face difficulties in classifying and promoting transparency of the numerous documents produced during the execution of their activities. Correct classification of documents is critical to prevent public access to sensitive information and protect individuals and organizations from malicious use. This work proposes two approachs to perform the task of classifying sensitive documents, using state-of-the-art artificial intelligence techniques and best practices found in the literature: a conventional method, which uses artificial intelligence techniques and regular expressions to analyze the textual content of documents, and an alternative method, which employs the CBIR technique to classify documents when text extraction is not viable. Using real data from the Electronic Information System (SEI) of the Federal University of Goiás (UFG), the results achieved demonstrated that the application of regular expressions as a preliminary check can improve the computational efficiency of the classification process, despite showing a modest increase in classification precision. The conventional method proved to be effective in document classification, with the BERT model standing out for its performance with an accuracy rate of 94%. The alternative method, in turn, offered a viable solution for challenging scenarios, showing promising results with an accuracy rate of 87% in classifying public documentsAs organizações públicas enfrentam dificuldades para realizar a devida classificação e promover a transparência dos inúmeros documentos produzidos durante a execução de suas atividades. A classificação correta dos documentos é fundamental para prevenir o acesso público a informações sensíveis e proteger indivíduos e organizações contra o uso malicioso. Este trabalho propõe dois métodos para realizar a tarefa de classificação de documentos sensíveis, utilizando técnicas de inteligência artificial do estado da arte e melhores práticas encontradas na literatura: um método convencional, que utiliza técnicas de inteligência artificial e expressões regulares analisando o conteúdo textual dos documentos, e um método alternativo, que emprega a técnica de CBIR para a classificação de documentos quando a extração de texto não é viável, baseando-se nas imagens dos documentos. Utilizando dados reais do Sistema Eletrônico de Informações (SEI) da Universidade Federal de Goiás (UFG), os resultados alcançados demonstraram que a aplicação de expressões regulares como uma verificação preliminar pode melhorar a eficiência computacional do processo de classificação, apesar de apresentar um aumento modesto na precisão da classificação. O método convencional mostrou-se eficaz na classificação de documentos, com o modelo BERT destacando-se por seu desempenho com taxa de acerto de 94%. O método alternativo, por sua vez, ofereceu uma solução viável para cenários desafiadores, apresentando resultados promissores com taxa de acerto de 87% na classificação de documentos públicosporUniversidade Federal de GoiásPrograma de Pós-graduação em Ciência da Computação (INF)UFGBrasilInstituto de Informática - INF (RMG)Attribution-NonCommercial-NoDerivatives 4.0 Internationalinfo:eu-repo/semantics/openAccessClassificação de documentosDados sensíveisOrganização públicaInteligência artificialDocument classificationSensitive dataPublic organizationArtificial intelligenceCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOClassificação de documentos da administração pública utilizando inteligência artificialClassification of public administration documents using artificial intelligenceinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGLICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.bc.ufg.br/tede/bitstreams/85630427-ebe6-41db-9abe-74accf5966ed/download8a4605be74aa9ea9d79846c1fba20a33MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8805http://repositorio.bc.ufg.br/tede/bitstreams/cfbf439e-05ed-44c0-bef0-f05c1dc03834/download4460e5956bc1d1639be9ae6146a50347MD52ORIGINALDissertação - Rogerio Rodrigues Carvalho - 2024.pdfDissertação - Rogerio Rodrigues Carvalho - 2024.pdfapplication/pdf1878410http://repositorio.bc.ufg.br/tede/bitstreams/e82a5fb4-9bbd-4a93-8314-591185a3340c/download346eda72c2a4b9fc751104604dabe94aMD53tede/133622024-09-16 16:45:18.357http://creativecommons.org/licenses/by-nc-nd/4.0/Attribution-NonCommercial-NoDerivatives 4.0 Internationalopen.accessoai:repositorio.bc.ufg.br:tede/13362http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttps://repositorio.bc.ufg.br/tedeserver/oai/requestgrt.bc@ufg.bropendoar:oai:repositorio.bc.ufg.br:tede/12342024-09-16T19:45:18Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)falseTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
| dc.title.none.fl_str_mv |
Classificação de documentos da administração pública utilizando inteligência artificial |
| dc.title.alternative.eng.fl_str_mv |
Classification of public administration documents using artificial intelligence |
| title |
Classificação de documentos da administração pública utilizando inteligência artificial |
| spellingShingle |
Classificação de documentos da administração pública utilizando inteligência artificial Carvalho, Rogerio Rodrigues Classificação de documentos Dados sensíveis Organização pública Inteligência artificial Document classification Sensitive data Public organization Artificial intelligence CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| title_short |
Classificação de documentos da administração pública utilizando inteligência artificial |
| title_full |
Classificação de documentos da administração pública utilizando inteligência artificial |
| title_fullStr |
Classificação de documentos da administração pública utilizando inteligência artificial |
| title_full_unstemmed |
Classificação de documentos da administração pública utilizando inteligência artificial |
| title_sort |
Classificação de documentos da administração pública utilizando inteligência artificial |
| author |
Carvalho, Rogerio Rodrigues |
| author_facet |
Carvalho, Rogerio Rodrigues |
| author_role |
author |
| dc.contributor.advisor1.fl_str_mv |
Costa, Ronaldo Martins da |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/7080590204832262 |
| dc.contributor.referee1.fl_str_mv |
Costa, Ronaldo Martins da |
| dc.contributor.referee2.fl_str_mv |
Souza, Rodrigo Gonçalves de |
| dc.contributor.referee3.fl_str_mv |
Silva, Nádia Félix Felipe da |
| dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/6731355656093216 |
| dc.contributor.author.fl_str_mv |
Carvalho, Rogerio Rodrigues |
| contributor_str_mv |
Costa, Ronaldo Martins da Costa, Ronaldo Martins da Souza, Rodrigo Gonçalves de Silva, Nádia Félix Felipe da |
| dc.subject.por.fl_str_mv |
Classificação de documentos Dados sensíveis Organização pública Inteligência artificial |
| topic |
Classificação de documentos Dados sensíveis Organização pública Inteligência artificial Document classification Sensitive data Public organization Artificial intelligence CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| dc.subject.eng.fl_str_mv |
Document classification Sensitive data Public organization Artificial intelligence |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| description |
Public organizations face difficulties in classifying and promoting transparency of the numerous documents produced during the execution of their activities. Correct classification of documents is critical to prevent public access to sensitive information and protect individuals and organizations from malicious use. This work proposes two approachs to perform the task of classifying sensitive documents, using state-of-the-art artificial intelligence techniques and best practices found in the literature: a conventional method, which uses artificial intelligence techniques and regular expressions to analyze the textual content of documents, and an alternative method, which employs the CBIR technique to classify documents when text extraction is not viable. Using real data from the Electronic Information System (SEI) of the Federal University of Goiás (UFG), the results achieved demonstrated that the application of regular expressions as a preliminary check can improve the computational efficiency of the classification process, despite showing a modest increase in classification precision. The conventional method proved to be effective in document classification, with the BERT model standing out for its performance with an accuracy rate of 94%. The alternative method, in turn, offered a viable solution for challenging scenarios, showing promising results with an accuracy rate of 87% in classifying public documents |
| publishDate |
2024 |
| dc.date.accessioned.fl_str_mv |
2024-09-16T19:45:18Z |
| dc.date.available.fl_str_mv |
2024-09-16T19:45:18Z |
| dc.date.issued.fl_str_mv |
2024-04-30 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
CARVALHO, R. R. Classificação de documentos da administração pública utilizando inteligência artificial. 2004. 64 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2024. |
| dc.identifier.uri.fl_str_mv |
http://repositorio.bc.ufg.br/tede/handle/tede/13362 |
| identifier_str_mv |
CARVALHO, R. R. Classificação de documentos da administração pública utilizando inteligência artificial. 2004. 64 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2024. |
| url |
http://repositorio.bc.ufg.br/tede/handle/tede/13362 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 International info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 International |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Goiás |
| dc.publisher.program.fl_str_mv |
Programa de Pós-graduação em Ciência da Computação (INF) |
| dc.publisher.initials.fl_str_mv |
UFG |
| dc.publisher.country.fl_str_mv |
Brasil |
| dc.publisher.department.fl_str_mv |
Instituto de Informática - INF (RMG) |
| publisher.none.fl_str_mv |
Universidade Federal de Goiás |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFG instname:Universidade Federal de Goiás (UFG) instacron:UFG |
| instname_str |
Universidade Federal de Goiás (UFG) |
| instacron_str |
UFG |
| institution |
UFG |
| reponame_str |
Repositório Institucional da UFG |
| collection |
Repositório Institucional da UFG |
| bitstream.url.fl_str_mv |
http://repositorio.bc.ufg.br/tede/bitstreams/85630427-ebe6-41db-9abe-74accf5966ed/download http://repositorio.bc.ufg.br/tede/bitstreams/cfbf439e-05ed-44c0-bef0-f05c1dc03834/download http://repositorio.bc.ufg.br/tede/bitstreams/e82a5fb4-9bbd-4a93-8314-591185a3340c/download |
| bitstream.checksum.fl_str_mv |
8a4605be74aa9ea9d79846c1fba20a33 4460e5956bc1d1639be9ae6146a50347 346eda72c2a4b9fc751104604dabe94a |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFG - Universidade Federal de Goiás (UFG) |
| repository.mail.fl_str_mv |
grt.bc@ufg.br |
| _version_ |
1861293862644875264 |