Natural language processing for sensitive data recognition and privacy in digital documents
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade de Passo Fundo
Instituto de Tecnologia – ITEC Brasil UPF Programa de Pós-Graduação em Computação Aplicada |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://repositorio.upf.br/handle/123456789/1736 |
Resumo: | Keeping confidential information secure in personal documents has always been critical to guarantee the privacy of people or companies. With the frequent digitalization of documents and the adoption of laws and regulations, this task has become even more relevant. In this context, security applications can censor critical text in documents digital. How protecting data through censorship can require intensive manual work to identify the specific location of sensitive data and is subject to errors humans, automation is an option to handle the entire process. With that in mind, this work presents DOCDOM, a proof-of-concept software that integrates multiple tools for recognizing sensitive data and privacy in digital documents. The approach considers optical character recognition to obtain text data from documents, applies a natural language processing model focused on recognition of named entities to identify confidential data, and censor these using library resources for digital document processing. The results Preliminaries showed that DOCDOM works well, achieving evaluation metrics reasonable for two test data sets of 1000 files each (AUC-PR Curves 0.9266 and 0.6681). A detailed analysis identified that there are noise problems in some files during text classification tasks, which still need to be handled through noise distinction and filtering strategies. Despite this, the proposed solution presented acceptable initial results for a proof of concept, with good precision and accuracy for files with a simple structure and sensitive non-numeric content. |
| id |
UPF_8190d3a657a25136c48b3d32a1a57b96 |
|---|---|
| oai_identifier_str |
oai:repositorio.upf.br:123456789/1736 |
| network_acronym_str |
UPF |
| network_name_str |
Repositório Institucional da UPF |
| repository_id_str |
|
| spelling |
Natural language processing for sensitive data recognition and privacy in digital documentsProteção de dadosAutomaçãoDocumentos eletrônicosCIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOKeeping confidential information secure in personal documents has always been critical to guarantee the privacy of people or companies. With the frequent digitalization of documents and the adoption of laws and regulations, this task has become even more relevant. In this context, security applications can censor critical text in documents digital. How protecting data through censorship can require intensive manual work to identify the specific location of sensitive data and is subject to errors humans, automation is an option to handle the entire process. With that in mind, this work presents DOCDOM, a proof-of-concept software that integrates multiple tools for recognizing sensitive data and privacy in digital documents. The approach considers optical character recognition to obtain text data from documents, applies a natural language processing model focused on recognition of named entities to identify confidential data, and censor these using library resources for digital document processing. The results Preliminaries showed that DOCDOM works well, achieving evaluation metrics reasonable for two test data sets of 1000 files each (AUC-PR Curves 0.9266 and 0.6681). A detailed analysis identified that there are noise problems in some files during text classification tasks, which still need to be handled through noise distinction and filtering strategies. Despite this, the proposed solution presented acceptable initial results for a proof of concept, with good precision and accuracy for files with a simple structure and sensitive non-numeric content.Manter informações confidenciais seguras em documentos pessoais sempre foi fundamental para garantir a privacidade de pessoas ou empresas. Com a frequente digitalização de documentos e a adoção de leis e regulamentos, esta tarefa tornou-se ainda mais relevante. Neste contexto, as aplicações de segurança podem censurar textos críticos em documentos digitais. Como a proteção de dados por meio de censura pode exigir trabalho manual intensivo para identificar a localização específica de dados confidenciais e está sujeita a erros humanos, a automação é uma opção para lidar com todo o processo. Pensando nisso, este trabalho apresenta o DOCDOM, um software de prova de conceito que integra múltiplas ferramentas para o reconhecimento de dados sensíveis e privacidade em documentos digitais. A abordagem considera o reconhecimento ótico de caracteres para obter dados de texto de documentos, aplica um modelo de processamento de linguagem natural focado no reconhecimento de entidades nomeadas para identificar dados confidenciais, e censura estes usando recursos de bibliotecas para processamento de documentos digitais. Os resultados preliminares mostraram que o DOCDOM funciona bem, alcançando métricas de avaliação razoáveis para dois conjuntos de dados de teste de 1000 arquivos cada (Curvas AUC-PR 0,9266 e 0,6681). Uma análise detalhada identificou que existem problemas de ruído em alguns arquivos durante tarefas de classificação de texto, que ainda precisam ser tratados por meio de estratégias de distinção e filtragem de ruído. Apesar disso, a solução proposta apresentou resultados iniciais aceitáveis para uma prova de conceito, com boa precisão e acurácia para arquivos de estrutura simples e conteúdos sensíveis não numéricos.Universidade de Passo FundoInstituto de Tecnologia – ITECBrasilUPFPrograma de Pós-Graduação em Computação AplicadaRieder, Rafaelhttp://lattes.cnpq.br/3010497094377497Vieira, Samuel Antunes2025-05-07T12:44:28Z2024-03-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfapplication/pdfVIEIRA, Samuel Antunes. Natural language processing for sensitive data recognition and privacy in digital documents. 2024. 47 f. Dissertação (Mestrado em Computação Aplicada) - Universidade de Passo Fundo, Passo Fundo, RS, 2024.https://repositorio.upf.br/handle/123456789/1736porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UPFinstname:Universidade de Passo Fundo (UPF)instacron:UPF2025-10-23T12:20:42Zoai:repositorio.upf.br:123456789/1736Repositório InstitucionalPRIhttp://repositorio.upf.br/oai/requestjucelei@upf.br||biblio@upf.bropendoar:16102025-10-23T12:20:42Repositório Institucional da UPF - Universidade de Passo Fundo (UPF)false |
| dc.title.none.fl_str_mv |
Natural language processing for sensitive data recognition and privacy in digital documents |
| title |
Natural language processing for sensitive data recognition and privacy in digital documents |
| spellingShingle |
Natural language processing for sensitive data recognition and privacy in digital documents Vieira, Samuel Antunes Proteção de dados Automação Documentos eletrônicos CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO |
| title_short |
Natural language processing for sensitive data recognition and privacy in digital documents |
| title_full |
Natural language processing for sensitive data recognition and privacy in digital documents |
| title_fullStr |
Natural language processing for sensitive data recognition and privacy in digital documents |
| title_full_unstemmed |
Natural language processing for sensitive data recognition and privacy in digital documents |
| title_sort |
Natural language processing for sensitive data recognition and privacy in digital documents |
| author |
Vieira, Samuel Antunes |
| author_facet |
Vieira, Samuel Antunes |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Rieder, Rafael http://lattes.cnpq.br/3010497094377497 |
| dc.contributor.author.fl_str_mv |
Vieira, Samuel Antunes |
| dc.subject.por.fl_str_mv |
Proteção de dados Automação Documentos eletrônicos CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO |
| topic |
Proteção de dados Automação Documentos eletrônicos CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO |
| description |
Keeping confidential information secure in personal documents has always been critical to guarantee the privacy of people or companies. With the frequent digitalization of documents and the adoption of laws and regulations, this task has become even more relevant. In this context, security applications can censor critical text in documents digital. How protecting data through censorship can require intensive manual work to identify the specific location of sensitive data and is subject to errors humans, automation is an option to handle the entire process. With that in mind, this work presents DOCDOM, a proof-of-concept software that integrates multiple tools for recognizing sensitive data and privacy in digital documents. The approach considers optical character recognition to obtain text data from documents, applies a natural language processing model focused on recognition of named entities to identify confidential data, and censor these using library resources for digital document processing. The results Preliminaries showed that DOCDOM works well, achieving evaluation metrics reasonable for two test data sets of 1000 files each (AUC-PR Curves 0.9266 and 0.6681). A detailed analysis identified that there are noise problems in some files during text classification tasks, which still need to be handled through noise distinction and filtering strategies. Despite this, the proposed solution presented acceptable initial results for a proof of concept, with good precision and accuracy for files with a simple structure and sensitive non-numeric content. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-03-27 2025-05-07T12:44:28Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
VIEIRA, Samuel Antunes. Natural language processing for sensitive data recognition and privacy in digital documents. 2024. 47 f. Dissertação (Mestrado em Computação Aplicada) - Universidade de Passo Fundo, Passo Fundo, RS, 2024. https://repositorio.upf.br/handle/123456789/1736 |
| identifier_str_mv |
VIEIRA, Samuel Antunes. Natural language processing for sensitive data recognition and privacy in digital documents. 2024. 47 f. Dissertação (Mestrado em Computação Aplicada) - Universidade de Passo Fundo, Passo Fundo, RS, 2024. |
| url |
https://repositorio.upf.br/handle/123456789/1736 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade de Passo Fundo Instituto de Tecnologia – ITEC Brasil UPF Programa de Pós-Graduação em Computação Aplicada |
| publisher.none.fl_str_mv |
Universidade de Passo Fundo Instituto de Tecnologia – ITEC Brasil UPF Programa de Pós-Graduação em Computação Aplicada |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UPF instname:Universidade de Passo Fundo (UPF) instacron:UPF |
| instname_str |
Universidade de Passo Fundo (UPF) |
| instacron_str |
UPF |
| institution |
UPF |
| reponame_str |
Repositório Institucional da UPF |
| collection |
Repositório Institucional da UPF |
| repository.name.fl_str_mv |
Repositório Institucional da UPF - Universidade de Passo Fundo (UPF) |
| repository.mail.fl_str_mv |
jucelei@upf.br||biblio@upf.br |
| _version_ |
1850430300923887616 |