Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Goldschmidt, Guilherme
Orientador(a): Righi, Rodrigo da Rosa
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade do Vale do Rio dos Sinos
Programa de Pós-Graduação: Programa de Pós-Graduação em Computação Aplicada
Departamento: Escola Politécnica
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://www.repositorio.jesuita.org.br/handle/UNISINOS/10900
Resumo: Na última década, houve um aumento constante de violações de segurança na área de saúde. Um estudo sobre privacidade de pacientes e segurança de dados mostrou que 94% dos hospitais tiveram pelo menos uma violação de segurança nos últimos dois anos. Na maioria dos casos, os ataques tiveram origem por parte de atores internos. Dessa forma, é essencial que as organizações de saúde protejam suas informações sensíveis como, resultados de exames, diagnósticos, prescrições, pesquisas e informações pessoais de clientes. Um vazamento de dados sensíveis pode resultar em uma grande perda econômica e ou dano à imagem da organização. Há no Brasil ainda a Lei Geral de Proteção de Dados Pessoais (LGPD), que dispõem sobre diversos aspectos da proteção pessoal de informações. Sistemas para a proteção da informação foram se concretizando ao longo dos últimos anos, como firewalls, intrusion detection and prevention systems (IDS/IPS) e virtual private networks. No entanto, essas tecnologias funcionam muito bem em dados bem definidos, estruturados e constantes, diferente do que são os prontuários médicos que possuem campos de escrita livre. Para complementar essas tecnologias há os sistemas de prevenção ao vazamento de dados, denominados Data Leakage Prevention Systems (DLPS). Sistemas de DLP ajudam a identificar, monitorar, proteger e reduzir os riscos de vazamento de dados sensíveis. No entanto as soluções convencionais de DLP utilizam apenas comparações por assinatura e ou comparação estática. Dessa forma, propomos desenvolver um modelo com base em novas tecnologias como Processamento de Linguagem Natural (PLN), Reconhecimento de Entidades (NER) e Redes Neurais Artificiais (RNA) com o objetivo de ser mais assertivo na extração de informação e no reconhecimento de entidades. Contribuindo assim com novas perspectivas à literatura e por conseguinte à comunidade cientifica. Foram implementadas e testadas três abordagens, duas a partir de RNA e a seguinte com base em algoritmos de aprendizado de máquina. Como resultado, a abordagem que teve em sua implementação a utilização de algoritmo de aprendizado de máquina atingiu 98.0% de Precisão, 86.0% de Recall e 91.0% de F1-Score.
id USIN_2c477d829467df4541443c652abd4228
oai_identifier_str oai:www.repositorio.jesuita.org.br:UNISINOS/10900
network_acronym_str USIN
network_name_str Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
repository_id_str
spelling 2022-03-15T16:53:44Z2022-03-15T16:53:44Z2021-12-21Submitted by Anna Barbara Alves Beraldine (annabarbara@unisinos.br) on 2022-03-15T16:53:44Z No. of bitstreams: 1 Guilherme Goldschmidt_.pdf: 1525378 bytes, checksum: 7d68985ac301706fff53deb127de5705 (MD5)Made available in DSpace on 2022-03-15T16:53:44Z (GMT). No. of bitstreams: 1 Guilherme Goldschmidt_.pdf: 1525378 bytes, checksum: 7d68985ac301706fff53deb127de5705 (MD5) Previous issue date: 2021-12-21Na última década, houve um aumento constante de violações de segurança na área de saúde. Um estudo sobre privacidade de pacientes e segurança de dados mostrou que 94% dos hospitais tiveram pelo menos uma violação de segurança nos últimos dois anos. Na maioria dos casos, os ataques tiveram origem por parte de atores internos. Dessa forma, é essencial que as organizações de saúde protejam suas informações sensíveis como, resultados de exames, diagnósticos, prescrições, pesquisas e informações pessoais de clientes. Um vazamento de dados sensíveis pode resultar em uma grande perda econômica e ou dano à imagem da organização. Há no Brasil ainda a Lei Geral de Proteção de Dados Pessoais (LGPD), que dispõem sobre diversos aspectos da proteção pessoal de informações. Sistemas para a proteção da informação foram se concretizando ao longo dos últimos anos, como firewalls, intrusion detection and prevention systems (IDS/IPS) e virtual private networks. No entanto, essas tecnologias funcionam muito bem em dados bem definidos, estruturados e constantes, diferente do que são os prontuários médicos que possuem campos de escrita livre. Para complementar essas tecnologias há os sistemas de prevenção ao vazamento de dados, denominados Data Leakage Prevention Systems (DLPS). Sistemas de DLP ajudam a identificar, monitorar, proteger e reduzir os riscos de vazamento de dados sensíveis. No entanto as soluções convencionais de DLP utilizam apenas comparações por assinatura e ou comparação estática. Dessa forma, propomos desenvolver um modelo com base em novas tecnologias como Processamento de Linguagem Natural (PLN), Reconhecimento de Entidades (NER) e Redes Neurais Artificiais (RNA) com o objetivo de ser mais assertivo na extração de informação e no reconhecimento de entidades. Contribuindo assim com novas perspectivas à literatura e por conseguinte à comunidade cientifica. Foram implementadas e testadas três abordagens, duas a partir de RNA e a seguinte com base em algoritmos de aprendizado de máquina. Como resultado, a abordagem que teve em sua implementação a utilização de algoritmo de aprendizado de máquina atingiu 98.0% de Precisão, 86.0% de Recall e 91.0% de F1-Score.Over the past decade, there has been a steady increase in healthcare security breaches. A study on patient privacy and data security showed that 94% of hospitals had at least one security breach in the past two years. In most cases, the attacks originated from internal actors. Therefore, it is essential that healthcare organizations protect their sensitive information such as test results, diagnoses, prescriptions, surveys, and personal customer information. A leak of sensitive data can result in a great economic loss and/or damage to the organization’s image. There is also in Brazil the General Law for the Protection of Personal Data (LGPD), which provides for various aspects of the personal protection of information. Information protection systems have been taking shape over the last few years, such as firewalls, intrusion detection and prevention systems (IDS/IPS) and virtual private networks (VPN). However, these technologies work very well on well-defined, structured and constant data, unlike medical records that have free writing fields. Complementing these technologies are Data Leakage Prevention Systems (DLPS). DLP systems help to identify, monitor, protect and reduce the risk of leaking sensitive data. However, conventional DLP solutions use only subscription comparisons and/or static comparisons. Thus, we propose to develop a model based on new technologies such as Natural Language Processing (NLP), Entity Recognition (NER) and Artificial Neural Networks (ANN) to be more assertive in extracting information and recognizing entities. Thus contributing with new perspectives to literature and therefore to the scientific community. Three approaches were implemented and tested, two based on ANN and the next based on machine learning algorithms. As a result, the approach that took in its implementation the use of machine learning algorithm reached 98.0% of Accuracy, 86.0% of Recall and 91.0% of F1-Score. Keywords: Electronic Health RecordCNPQ – Conselho Nacional de Desenvolvimento Científico e TecnológicoGoldschmidt, Guilhermehttp://lattes.cnpq.br/0727691512191654http://lattes.cnpq.br/2332604239081900Righi, Rodrigo da RosaUniversidade do Vale do Rio dos SinosPrograma de Pós-Graduação em Computação AplicadaUnisinosBrasilEscola PolitécnicaArterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem naturalACCNPQ::Ciências Exatas e da Terra::Ciência da ComputaçãoProntuários médicos eletrônicosPrevenção ao vazamento de informaçãoProcessamento de linguagem naturalElectronic health recordData leakage preventionNatural language processinginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://www.repositorio.jesuita.org.br/handle/UNISINOS/10900info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)instname:Universidade do Vale do Rio dos Sinos (UNISINOS)instacron:UNISINOSORIGINALGuilherme Goldschmidt_.pdfGuilherme Goldschmidt_.pdfapplication/pdf1525378http://repositorio.jesuita.org.br/bitstream/UNISINOS/10900/1/Guilherme+Goldschmidt_.pdf7d68985ac301706fff53deb127de5705MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82175http://repositorio.jesuita.org.br/bitstream/UNISINOS/10900/2/license.txt320e21f23402402ac4988605e1edd177MD52UNISINOS/109002022-03-15 13:54:13.614oai:www.repositorio.jesuita.org.br:UNISINOS/10900Ck5PVEE6IENPTE9RVUUgQVFVSSBBIFNVQSBQUsOTUFJJQSBMSUNFTsOHQQoKRXN0YSBsaWNlbsOnYSBkZSBleGVtcGxvIMOpIGZvcm5lY2lkYSBhcGVuYXMgcGFyYSBmaW5zIGluZm9ybWF0aXZvcy4KCkxpY2Vuw6dhIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHDp8OjbyBkZXN0YSBsaWNlbsOnYSwgdm9jw6ogKG8gYXV0b3IgKGVzKSBvdSBvIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yKSBjb25jZWRlIMOgIApVbml2ZXJzaWRhZGUgZG8gVmFsZSBkbyBSaW8gZG9zIFNpbm9zIChVTklTSU5PUykgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdSAKZGlzdHJpYnVpciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gKGluY2x1aW5kbyBvIHJlc3VtbykgcG9yIHRvZG8gbyBtdW5kbyBubyBmb3JtYXRvIGltcHJlc3NvIGUgZWxldHLDtG5pY28gZSAKZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBjb25jb3JkYSBxdWUgYSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAKcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgYSBzdWEgdGVzZSBvdSAKZGlzc2VydGHDp8OjbyBwYXJhIGZpbnMgZGUgc2VndXJhbsOnYSwgYmFjay11cCBlIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgCm5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IApjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogCmRlY2xhcmEgcXVlIG9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciDDoCBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgCm9zIGRpcmVpdG9zIGFwcmVzZW50YWRvcyBuZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBkZSBwcm9wcmllZGFkZSBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSAKaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgCkFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTyBRVUUgTsODTyBTRUpBIEEgU0lHTEEgREUgClVOSVZFUlNJREFERSwgVk9Dw4ogREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklTw4NPIENPTU8gClRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKQSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIApkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbywgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyAKY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Teses e Dissertaçõeshttp://www.repositorio.jesuita.org.br/oai/requestopendoar:2022-03-15T16:54:13Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)false
dc.title.pt_BR.fl_str_mv Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural
title Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural
spellingShingle Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural
Goldschmidt, Guilherme
ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
Prontuários médicos eletrônicos
Prevenção ao vazamento de informação
Processamento de linguagem natural
Electronic health record
Data leakage prevention
Natural language processing
title_short Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural
title_full Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural
title_fullStr Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural
title_full_unstemmed Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural
title_sort Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural
author Goldschmidt, Guilherme
author_facet Goldschmidt, Guilherme
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/0727691512191654
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/2332604239081900
dc.contributor.author.fl_str_mv Goldschmidt, Guilherme
dc.contributor.advisor1.fl_str_mv Righi, Rodrigo da Rosa
contributor_str_mv Righi, Rodrigo da Rosa
dc.subject.cnpq.fl_str_mv ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
topic ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
Prontuários médicos eletrônicos
Prevenção ao vazamento de informação
Processamento de linguagem natural
Electronic health record
Data leakage prevention
Natural language processing
dc.subject.por.fl_str_mv Prontuários médicos eletrônicos
Prevenção ao vazamento de informação
Processamento de linguagem natural
dc.subject.eng.fl_str_mv Electronic health record
Data leakage prevention
Natural language processing
description Na última década, houve um aumento constante de violações de segurança na área de saúde. Um estudo sobre privacidade de pacientes e segurança de dados mostrou que 94% dos hospitais tiveram pelo menos uma violação de segurança nos últimos dois anos. Na maioria dos casos, os ataques tiveram origem por parte de atores internos. Dessa forma, é essencial que as organizações de saúde protejam suas informações sensíveis como, resultados de exames, diagnósticos, prescrições, pesquisas e informações pessoais de clientes. Um vazamento de dados sensíveis pode resultar em uma grande perda econômica e ou dano à imagem da organização. Há no Brasil ainda a Lei Geral de Proteção de Dados Pessoais (LGPD), que dispõem sobre diversos aspectos da proteção pessoal de informações. Sistemas para a proteção da informação foram se concretizando ao longo dos últimos anos, como firewalls, intrusion detection and prevention systems (IDS/IPS) e virtual private networks. No entanto, essas tecnologias funcionam muito bem em dados bem definidos, estruturados e constantes, diferente do que são os prontuários médicos que possuem campos de escrita livre. Para complementar essas tecnologias há os sistemas de prevenção ao vazamento de dados, denominados Data Leakage Prevention Systems (DLPS). Sistemas de DLP ajudam a identificar, monitorar, proteger e reduzir os riscos de vazamento de dados sensíveis. No entanto as soluções convencionais de DLP utilizam apenas comparações por assinatura e ou comparação estática. Dessa forma, propomos desenvolver um modelo com base em novas tecnologias como Processamento de Linguagem Natural (PLN), Reconhecimento de Entidades (NER) e Redes Neurais Artificiais (RNA) com o objetivo de ser mais assertivo na extração de informação e no reconhecimento de entidades. Contribuindo assim com novas perspectivas à literatura e por conseguinte à comunidade cientifica. Foram implementadas e testadas três abordagens, duas a partir de RNA e a seguinte com base em algoritmos de aprendizado de máquina. Como resultado, a abordagem que teve em sua implementação a utilização de algoritmo de aprendizado de máquina atingiu 98.0% de Precisão, 86.0% de Recall e 91.0% de F1-Score.
publishDate 2021
dc.date.issued.fl_str_mv 2021-12-21
dc.date.accessioned.fl_str_mv 2022-03-15T16:53:44Z
dc.date.available.fl_str_mv 2022-03-15T16:53:44Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.repositorio.jesuita.org.br/handle/UNISINOS/10900
url http://www.repositorio.jesuita.org.br/handle/UNISINOS/10900
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade do Vale do Rio dos Sinos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Computação Aplicada
dc.publisher.initials.fl_str_mv Unisinos
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola Politécnica
publisher.none.fl_str_mv Universidade do Vale do Rio dos Sinos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
instname:Universidade do Vale do Rio dos Sinos (UNISINOS)
instacron:UNISINOS
instname_str Universidade do Vale do Rio dos Sinos (UNISINOS)
instacron_str UNISINOS
institution UNISINOS
reponame_str Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
collection Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
bitstream.url.fl_str_mv http://repositorio.jesuita.org.br/bitstream/UNISINOS/10900/1/Guilherme+Goldschmidt_.pdf
http://repositorio.jesuita.org.br/bitstream/UNISINOS/10900/2/license.txt
bitstream.checksum.fl_str_mv 7d68985ac301706fff53deb127de5705
320e21f23402402ac4988605e1edd177
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)
repository.mail.fl_str_mv
_version_ 1797220912538320896