Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural

Goldschmidt, Guilherme

Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural

Detalhes bibliográficos
Ano de defesa:	2021
Autor(a) principal:	Goldschmidt, Guilherme
Orientador(a):	Righi, Rodrigo da Rosa
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade do Vale do Rio dos Sinos
Programa de Pós-Graduação:	Programa de Pós-Graduação em Computação Aplicada
Departamento:	Escola Politécnica
País:	Brasil
Palavras-chave em Português:	Prontuários médicos eletrônicos Prevenção ao vazamento de informação Processamento de linguagem natural
Palavras-chave em Inglês:	Electronic health record Data leakage prevention Natural language processing
Área do conhecimento CNPq:	ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
Link de acesso:	http://www.repositorio.jesuita.org.br/handle/UNISINOS/10900
Resumo:	Na última década, houve um aumento constante de violações de segurança na área de saúde. Um estudo sobre privacidade de pacientes e segurança de dados mostrou que 94% dos hospitais tiveram pelo menos uma violação de segurança nos últimos dois anos. Na maioria dos casos, os ataques tiveram origem por parte de atores internos. Dessa forma, é essencial que as organizações de saúde protejam suas informações sensíveis como, resultados de exames, diagnósticos, prescrições, pesquisas e informações pessoais de clientes. Um vazamento de dados sensíveis pode resultar em uma grande perda econômica e ou dano à imagem da organização. Há no Brasil ainda a Lei Geral de Proteção de Dados Pessoais (LGPD), que dispõem sobre diversos aspectos da proteção pessoal de informações. Sistemas para a proteção da informação foram se concretizando ao longo dos últimos anos, como firewalls, intrusion detection and prevention systems (IDS/IPS) e virtual private networks. No entanto, essas tecnologias funcionam muito bem em dados bem definidos, estruturados e constantes, diferente do que são os prontuários médicos que possuem campos de escrita livre. Para complementar essas tecnologias há os sistemas de prevenção ao vazamento de dados, denominados Data Leakage Prevention Systems (DLPS). Sistemas de DLP ajudam a identificar, monitorar, proteger e reduzir os riscos de vazamento de dados sensíveis. No entanto as soluções convencionais de DLP utilizam apenas comparações por assinatura e ou comparação estática. Dessa forma, propomos desenvolver um modelo com base em novas tecnologias como Processamento de Linguagem Natural (PLN), Reconhecimento de Entidades (NER) e Redes Neurais Artificiais (RNA) com o objetivo de ser mais assertivo na extração de informação e no reconhecimento de entidades. Contribuindo assim com novas perspectivas à literatura e por conseguinte à comunidade cientifica. Foram implementadas e testadas três abordagens, duas a partir de RNA e a seguinte com base em algoritmos de aprendizado de máquina. Como resultado, a abordagem que teve em sua implementação a utilização de algoritmo de aprendizado de máquina atingiu 98.0% de Precisão, 86.0% de Recall e 91.0% de F1-Score.

Metadados do item

id	USIN_2c477d829467df4541443c652abd4228
oai_identifier_str	oai:www.repositorio.jesuita.org.br:UNISINOS/10900
network_acronym_str	USIN
network_name_str	Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
repository_id_str
spelling	2022-03-15T16:53:44Z2022-03-15T16:53:44Z2021-12-21Submitted by Anna Barbara Alves Beraldine (annabarbara@unisinos.br) on 2022-03-15T16:53:44Z No. of bitstreams: 1 Guilherme Goldschmidt_.pdf: 1525378 bytes, checksum: 7d68985ac301706fff53deb127de5705 (MD5)Made available in DSpace on 2022-03-15T16:53:44Z (GMT). No. of bitstreams: 1 Guilherme Goldschmidt_.pdf: 1525378 bytes, checksum: 7d68985ac301706fff53deb127de5705 (MD5) Previous issue date: 2021-12-21Na última década, houve um aumento constante de violações de segurança na área de saúde. Um estudo sobre privacidade de pacientes e segurança de dados mostrou que 94% dos hospitais tiveram pelo menos uma violação de segurança nos últimos dois anos. Na maioria dos casos, os ataques tiveram origem por parte de atores internos. Dessa forma, é essencial que as organizações de saúde protejam suas informações sensíveis como, resultados de exames, diagnósticos, prescrições, pesquisas e informações pessoais de clientes. Um vazamento de dados sensíveis pode resultar em uma grande perda econômica e ou dano à imagem da organização. Há no Brasil ainda a Lei Geral de Proteção de Dados Pessoais (LGPD), que dispõem sobre diversos aspectos da proteção pessoal de informações. Sistemas para a proteção da informação foram se concretizando ao longo dos últimos anos, como firewalls, intrusion detection and prevention systems (IDS/IPS) e virtual private networks. No entanto, essas tecnologias funcionam muito bem em dados bem definidos, estruturados e constantes, diferente do que são os prontuários médicos que possuem campos de escrita livre. Para complementar essas tecnologias há os sistemas de prevenção ao vazamento de dados, denominados Data Leakage Prevention Systems (DLPS). Sistemas de DLP ajudam a identificar, monitorar, proteger e reduzir os riscos de vazamento de dados sensíveis. No entanto as soluções convencionais de DLP utilizam apenas comparações por assinatura e ou comparação estática. Dessa forma, propomos desenvolver um modelo com base em novas tecnologias como Processamento de Linguagem Natural (PLN), Reconhecimento de Entidades (NER) e Redes Neurais Artificiais (RNA) com o objetivo de ser mais assertivo na extração de informação e no reconhecimento de entidades. Contribuindo assim com novas perspectivas à literatura e por conseguinte à comunidade cientifica. Foram implementadas e testadas três abordagens, duas a partir de RNA e a seguinte com base em algoritmos de aprendizado de máquina. Como resultado, a abordagem que teve em sua implementação a utilização de algoritmo de aprendizado de máquina atingiu 98.0% de Precisão, 86.0% de Recall e 91.0% de F1-Score.Over the past decade, there has been a steady increase in healthcare security breaches. A study on patient privacy and data security showed that 94% of hospitals had at least one security breach in the past two years. In most cases, the attacks originated from internal actors. Therefore, it is essential that healthcare organizations protect their sensitive information such as test results, diagnoses, prescriptions, surveys, and personal customer information. A leak of sensitive data can result in a great economic loss and/or damage to the organization’s image. There is also in Brazil the General Law for the Protection of Personal Data (LGPD), which provides for various aspects of the personal protection of information. Information protection systems have been taking shape over the last few years, such as firewalls, intrusion detection and prevention systems (IDS/IPS) and virtual private networks (VPN). However, these technologies work very well on well-defined, structured and constant data, unlike medical records that have free writing fields. Complementing these technologies are Data Leakage Prevention Systems (DLPS). DLP systems help to identify, monitor, protect and reduce the risk of leaking sensitive data. However, conventional DLP solutions use only subscription comparisons and/or static comparisons. Thus, we propose to develop a model based on new technologies such as Natural Language Processing (NLP), Entity Recognition (NER) and Artificial Neural Networks (ANN) to be more assertive in extracting information and recognizing entities. Thus contributing with new perspectives to literature and therefore to the scientific community. Three approaches were implemented and tested, two based on ANN and the next based on machine learning algorithms. As a result, the approach that took in its implementation the use of machine learning algorithm reached 98.0% of Accuracy, 86.0% of Recall and 91.0% of F1-Score. Keywords: Electronic Health RecordCNPQ – Conselho Nacional de Desenvolvimento Científico e TecnológicoGoldschmidt, Guilhermehttp://lattes.cnpq.br/0727691512191654http://lattes.cnpq.br/2332604239081900Righi, Rodrigo da RosaUniversidade do Vale do Rio dos SinosPrograma de Pós-Graduação em Computação AplicadaUnisinosBrasilEscola PolitécnicaArterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem naturalACCNPQ::Ciências Exatas e da Terra::Ciência da ComputaçãoProntuários médicos eletrônicosPrevenção ao vazamento de informaçãoProcessamento de linguagem naturalElectronic health recordData leakage preventionNatural language processinginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://www.repositorio.jesuita.org.br/handle/UNISINOS/10900info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)instname:Universidade do Vale do Rio dos Sinos (UNISINOS)instacron:UNISINOSORIGINALGuilherme Goldschmidt_.pdfGuilherme Goldschmidt_.pdfapplication/pdf1525378http://repositorio.jesuita.org.br/bitstream/UNISINOS/10900/1/Guilherme+Goldschmidt_.pdf7d68985ac301706fff53deb127de5705MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82175http://repositorio.jesuita.org.br/bitstream/UNISINOS/10900/2/license.txt320e21f23402402ac4988605e1edd177MD52UNISINOS/109002022-03-15 13:54:13.614oai:www.repositorio.jesuita.org.br:UNISINOS/10900Ck5PVEE6IENPTE9RVUUgQVFVSSBBIFNVQSBQUsOTUFJJQSBMSUNFTsOHQQoKRXN0YSBsaWNlbsOnYSBkZSBleGVtcGxvIMOpIGZvcm5lY2lkYSBhcGVuYXMgcGFyYSBmaW5zIGluZm9ybWF0aXZvcy4KCkxpY2Vuw6dhIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHDp8OjbyBkZXN0YSBsaWNlbsOnYSwgdm9jw6ogKG8gYXV0b3IgKGVzKSBvdSBvIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yKSBjb25jZWRlIMOgIApVbml2ZXJzaWRhZGUgZG8gVmFsZSBkbyBSaW8gZG9zIFNpbm9zIChVTklTSU5PUykgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdSAKZGlzdHJpYnVpciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gKGluY2x1aW5kbyBvIHJlc3VtbykgcG9yIHRvZG8gbyBtdW5kbyBubyBmb3JtYXRvIGltcHJlc3NvIGUgZWxldHLDtG5pY28gZSAKZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBjb25jb3JkYSBxdWUgYSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAKcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgYSBzdWEgdGVzZSBvdSAKZGlzc2VydGHDp8OjbyBwYXJhIGZpbnMgZGUgc2VndXJhbsOnYSwgYmFjay11cCBlIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgCm5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IApjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogCmRlY2xhcmEgcXVlIG9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciDDoCBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgCm9zIGRpcmVpdG9zIGFwcmVzZW50YWRvcyBuZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBkZSBwcm9wcmllZGFkZSBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSAKaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgCkFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTyBRVUUgTsODTyBTRUpBIEEgU0lHTEEgREUgClVOSVZFUlNJREFERSwgVk9Dw4ogREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklTw4NPIENPTU8gClRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKQSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIApkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbywgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyAKY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Teses e Dissertaçõeshttp://www.repositorio.jesuita.org.br/oai/requestopendoar:2022-03-15T16:54:13Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)false
dc.title.pt_BR.fl_str_mv	Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural
title	Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural
spellingShingle	Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural Goldschmidt, Guilherme ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação Prontuários médicos eletrônicos Prevenção ao vazamento de informação Processamento de linguagem natural Electronic health record Data leakage prevention Natural language processing
title_short	Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural
title_full	Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural
title_fullStr	Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural
title_full_unstemmed	Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural
title_sort	Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural
author	Goldschmidt, Guilherme
author_facet	Goldschmidt, Guilherme
author_role	author
dc.contributor.authorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/0727691512191654
dc.contributor.advisorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/2332604239081900
dc.contributor.author.fl_str_mv	Goldschmidt, Guilherme
dc.contributor.advisor1.fl_str_mv	Righi, Rodrigo da Rosa
contributor_str_mv	Righi, Rodrigo da Rosa
dc.subject.cnpq.fl_str_mv	ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
topic	ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação Prontuários médicos eletrônicos Prevenção ao vazamento de informação Processamento de linguagem natural Electronic health record Data leakage prevention Natural language processing
dc.subject.por.fl_str_mv	Prontuários médicos eletrônicos Prevenção ao vazamento de informação Processamento de linguagem natural
dc.subject.eng.fl_str_mv	Electronic health record Data leakage prevention Natural language processing
description	Na última década, houve um aumento constante de violações de segurança na área de saúde. Um estudo sobre privacidade de pacientes e segurança de dados mostrou que 94% dos hospitais tiveram pelo menos uma violação de segurança nos últimos dois anos. Na maioria dos casos, os ataques tiveram origem por parte de atores internos. Dessa forma, é essencial que as organizações de saúde protejam suas informações sensíveis como, resultados de exames, diagnósticos, prescrições, pesquisas e informações pessoais de clientes. Um vazamento de dados sensíveis pode resultar em uma grande perda econômica e ou dano à imagem da organização. Há no Brasil ainda a Lei Geral de Proteção de Dados Pessoais (LGPD), que dispõem sobre diversos aspectos da proteção pessoal de informações. Sistemas para a proteção da informação foram se concretizando ao longo dos últimos anos, como firewalls, intrusion detection and prevention systems (IDS/IPS) e virtual private networks. No entanto, essas tecnologias funcionam muito bem em dados bem definidos, estruturados e constantes, diferente do que são os prontuários médicos que possuem campos de escrita livre. Para complementar essas tecnologias há os sistemas de prevenção ao vazamento de dados, denominados Data Leakage Prevention Systems (DLPS). Sistemas de DLP ajudam a identificar, monitorar, proteger e reduzir os riscos de vazamento de dados sensíveis. No entanto as soluções convencionais de DLP utilizam apenas comparações por assinatura e ou comparação estática. Dessa forma, propomos desenvolver um modelo com base em novas tecnologias como Processamento de Linguagem Natural (PLN), Reconhecimento de Entidades (NER) e Redes Neurais Artificiais (RNA) com o objetivo de ser mais assertivo na extração de informação e no reconhecimento de entidades. Contribuindo assim com novas perspectivas à literatura e por conseguinte à comunidade cientifica. Foram implementadas e testadas três abordagens, duas a partir de RNA e a seguinte com base em algoritmos de aprendizado de máquina. Como resultado, a abordagem que teve em sua implementação a utilização de algoritmo de aprendizado de máquina atingiu 98.0% de Precisão, 86.0% de Recall e 91.0% de F1-Score.
publishDate	2021
dc.date.issued.fl_str_mv	2021-12-21
dc.date.accessioned.fl_str_mv	2022-03-15T16:53:44Z
dc.date.available.fl_str_mv	2022-03-15T16:53:44Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://www.repositorio.jesuita.org.br/handle/UNISINOS/10900
url	http://www.repositorio.jesuita.org.br/handle/UNISINOS/10900
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade do Vale do Rio dos Sinos
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Computação Aplicada
dc.publisher.initials.fl_str_mv	Unisinos
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	Escola Politécnica
publisher.none.fl_str_mv	Universidade do Vale do Rio dos Sinos
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) instname:Universidade do Vale do Rio dos Sinos (UNISINOS) instacron:UNISINOS
instname_str	Universidade do Vale do Rio dos Sinos (UNISINOS)
instacron_str	UNISINOS
institution	UNISINOS
reponame_str	Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
collection	Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
bitstream.url.fl_str_mv	http://repositorio.jesuita.org.br/bitstream/UNISINOS/10900/1/Guilherme+Goldschmidt_.pdf http://repositorio.jesuita.org.br/bitstream/UNISINOS/10900/2/license.txt
bitstream.checksum.fl_str_mv	7d68985ac301706fff53deb127de5705 320e21f23402402ac4988605e1edd177
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)
repository.mail.fl_str_mv
_version_	1797220912538320896

Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural

Registros relacionados