Uma abordagem baseada em anonimização para privacidade de dados em plataformas analíticas

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Silva, Hebert de Oliveira, 1989-
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: [s.n.]
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/20.500.12733/1636768
Resumo: Orientadores: Varese Salvador Timoteo, Regina Lúcia de Oliveira Moraes
id UNICAMP-30_c01ecbd58ca3aca05d1e4c301e7003ab
oai_identifier_str oai::1091329
network_acronym_str UNICAMP-30
network_name_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository_id_str
spelling Uma abordagem baseada em anonimização para privacidade de dados em plataformas analíticasAn anonymity-based approach to data privacy in analytical platformsPrivacidadeAnonimização de dadosAnálise de dadosBig dataPrivacidadeData anonymizationData analyticsBig dataOrientadores: Varese Salvador Timoteo, Regina Lúcia de Oliveira MoraesDissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de TecnologiaResumo: A internet está presente em quase todas as atividades do dia a dia dos indivíduos na sociedade moderna. Para muitas dessas atividades (por exemplo, compras on line), é necessário o compartilhamento de dados pessoais (por exemplo, dados cadastrais, localização geográfica, entre outros) e dados sensíveis (por exemplo, número de cartão de crédito, valor de salário, diagnósticos médicos, entre outros), fazendo com que a privacidade de dados seja uma preocupação de toda a sociedade. É comum que esses dados sejam armazenados em nuvens para que possam ser utilizados em serviços e aplicações Web. Compartilhar informações aumenta a capacidade de operação desses serviços, mas, em contrapartida, exige que sejam utilizados mecanismos de proteção dos dados sensíveis, de forma que esses dados não possam ser indevidamente utilizados por pessoas não autorizadas. Um mecanismo que vem sendo utilizado e indicado, em leis e regulamentações, para prover essa proteção é a anonimização de dados. O processo de anonimização tem como objetivo remover identificadores e ofuscar dados sensíveis, porém sua aplicação não é uma tarefa fácil. É necessário conhecimento em contexto multidisciplinar para analisar os dados e avaliar o impacto que a anonimização traz sobre o processo de mineração de dados. O processo de anonimização, ao suprimir ou alterar os dados de origem, limitam a utilidade desses dados na obtenção de resultados significativos do processo de mineração de dados. Surge, assim, a necessidade de se balancear a proteção e a utilidade dos dados, para que seja mantido um equilíbrio entre a privacidade e a utilidade dos dados em um processo de análise de dados, por exemplo. Outro ponto importante é atender as leis e regulamentações aplicáveis, bem como, as políticas de proteção de dados informadas pelo proprietário dos dados. Neste trabalho é apresentada uma abordagem para plataformas de análise de dados baseada em anonimização, a fim de melhorar o trade-off (relação de perda e ganho) entre utilidade dos dados e a privacidade dos indivíduos. A abordagem inicial foi definida em duas etapas de anonimização: a primeira, menos restritiva, deve ser aplicada durante o processo de ETL (Extração, Transformação e Carga); a segunda etapa, mais restritiva, ocorre antes da divulgação de dados para usuários externos às plataformas analíticas e complementa a primeira etapa de anonimização. Esta divisão do processo em estágios reduz o trade-off entre a proteção e a utilidade dos dados. Apoiada por políticas de anonimização oriundas de leis e regulamentações, a abordagem foi integrada no projeto EUBra-BIGSEA, projeto este com foco no desenvolvimento de serviços avançados na nuvem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades inteligentes, utilizados como estudos de caso. A princípio, foi utilizado um conjunto de dados de transporte público da cidade de Curitiba, no sul do Brasil, para verificar se após o processo de anonimização, a acurácia (precisão e exatidão) e o desempenho (tempo de execução) dos algoritmos de classificação (utilizados no processo de mineração de dados) foram melhorados ou apresentaram piores medidas. Essa avaliação foi posteriormente estendida com o uso de conjuntos de dados analíticos, já em outros contextos, da Universidade Califórnia Irvine (UCI). Os resultados dos experimentos mostraram que, no geral, ao aplicar a implementação da abordagem, houve um baixo impacto nos resultados de desempenho e utilidade na plataforma de análise de dados. Em alguns casos específicos, inclusive, o desempenho e acurácia (precisão e exatidão) dos algoritmos de classificação melhoraram. Todos os conjuntos de dados tiveram as entradas e saídas submetidas à análise e simulação de ataques de violação de privacidade. Considerando os ataques emulados, nenhum indivíduo foi reidentificado, sugerindo que a técnica pode ser satisfatória para lidar com o problemaAbstract: The internet is present in almost every day-to-day activity of individuals in modern society. For many of these activities (for example, on line shopping), it is necessary to share personal data (for example, social security ID, geographic information, among others), making data privacy a concern of the whole society. It is common for such data to be stored in clouds so that web services and software applications can use them. Sharing information increases the ability of these services to operate, but requires that sensitive data protection mechanisms be used so that such data cannot be utilized by unauthorized persons. A mechanism that has been used and indicated as a solution, in laws and regulations, to provide this protection is data anonymization. The anonymization process aims to remove identifiers and sensitive data, but its application is not an easy task. It requires knowledge in a multidisciplinary context to analyze the data and evaluate the impact that the anonymization brings on the data mining process. The anonymization by suppressing or changing the source data limits the usefulness of such data in obtaining significant results from the data mining process, for example. So, it is necessary to balance the protection and utility of the data to maintain a balance between privacy and the usefulness of data. Another important point is to comply with the applicable laws and regulations, as well as the business policies informed by the data owner. In this work, it is presented an anonymization-based approach for use in data analytics platforms in order to improve the trade-off between data utility and the individuals privacy. The initial approach was divided in two steps of anonymization: the first, during the ETL (Extract, Transformation, and Load) process anonymizes only identifiers; the second stage occurs before the dissemination of the results to external users of the analytic platforms and complements the first stage anonymization (now on the data mining results), ensuring the privacy of sensitive data. The proposal, supported by privacy policies stemming from laws and regulations, the approach has been integrated into an EUBra-BIGSEA project, which was focussed on cloud services for big data analysis. The solution was applied in Smart Cities systems, used as case studies. At first, a public transportation data from Curitiba (in the south of Brazil), was used to verify if after the anonymization process, accuracy (precision) and performance (runtime) of the classification algorithms were improved or presented worse measures. This evaluation was later extended, using analytical data sets in other context from University of California Irvine (UCI). In general, the experiments results showed that, when applying the approach implementation, a low impact on performance and utility was observed on the results. In some specific cases, the performance and accuracy (precision) of the classification algorithms have even better results. All data sets had input and output submitted to analysis and simulation of privacy breach attacks. Considering the emulated attacks, no individual was re-identified, suggesting that the technique may be satisfactory to deal with the problemMestradoSistemas de Informação e ComunicaçãoMestre em Tecnologia[s.n.]Timoteo, Varese Salvador, 1972-Moraes, Regina Lúcia de Oliveira, 1956-Montecchi, LeonardoRosa, Ferrucio de FrancoUniversidade Estadual de Campinas (UNICAMP). Faculdade de TecnologiaPrograma de Pós-Graduação em TecnologiaUNIVERSIDADE ESTADUAL DE CAMPINASSilva, Hebert de Oliveira, 1989-20192019-02-25T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf1 recurso online (117 p.) : il., digital, arquivo PDF.https://hdl.handle.net/20.500.12733/1636768SILVA, Hebert de Oliveira. Uma abordagem baseada em anonimização para privacidade de dados em plataformas analíticas. 2019. 1 recurso online (117 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia, Limeira, SP. Disponível em: https://hdl.handle.net/20.500.12733/1636768. Acesso em: 28 fev. 2025.https://repositorio.unicamp.br/acervo/detalhe/1091329Requisitos do sistema: Software para leitura de arquivo em PDFporreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2019-08-15T16:18:11Zoai::1091329Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2019-08-15T16:18:11Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false
dc.title.none.fl_str_mv Uma abordagem baseada em anonimização para privacidade de dados em plataformas analíticas
An anonymity-based approach to data privacy in analytical platforms
title Uma abordagem baseada em anonimização para privacidade de dados em plataformas analíticas
spellingShingle Uma abordagem baseada em anonimização para privacidade de dados em plataformas analíticas
Silva, Hebert de Oliveira, 1989-
Privacidade
Anonimização de dados
Análise de dados
Big data
Privacidade
Data anonymization
Data analytics
Big data
title_short Uma abordagem baseada em anonimização para privacidade de dados em plataformas analíticas
title_full Uma abordagem baseada em anonimização para privacidade de dados em plataformas analíticas
title_fullStr Uma abordagem baseada em anonimização para privacidade de dados em plataformas analíticas
title_full_unstemmed Uma abordagem baseada em anonimização para privacidade de dados em plataformas analíticas
title_sort Uma abordagem baseada em anonimização para privacidade de dados em plataformas analíticas
author Silva, Hebert de Oliveira, 1989-
author_facet Silva, Hebert de Oliveira, 1989-
author_role author
dc.contributor.none.fl_str_mv Timoteo, Varese Salvador, 1972-
Moraes, Regina Lúcia de Oliveira, 1956-
Montecchi, Leonardo
Rosa, Ferrucio de Franco
Universidade Estadual de Campinas (UNICAMP). Faculdade de Tecnologia
Programa de Pós-Graduação em Tecnologia
UNIVERSIDADE ESTADUAL DE CAMPINAS
dc.contributor.author.fl_str_mv Silva, Hebert de Oliveira, 1989-
dc.subject.por.fl_str_mv Privacidade
Anonimização de dados
Análise de dados
Big data
Privacidade
Data anonymization
Data analytics
Big data
topic Privacidade
Anonimização de dados
Análise de dados
Big data
Privacidade
Data anonymization
Data analytics
Big data
description Orientadores: Varese Salvador Timoteo, Regina Lúcia de Oliveira Moraes
publishDate 2019
dc.date.none.fl_str_mv 2019
2019-02-25T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/20.500.12733/1636768
SILVA, Hebert de Oliveira. Uma abordagem baseada em anonimização para privacidade de dados em plataformas analíticas. 2019. 1 recurso online (117 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia, Limeira, SP. Disponível em: https://hdl.handle.net/20.500.12733/1636768. Acesso em: 28 fev. 2025.
url https://hdl.handle.net/20.500.12733/1636768
identifier_str_mv SILVA, Hebert de Oliveira. Uma abordagem baseada em anonimização para privacidade de dados em plataformas analíticas. 2019. 1 recurso online (117 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia, Limeira, SP. Disponível em: https://hdl.handle.net/20.500.12733/1636768. Acesso em: 28 fev. 2025.
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://repositorio.unicamp.br/acervo/detalhe/1091329
Requisitos do sistema: Software para leitura de arquivo em PDF
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
1 recurso online (117 p.) : il., digital, arquivo PDF.
dc.publisher.none.fl_str_mv [s.n.]
publisher.none.fl_str_mv [s.n.]
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
instname:Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
instname_str Universidade Estadual de Campinas (UNICAMP)
instacron_str UNICAMP
institution UNICAMP
reponame_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
collection Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)
repository.mail.fl_str_mv sbubd@unicamp.br
_version_ 1829137679964438528