Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: Mendonça, André Luís da Costa
Orientador(a): Machado, Javam de Castro
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.repositorio.ufc.br/handle/riufc/38796
Resumo: Differential Privacy is a mathematical model designed to hinder the process of distinguishing individuals’ records on statistical databases, while maximizing data utility. Although Differential Privacy has been widely used for protecting the privacy of individual users’ data, it was not designed to provide its guarantees for correlated data, since it considers, in essence, independence of records in the database. Existing techniques using Differential Privacy on correlated data attempt to use dependence parameters or correlation coefficients (such as Pearson or Spearman’s Rank) to measure the correlation among records in a dataset. However, they tend to introduce an amount of noise higher than the necessary in the query answer, decreasing the data utility. Different from the existing works, we propose an approach that clusters similar records, which are more likely to be correlated, based on Density-Based Spatial Clustering of Applications with Noise (DBSCAN) and Gaussian Mixture Model (GMM). Our approach also employs a correlated Laplace mechanism to compute the privatized answers, satisfying the privacy guarantees of Differential Privacy. The experimental evaluation exhibits the benefits of our clustering strategy in terms of effectiveness and efficiency, considering data utility and privacy.
id UFC-7_25cb69bcc698f40fa9118d76faa8c7c6
oai_identifier_str oai:repositorio.ufc.br:riufc/38796
network_acronym_str UFC-7
network_name_str Repositório Institucional da Universidade Federal do Ceará (UFC)
repository_id_str
spelling Mendonça, André Luís da CostaMachado, Javam de Castro2019-01-15T11:54:46Z2019-01-15T11:54:46Z2018MENDONÇA, André Luís da Costa. Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento. 2018. 93 f. Dissertação (Mestrado em Ciência da Computação)-Universidade Federal do Ceará, Fortaleza, 2018.http://www.repositorio.ufc.br/handle/riufc/38796Differential Privacy is a mathematical model designed to hinder the process of distinguishing individuals’ records on statistical databases, while maximizing data utility. Although Differential Privacy has been widely used for protecting the privacy of individual users’ data, it was not designed to provide its guarantees for correlated data, since it considers, in essence, independence of records in the database. Existing techniques using Differential Privacy on correlated data attempt to use dependence parameters or correlation coefficients (such as Pearson or Spearman’s Rank) to measure the correlation among records in a dataset. However, they tend to introduce an amount of noise higher than the necessary in the query answer, decreasing the data utility. Different from the existing works, we propose an approach that clusters similar records, which are more likely to be correlated, based on Density-Based Spatial Clustering of Applications with Noise (DBSCAN) and Gaussian Mixture Model (GMM). Our approach also employs a correlated Laplace mechanism to compute the privatized answers, satisfying the privacy guarantees of Differential Privacy. The experimental evaluation exhibits the benefits of our clustering strategy in terms of effectiveness and efficiency, considering data utility and privacy.A Privacidade Diferencial é um modelo matemático desenvolvido para dificultar o processo de identificação de indivíduos em conjuntos de dados estatísticos mantendo, ainda, a utilidade dos dados elevada. Embora a Privacidade Diferencial tenha sido amplamente utilizada para proteger a privacidade dos indivíduos, ela não foi desenvolvida para prover as mesmas garantias sobre dados correlacionados, uma vez que o modelo considera, em essência, a independência dos dados entre si. As técnicas existentes que utilizam Privacidade Diferencial em dados correlacionados buscam utilizar parâmetros de correlação ou coeficientes de correlação, e.g. Pearson e Spearman, para medir a correlação entre os indivíduos do conjunto de dados. No entanto, tais parâmetros e coeficientes tendem a introduzir, nas respostas das consultas, uma quantidade de ruído maior que a necessária, reduzindo consideravelmente a utilidade dos dados providos. Diferente dos trabalhos existentes, este trabalho propõe uma abordagem que agrupa os indivíduos semelhantes, i.e. aqueles com maior probabilidade de estarem correlacionados, através de duas técnicas de agrupamento: o Agrupamento Espacial Baseado em Densidade de Aplicações com Ruído (DBSCAN) e o Modelo de Mistura de Gaussianas (GMM). A abordagem também emprega o mecanismo de Laplace, que computa o ruído a ser adicionado nas respostas anonimizadas, satisfazendo, assim, as propriedades da Privacidade Diferencial. Os resultados da avaliação experimental confirmam os benefícios da estratégia de agrupamento em termos de eficácia, para melhoramento da utilidade, e desempenho comparado aos trabalhos existentes.Privacidade de dadosPrivacidade diferencialDados correlacionadosAgrupamento de dadosUma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamentoA differentially private approach for correlated data with clusteringinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da Universidade Federal do Ceará (UFC)instname:Universidade Federal do Ceará (UFC)instacron:UFCinfo:eu-repo/semantics/openAccessORIGINAL2018_dis_alcmendonça.pdf2018_dis_alcmendonça.pdfapplication/pdf1217351http://repositorio.ufc.br/bitstream/riufc/38796/3/2018_dis_alcmendon%c3%a7a.pdf9747a145cde0c48a9d2a187056b85419MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.ufc.br/bitstream/riufc/38796/4/license.txt8a4605be74aa9ea9d79846c1fba20a33MD54riufc/387962019-01-15 08:54:46.295oai:repositorio.ufc.br:riufc/38796Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttp://www.repositorio.ufc.br/ri-oai/requestbu@ufc.br || repositorio@ufc.bropendoar:2019-01-15T11:54:46Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)false
dc.title.pt_BR.fl_str_mv Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento
dc.title.en.pt_BR.fl_str_mv A differentially private approach for correlated data with clustering
title Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento
spellingShingle Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento
Mendonça, André Luís da Costa
Privacidade de dados
Privacidade diferencial
Dados correlacionados
Agrupamento de dados
title_short Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento
title_full Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento
title_fullStr Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento
title_full_unstemmed Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento
title_sort Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento
author Mendonça, André Luís da Costa
author_facet Mendonça, André Luís da Costa
author_role author
dc.contributor.author.fl_str_mv Mendonça, André Luís da Costa
dc.contributor.advisor1.fl_str_mv Machado, Javam de Castro
contributor_str_mv Machado, Javam de Castro
dc.subject.por.fl_str_mv Privacidade de dados
Privacidade diferencial
Dados correlacionados
Agrupamento de dados
topic Privacidade de dados
Privacidade diferencial
Dados correlacionados
Agrupamento de dados
description Differential Privacy is a mathematical model designed to hinder the process of distinguishing individuals’ records on statistical databases, while maximizing data utility. Although Differential Privacy has been widely used for protecting the privacy of individual users’ data, it was not designed to provide its guarantees for correlated data, since it considers, in essence, independence of records in the database. Existing techniques using Differential Privacy on correlated data attempt to use dependence parameters or correlation coefficients (such as Pearson or Spearman’s Rank) to measure the correlation among records in a dataset. However, they tend to introduce an amount of noise higher than the necessary in the query answer, decreasing the data utility. Different from the existing works, we propose an approach that clusters similar records, which are more likely to be correlated, based on Density-Based Spatial Clustering of Applications with Noise (DBSCAN) and Gaussian Mixture Model (GMM). Our approach also employs a correlated Laplace mechanism to compute the privatized answers, satisfying the privacy guarantees of Differential Privacy. The experimental evaluation exhibits the benefits of our clustering strategy in terms of effectiveness and efficiency, considering data utility and privacy.
publishDate 2018
dc.date.issued.fl_str_mv 2018
dc.date.accessioned.fl_str_mv 2019-01-15T11:54:46Z
dc.date.available.fl_str_mv 2019-01-15T11:54:46Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MENDONÇA, André Luís da Costa. Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento. 2018. 93 f. Dissertação (Mestrado em Ciência da Computação)-Universidade Federal do Ceará, Fortaleza, 2018.
dc.identifier.uri.fl_str_mv http://www.repositorio.ufc.br/handle/riufc/38796
identifier_str_mv MENDONÇA, André Luís da Costa. Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento. 2018. 93 f. Dissertação (Mestrado em Ciência da Computação)-Universidade Federal do Ceará, Fortaleza, 2018.
url http://www.repositorio.ufc.br/handle/riufc/38796
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal do Ceará (UFC)
instname:Universidade Federal do Ceará (UFC)
instacron:UFC
instname_str Universidade Federal do Ceará (UFC)
instacron_str UFC
institution UFC
reponame_str Repositório Institucional da Universidade Federal do Ceará (UFC)
collection Repositório Institucional da Universidade Federal do Ceará (UFC)
bitstream.url.fl_str_mv http://repositorio.ufc.br/bitstream/riufc/38796/3/2018_dis_alcmendon%c3%a7a.pdf
http://repositorio.ufc.br/bitstream/riufc/38796/4/license.txt
bitstream.checksum.fl_str_mv 9747a145cde0c48a9d2a187056b85419
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)
repository.mail.fl_str_mv bu@ufc.br || repositorio@ufc.br
_version_ 1847792993140998144