A Novel Privacy-Preserving Method for Graphs with Autoencoder Representations

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Oliveira, Gustavo Lima de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-13082025-141242/
Resumo: Sharing data publicly or among entities with similar interests can lead to the development of more robust applications and the resolution of complex problems. In the context of machine learning, for instance, training models with diverse data sources increases the efficiency and effectiveness of the solutions developed. With the massive use and generation of data in computational systems, it is becoming increasingly essential to implement solutions that enable the analysis and extraction of latent information from large volumes of data. However, a growing concern in this scenario is the privacy and security of users sensitive information. Around the world, laws and regulatory tools have emerged to prevent leaks and protect the integrity of stored information. In addition to leaks resulting from social engineering strategies, data that have been anonymized using traditional methods can still be exposed. With the evolution of machine learning models, data attacks have also become more sophisticated. In this context, graph-based strategies have shown promise, as they implicitly capture the attributes and relationships between instances in the dataset. In light of the challenges presented, this dissertation proposes an advancement in privacy preservation within graph-based strategies. Through the use of autoencoders, we aim to penalize the correct classification of sensitive attributes while maintaining the utility of the data for subsequent tasks. The method has been applied in various contexts and data sources, such as medical information and social media, and has demonstrated significant results compared to traditional approaches, especially when there is a strong correlation between useful and private data. Finally, among the main contributions of this dissertation are: (i) a method for generating k-NN graphs that takes privacy into account; (ii) a specific method for medical data that utilizes a heterogeneous information network; and (iii) an approach aimed at unstructured data from social networks.
id USP_25c489f9d6cef1311d4ae15df3b56871
oai_identifier_str oai:teses.usp.br:tde-13082025-141242
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling A Novel Privacy-Preserving Method for Graphs with Autoencoder RepresentationsUm Novo Método de Preservação de Privacidade para Grafos com Representações de AutoencoderAprendizado de preservação de privacidadeAutoencoder para grafosGraph autoencoderGraph-based representationPrivacy-preserving learningRepresentação em grafosSharing data publicly or among entities with similar interests can lead to the development of more robust applications and the resolution of complex problems. In the context of machine learning, for instance, training models with diverse data sources increases the efficiency and effectiveness of the solutions developed. With the massive use and generation of data in computational systems, it is becoming increasingly essential to implement solutions that enable the analysis and extraction of latent information from large volumes of data. However, a growing concern in this scenario is the privacy and security of users sensitive information. Around the world, laws and regulatory tools have emerged to prevent leaks and protect the integrity of stored information. In addition to leaks resulting from social engineering strategies, data that have been anonymized using traditional methods can still be exposed. With the evolution of machine learning models, data attacks have also become more sophisticated. In this context, graph-based strategies have shown promise, as they implicitly capture the attributes and relationships between instances in the dataset. In light of the challenges presented, this dissertation proposes an advancement in privacy preservation within graph-based strategies. Through the use of autoencoders, we aim to penalize the correct classification of sensitive attributes while maintaining the utility of the data for subsequent tasks. The method has been applied in various contexts and data sources, such as medical information and social media, and has demonstrated significant results compared to traditional approaches, especially when there is a strong correlation between useful and private data. Finally, among the main contributions of this dissertation are: (i) a method for generating k-NN graphs that takes privacy into account; (ii) a specific method for medical data that utilizes a heterogeneous information network; and (iii) an approach aimed at unstructured data from social networks.Compartilhar dados de maneira pública ou entre entidades com interesses semelhantes pode resultar no desenvolvimento de aplicações mais robustas e na solução de problemas complexos. No contexto do aprendizado de máquina, por exemplo, o treinamento de modelos com diversas fontes de dados aumenta a eficiência e a eficácia das soluções desenvolvidas. Com a utilização e a geração massiva de dados em sistemas computacionais, torna-se cada vez mais essencial implementar soluções que possibilitem a análise e a extração de informações latentes de grandes volumes de dados. Entretanto, uma preocupação crescente nesse cenário é a privacidade e a segurança das informações sensíveis dos usuários. Em todo o mundo, surgiram leis e ferramentas regulatórias com o objetivo de prevenir vazamentos e proteger a integridade das informações armazenadas. Além dos vazamentos decorrentes de estratégias de engenharia social, dados que foram anonimizados por métodos tradicionais podem, ainda assim, ser revelados. Com a evolução dos modelos de aprendizado de máquina, as táticas de ataque aos dados tornaram-se mais sofisticadas. Nesse contexto, estratégias baseadas em grafos têm se mostrado promissoras, pois capturam de forma implícita os atributos e relacionamentos entre as instâncias do conjunto de dados. Diante dos desafios apresentados, esta dissertação propõe um avanço na preservação da privacidade em estratégias baseadas em grafos. Por meio do uso de autoencoders, buscamos penalizar a classificação correta dos atributos sensíveis, ao mesmo tempo em que mantemos a utilidade dos dados para tarefas subsequentes. O método foi aplicado em diversos contextos e fontes de dados, como informações médicas e de redes sociais, e demonstrou resultados significativos em comparação com abordagens tradicionais, especialmente quando existe uma forte correlação entre os dados úteis e os dados privados. Por fim, entre as principais contribuições desta dissertação destacam-se: (i) um método para a geração de grafos k-NN que leva em consideração a privacidade; (ii) um método específico para dados médicos que utiliza rede heterogênea de informações; e (iii) uma abordagem voltada para dados não estruturados provenientes de redes sociais.Biblioteca Digitais de Teses e Dissertações da USPMarcacini, Ricardo MarcondesPimentel, Maria da Graça CamposOliveira, Gustavo Lima de2025-04-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-13082025-141242/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2025-08-13T17:27:02Zoai:teses.usp.br:tde-13082025-141242Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-08-13T17:27:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv A Novel Privacy-Preserving Method for Graphs with Autoencoder Representations
Um Novo Método de Preservação de Privacidade para Grafos com Representações de Autoencoder
title A Novel Privacy-Preserving Method for Graphs with Autoencoder Representations
spellingShingle A Novel Privacy-Preserving Method for Graphs with Autoencoder Representations
Oliveira, Gustavo Lima de
Aprendizado de preservação de privacidade
Autoencoder para grafos
Graph autoencoder
Graph-based representation
Privacy-preserving learning
Representação em grafos
title_short A Novel Privacy-Preserving Method for Graphs with Autoencoder Representations
title_full A Novel Privacy-Preserving Method for Graphs with Autoencoder Representations
title_fullStr A Novel Privacy-Preserving Method for Graphs with Autoencoder Representations
title_full_unstemmed A Novel Privacy-Preserving Method for Graphs with Autoencoder Representations
title_sort A Novel Privacy-Preserving Method for Graphs with Autoencoder Representations
author Oliveira, Gustavo Lima de
author_facet Oliveira, Gustavo Lima de
author_role author
dc.contributor.none.fl_str_mv Marcacini, Ricardo Marcondes
Pimentel, Maria da Graça Campos
dc.contributor.author.fl_str_mv Oliveira, Gustavo Lima de
dc.subject.por.fl_str_mv Aprendizado de preservação de privacidade
Autoencoder para grafos
Graph autoencoder
Graph-based representation
Privacy-preserving learning
Representação em grafos
topic Aprendizado de preservação de privacidade
Autoencoder para grafos
Graph autoencoder
Graph-based representation
Privacy-preserving learning
Representação em grafos
description Sharing data publicly or among entities with similar interests can lead to the development of more robust applications and the resolution of complex problems. In the context of machine learning, for instance, training models with diverse data sources increases the efficiency and effectiveness of the solutions developed. With the massive use and generation of data in computational systems, it is becoming increasingly essential to implement solutions that enable the analysis and extraction of latent information from large volumes of data. However, a growing concern in this scenario is the privacy and security of users sensitive information. Around the world, laws and regulatory tools have emerged to prevent leaks and protect the integrity of stored information. In addition to leaks resulting from social engineering strategies, data that have been anonymized using traditional methods can still be exposed. With the evolution of machine learning models, data attacks have also become more sophisticated. In this context, graph-based strategies have shown promise, as they implicitly capture the attributes and relationships between instances in the dataset. In light of the challenges presented, this dissertation proposes an advancement in privacy preservation within graph-based strategies. Through the use of autoencoders, we aim to penalize the correct classification of sensitive attributes while maintaining the utility of the data for subsequent tasks. The method has been applied in various contexts and data sources, such as medical information and social media, and has demonstrated significant results compared to traditional approaches, especially when there is a strong correlation between useful and private data. Finally, among the main contributions of this dissertation are: (i) a method for generating k-NN graphs that takes privacy into account; (ii) a specific method for medical data that utilizes a heterogeneous information network; and (iii) an approach aimed at unstructured data from social networks.
publishDate 2025
dc.date.none.fl_str_mv 2025-04-03
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-13082025-141242/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-13082025-141242/
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1848370484131921920