A Novel Privacy-Preserving Method for Graphs with Autoencoder Representations
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-13082025-141242/ |
Resumo: | Sharing data publicly or among entities with similar interests can lead to the development of more robust applications and the resolution of complex problems. In the context of machine learning, for instance, training models with diverse data sources increases the efficiency and effectiveness of the solutions developed. With the massive use and generation of data in computational systems, it is becoming increasingly essential to implement solutions that enable the analysis and extraction of latent information from large volumes of data. However, a growing concern in this scenario is the privacy and security of users sensitive information. Around the world, laws and regulatory tools have emerged to prevent leaks and protect the integrity of stored information. In addition to leaks resulting from social engineering strategies, data that have been anonymized using traditional methods can still be exposed. With the evolution of machine learning models, data attacks have also become more sophisticated. In this context, graph-based strategies have shown promise, as they implicitly capture the attributes and relationships between instances in the dataset. In light of the challenges presented, this dissertation proposes an advancement in privacy preservation within graph-based strategies. Through the use of autoencoders, we aim to penalize the correct classification of sensitive attributes while maintaining the utility of the data for subsequent tasks. The method has been applied in various contexts and data sources, such as medical information and social media, and has demonstrated significant results compared to traditional approaches, especially when there is a strong correlation between useful and private data. Finally, among the main contributions of this dissertation are: (i) a method for generating k-NN graphs that takes privacy into account; (ii) a specific method for medical data that utilizes a heterogeneous information network; and (iii) an approach aimed at unstructured data from social networks. |
| id |
USP_25c489f9d6cef1311d4ae15df3b56871 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-13082025-141242 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
A Novel Privacy-Preserving Method for Graphs with Autoencoder RepresentationsUm Novo Método de Preservação de Privacidade para Grafos com Representações de AutoencoderAprendizado de preservação de privacidadeAutoencoder para grafosGraph autoencoderGraph-based representationPrivacy-preserving learningRepresentação em grafosSharing data publicly or among entities with similar interests can lead to the development of more robust applications and the resolution of complex problems. In the context of machine learning, for instance, training models with diverse data sources increases the efficiency and effectiveness of the solutions developed. With the massive use and generation of data in computational systems, it is becoming increasingly essential to implement solutions that enable the analysis and extraction of latent information from large volumes of data. However, a growing concern in this scenario is the privacy and security of users sensitive information. Around the world, laws and regulatory tools have emerged to prevent leaks and protect the integrity of stored information. In addition to leaks resulting from social engineering strategies, data that have been anonymized using traditional methods can still be exposed. With the evolution of machine learning models, data attacks have also become more sophisticated. In this context, graph-based strategies have shown promise, as they implicitly capture the attributes and relationships between instances in the dataset. In light of the challenges presented, this dissertation proposes an advancement in privacy preservation within graph-based strategies. Through the use of autoencoders, we aim to penalize the correct classification of sensitive attributes while maintaining the utility of the data for subsequent tasks. The method has been applied in various contexts and data sources, such as medical information and social media, and has demonstrated significant results compared to traditional approaches, especially when there is a strong correlation between useful and private data. Finally, among the main contributions of this dissertation are: (i) a method for generating k-NN graphs that takes privacy into account; (ii) a specific method for medical data that utilizes a heterogeneous information network; and (iii) an approach aimed at unstructured data from social networks.Compartilhar dados de maneira pública ou entre entidades com interesses semelhantes pode resultar no desenvolvimento de aplicações mais robustas e na solução de problemas complexos. No contexto do aprendizado de máquina, por exemplo, o treinamento de modelos com diversas fontes de dados aumenta a eficiência e a eficácia das soluções desenvolvidas. Com a utilização e a geração massiva de dados em sistemas computacionais, torna-se cada vez mais essencial implementar soluções que possibilitem a análise e a extração de informações latentes de grandes volumes de dados. Entretanto, uma preocupação crescente nesse cenário é a privacidade e a segurança das informações sensíveis dos usuários. Em todo o mundo, surgiram leis e ferramentas regulatórias com o objetivo de prevenir vazamentos e proteger a integridade das informações armazenadas. Além dos vazamentos decorrentes de estratégias de engenharia social, dados que foram anonimizados por métodos tradicionais podem, ainda assim, ser revelados. Com a evolução dos modelos de aprendizado de máquina, as táticas de ataque aos dados tornaram-se mais sofisticadas. Nesse contexto, estratégias baseadas em grafos têm se mostrado promissoras, pois capturam de forma implícita os atributos e relacionamentos entre as instâncias do conjunto de dados. Diante dos desafios apresentados, esta dissertação propõe um avanço na preservação da privacidade em estratégias baseadas em grafos. Por meio do uso de autoencoders, buscamos penalizar a classificação correta dos atributos sensíveis, ao mesmo tempo em que mantemos a utilidade dos dados para tarefas subsequentes. O método foi aplicado em diversos contextos e fontes de dados, como informações médicas e de redes sociais, e demonstrou resultados significativos em comparação com abordagens tradicionais, especialmente quando existe uma forte correlação entre os dados úteis e os dados privados. Por fim, entre as principais contribuições desta dissertação destacam-se: (i) um método para a geração de grafos k-NN que leva em consideração a privacidade; (ii) um método específico para dados médicos que utiliza rede heterogênea de informações; e (iii) uma abordagem voltada para dados não estruturados provenientes de redes sociais.Biblioteca Digitais de Teses e Dissertações da USPMarcacini, Ricardo MarcondesPimentel, Maria da Graça CamposOliveira, Gustavo Lima de2025-04-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-13082025-141242/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2025-08-13T17:27:02Zoai:teses.usp.br:tde-13082025-141242Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-08-13T17:27:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
A Novel Privacy-Preserving Method for Graphs with Autoencoder Representations Um Novo Método de Preservação de Privacidade para Grafos com Representações de Autoencoder |
| title |
A Novel Privacy-Preserving Method for Graphs with Autoencoder Representations |
| spellingShingle |
A Novel Privacy-Preserving Method for Graphs with Autoencoder Representations Oliveira, Gustavo Lima de Aprendizado de preservação de privacidade Autoencoder para grafos Graph autoencoder Graph-based representation Privacy-preserving learning Representação em grafos |
| title_short |
A Novel Privacy-Preserving Method for Graphs with Autoencoder Representations |
| title_full |
A Novel Privacy-Preserving Method for Graphs with Autoencoder Representations |
| title_fullStr |
A Novel Privacy-Preserving Method for Graphs with Autoencoder Representations |
| title_full_unstemmed |
A Novel Privacy-Preserving Method for Graphs with Autoencoder Representations |
| title_sort |
A Novel Privacy-Preserving Method for Graphs with Autoencoder Representations |
| author |
Oliveira, Gustavo Lima de |
| author_facet |
Oliveira, Gustavo Lima de |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Marcacini, Ricardo Marcondes Pimentel, Maria da Graça Campos |
| dc.contributor.author.fl_str_mv |
Oliveira, Gustavo Lima de |
| dc.subject.por.fl_str_mv |
Aprendizado de preservação de privacidade Autoencoder para grafos Graph autoencoder Graph-based representation Privacy-preserving learning Representação em grafos |
| topic |
Aprendizado de preservação de privacidade Autoencoder para grafos Graph autoencoder Graph-based representation Privacy-preserving learning Representação em grafos |
| description |
Sharing data publicly or among entities with similar interests can lead to the development of more robust applications and the resolution of complex problems. In the context of machine learning, for instance, training models with diverse data sources increases the efficiency and effectiveness of the solutions developed. With the massive use and generation of data in computational systems, it is becoming increasingly essential to implement solutions that enable the analysis and extraction of latent information from large volumes of data. However, a growing concern in this scenario is the privacy and security of users sensitive information. Around the world, laws and regulatory tools have emerged to prevent leaks and protect the integrity of stored information. In addition to leaks resulting from social engineering strategies, data that have been anonymized using traditional methods can still be exposed. With the evolution of machine learning models, data attacks have also become more sophisticated. In this context, graph-based strategies have shown promise, as they implicitly capture the attributes and relationships between instances in the dataset. In light of the challenges presented, this dissertation proposes an advancement in privacy preservation within graph-based strategies. Through the use of autoencoders, we aim to penalize the correct classification of sensitive attributes while maintaining the utility of the data for subsequent tasks. The method has been applied in various contexts and data sources, such as medical information and social media, and has demonstrated significant results compared to traditional approaches, especially when there is a strong correlation between useful and private data. Finally, among the main contributions of this dissertation are: (i) a method for generating k-NN graphs that takes privacy into account; (ii) a specific method for medical data that utilizes a heterogeneous information network; and (iii) an approach aimed at unstructured data from social networks. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-04-03 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-13082025-141242/ |
| url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-13082025-141242/ |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1848370484131921920 |