P2MLF : um arcabouço para preservação de privacidade de ponta a ponta para aplicações de aprendizado de máquina

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Maia, Ricardo José Menezes
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.unb.br/handle/10482/51948
Resumo: O direito à privacidade de dados é fundamental para indivíduos e empresas. Pode-se mencionar os benefícios dos aplicativos Machine Learning (ML) para pessoas e empresas. Por isso, é essencial encontrar soluções que garantam a privacidade de dados em aplicações que utilizam ML, especialmente em cenários onde os aplicativos ML têm requisitos de privacidade não funcionais por razões legais. No requisito de privacidade abordado neste trabalho, apenas o proprietário terá acesso aos seus dados. Problemas de privacidade podem surgir nos estágios de entrada e saída da aplicação de ML e, para ilustrar esse problema, considere Alice como o proprietário das informações e Bob como o proprietário do modelo ML.Garantir a privacidade de entrada significa impedir a exposição dos dados, preservando tanto a privacidade das informações de Alice quanto a propriedade intelectual do modelo de Bob. Garantir a privacidade de saída significa que Bob não precisa expor seu modelo em texto simples para Alice, e Alice não precisa revelar seus dados em texto simples para o modelo de Bob. Mesmo com privacidade de entrada, Alice poderia potencialmente explorar informações usadas por Bob no treinamento do modelo, e a privacidade de saída evita vazamento de dados durante o treinamento. Garantir a privacidade dos dados de entrada e saída durante a inferência e o treinamento é essencial para a proteção de privacidade de ponta a ponta em aplicativos ML. Visando solucionar o problema descrito, este trabalho tem como objetivo principal propor uma abordagem para garantir privacidade de ponta a ponta, abrangendo tanto as entradas quanto as saídas, em aplicativos de ML, denominada Privacy-Preserving Machine Learning Framework (P2MLF). Entre os objetivos secundários desta tese, destaca-se a demonstração da aplicabilidade de P2MLF, utilizando uma aplicação baseada em Secure Multi-Party Computation (MPC) para inferência segura de Malicious Software (Malware) usando modelos MultiLayer Perceptron (MLP), One-Dimensional Convolutional Neural Network (CNN1D) e Long Short-Term Memory (LSTM) treinados com Differentially-Private Stochastic Gradient Descent (DP-SGD). Outra aplicação utilizará os métodos de P2MLF para treinamento colaborativo de modelos Collaborative Intrusion Detection Systems (CIDS). Uma das contribuições do método de inferência do P2MLF é o uso de quantização float16 pós-treinamento de modelos de aprendizado profundo com MPC para obter detecção eficiente e segura de Domain Generation Algorithms (DGA). Este trabalho demonstra que a quantização aumenta significativamente a velocidade, reduzindo o tempo de execução da inferência em 23% a 42%, sem prejuízo à precisão, utilizando um protocolo de computação segura de três partes. Soluções anteriores não garantem privacidade de ponta a ponta, não fornecem garantias de Differential Privacy (DP) para resultados do modelo e assumem que os Embedding Layer (EL)s do modelo são conhecidos publicamente. O melhor protocolo em termos de precisão é executado em aproximadamente 0, 22 segundos. Por fim, a segunda contribuição destaca a avaliação dos três métodos de treinamento colaborativo propostos pelo P2MLF, com foco em escalabilidade e privacidade, aplicados ao treinamento do CIDS. Entre os métodos avaliados, o que demonstrou o melhor equilíbrio entre privacidade e escalabilidade foi aquele que combina um protocolo MPC para agregação com modelos locais diferencialmente privados, treinados por meio de aprendizagem federada. Esse método é aproximadamente 1,5 vezes mais rápido que a abordagem de maior privacidade, que utiliza exclusivamente protocolos MPC com garantias de DP.
id UNB_db65c3560d9c8f7ebc8f28431f0ae6b3
oai_identifier_str oai:repositorio.unb.br:10482/51948
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling P2MLF : um arcabouço para preservação de privacidade de ponta a ponta para aplicações de aprendizado de máquinaComputação multipartidária seguraPrivacidade diferencialAprendizagem federadaDetecção de intrusãoAprendizagem de máquina - privacidadeO direito à privacidade de dados é fundamental para indivíduos e empresas. Pode-se mencionar os benefícios dos aplicativos Machine Learning (ML) para pessoas e empresas. Por isso, é essencial encontrar soluções que garantam a privacidade de dados em aplicações que utilizam ML, especialmente em cenários onde os aplicativos ML têm requisitos de privacidade não funcionais por razões legais. No requisito de privacidade abordado neste trabalho, apenas o proprietário terá acesso aos seus dados. Problemas de privacidade podem surgir nos estágios de entrada e saída da aplicação de ML e, para ilustrar esse problema, considere Alice como o proprietário das informações e Bob como o proprietário do modelo ML.Garantir a privacidade de entrada significa impedir a exposição dos dados, preservando tanto a privacidade das informações de Alice quanto a propriedade intelectual do modelo de Bob. Garantir a privacidade de saída significa que Bob não precisa expor seu modelo em texto simples para Alice, e Alice não precisa revelar seus dados em texto simples para o modelo de Bob. Mesmo com privacidade de entrada, Alice poderia potencialmente explorar informações usadas por Bob no treinamento do modelo, e a privacidade de saída evita vazamento de dados durante o treinamento. Garantir a privacidade dos dados de entrada e saída durante a inferência e o treinamento é essencial para a proteção de privacidade de ponta a ponta em aplicativos ML. Visando solucionar o problema descrito, este trabalho tem como objetivo principal propor uma abordagem para garantir privacidade de ponta a ponta, abrangendo tanto as entradas quanto as saídas, em aplicativos de ML, denominada Privacy-Preserving Machine Learning Framework (P2MLF). Entre os objetivos secundários desta tese, destaca-se a demonstração da aplicabilidade de P2MLF, utilizando uma aplicação baseada em Secure Multi-Party Computation (MPC) para inferência segura de Malicious Software (Malware) usando modelos MultiLayer Perceptron (MLP), One-Dimensional Convolutional Neural Network (CNN1D) e Long Short-Term Memory (LSTM) treinados com Differentially-Private Stochastic Gradient Descent (DP-SGD). Outra aplicação utilizará os métodos de P2MLF para treinamento colaborativo de modelos Collaborative Intrusion Detection Systems (CIDS). Uma das contribuições do método de inferência do P2MLF é o uso de quantização float16 pós-treinamento de modelos de aprendizado profundo com MPC para obter detecção eficiente e segura de Domain Generation Algorithms (DGA). Este trabalho demonstra que a quantização aumenta significativamente a velocidade, reduzindo o tempo de execução da inferência em 23% a 42%, sem prejuízo à precisão, utilizando um protocolo de computação segura de três partes. Soluções anteriores não garantem privacidade de ponta a ponta, não fornecem garantias de Differential Privacy (DP) para resultados do modelo e assumem que os Embedding Layer (EL)s do modelo são conhecidos publicamente. O melhor protocolo em termos de precisão é executado em aproximadamente 0, 22 segundos. Por fim, a segunda contribuição destaca a avaliação dos três métodos de treinamento colaborativo propostos pelo P2MLF, com foco em escalabilidade e privacidade, aplicados ao treinamento do CIDS. Entre os métodos avaliados, o que demonstrou o melhor equilíbrio entre privacidade e escalabilidade foi aquele que combina um protocolo MPC para agregação com modelos locais diferencialmente privados, treinados por meio de aprendizagem federada. Esse método é aproximadamente 1,5 vezes mais rápido que a abordagem de maior privacidade, que utiliza exclusivamente protocolos MPC com garantias de DP.The right to data privacy is fundamental for individuals and companies. One can mention the benefits of Machine Learning (ML) applications for people and businesses. Therefore, finding solutions to balance the dilemma of ensuring data privacy in applications that use ML is vital, especially in scenarios where ML applications have non-functional privacy requirements for legal reasons. In the privacy requirement addressed in this work, only the data owner will know their data. Privacy issues can arise in the input and output stages of the application of ML, and to illustrate this problem, consider Alice as the owner of the information and Bob as the owner of the model ML. Ensuring input privacy means that data should not be exposed to avoid compromising the privacy of Alice ’s data or the intellectual property of Bob ’s model. Ensuring output privacy means that Bob does not need to expose his model in plain text to Alice, and Alice does not need to reveal her data in plain text to Bob ’s model. Even with input privacy, Alice could potentially exploit information used by Bob in model training, and output privacy prevents data leakage during training. Ensuring the privacy of the input and output data during inference and training is essential for end-to-end privacy protection in ML applications. Concerning solving the problem proposed, this work’s main objective is to propose an approach to ensure end-to-end privacy, encompassing inputs and outputs, in ML applications, referred to as Privacy-Preserving Machine Learning Framework (P2MLF). This thesis will demonstrate as secondary objectives the framework’s applicability through an application that uses Secure Multi-Party Computation (MPC) for private inference of Malicious Software (Malware), using MultiLayer Perceptron (MLP), One-Dimensional Convolutional Neural Network (CNN1D), and Long Short-Term Memory (LSTM) models trained with Differentially-Private Stochastic Gradient Descent (DP-SGD). Another application will apply the methods described in this work for collaborative training Collaborative Intrusion Detection Systems (CIDS) models. In addition, to mention one of the contributions of P2MLF inference method, this work uses post-training float16 quantization of deep learning models with MPC to achieve efficient and secure detection of Domain Generation Algorithms (DGA). This work demonstrates that quantization significantly increases speed, resulting in a 23% to 42% reduction in inference execution time without reducing accuracy, using a three-party secure computation protocol that tolerates one corruption. Previous solutions are not end-to-end private, do not provide Differential Privacy (DP) guarantees for model results, and assume that the model’s Embedding Layer (EL)s are publicly known. The best protocol in terms of accuracy runs in approximately 0.22 seconds. Finally, as a second contribution, it emphasizes evaluating the three collaborative training methods proposed by P2MLF, focusing on scalability and privacy, applied to the training of CIDS. Among the evaluated methods, the one that presented the best balance between privacy and scalability - being 1.50 times faster than the approach with the highest privacy, based exclusively on MPC protocols with DP guarantees — is the method that combines an MPC protocol for aggregation of local models with DP guarantees and trained through Federated Learning (FL).Instituto de Ciências Exatas (IE)Departamento de Ciência da Computação (IE CIC)Programa de Pós-Graduação em InformáticaJacobi, Ricardo PezzuolMaia, Ricardo José Menezes2025-03-17T20:08:37Z2025-03-17T20:08:37Z2025-03-172024-12-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfMAIA, Ricardo José Menezes. P2MLF: Um Arcabouço para Preservação de Privacidade de Ponta a Ponta para Aplicações de Aprendizado de Máquina. 2024. 111 f. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2024.http://repositorio.unb.br/handle/10482/51948porA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2025-03-17T20:08:37Zoai:repositorio.unb.br:10482/51948Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2025-03-17T20:08:37Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv P2MLF : um arcabouço para preservação de privacidade de ponta a ponta para aplicações de aprendizado de máquina
title P2MLF : um arcabouço para preservação de privacidade de ponta a ponta para aplicações de aprendizado de máquina
spellingShingle P2MLF : um arcabouço para preservação de privacidade de ponta a ponta para aplicações de aprendizado de máquina
Maia, Ricardo José Menezes
Computação multipartidária segura
Privacidade diferencial
Aprendizagem federada
Detecção de intrusão
Aprendizagem de máquina - privacidade
title_short P2MLF : um arcabouço para preservação de privacidade de ponta a ponta para aplicações de aprendizado de máquina
title_full P2MLF : um arcabouço para preservação de privacidade de ponta a ponta para aplicações de aprendizado de máquina
title_fullStr P2MLF : um arcabouço para preservação de privacidade de ponta a ponta para aplicações de aprendizado de máquina
title_full_unstemmed P2MLF : um arcabouço para preservação de privacidade de ponta a ponta para aplicações de aprendizado de máquina
title_sort P2MLF : um arcabouço para preservação de privacidade de ponta a ponta para aplicações de aprendizado de máquina
author Maia, Ricardo José Menezes
author_facet Maia, Ricardo José Menezes
author_role author
dc.contributor.none.fl_str_mv Jacobi, Ricardo Pezzuol
dc.contributor.author.fl_str_mv Maia, Ricardo José Menezes
dc.subject.por.fl_str_mv Computação multipartidária segura
Privacidade diferencial
Aprendizagem federada
Detecção de intrusão
Aprendizagem de máquina - privacidade
topic Computação multipartidária segura
Privacidade diferencial
Aprendizagem federada
Detecção de intrusão
Aprendizagem de máquina - privacidade
description O direito à privacidade de dados é fundamental para indivíduos e empresas. Pode-se mencionar os benefícios dos aplicativos Machine Learning (ML) para pessoas e empresas. Por isso, é essencial encontrar soluções que garantam a privacidade de dados em aplicações que utilizam ML, especialmente em cenários onde os aplicativos ML têm requisitos de privacidade não funcionais por razões legais. No requisito de privacidade abordado neste trabalho, apenas o proprietário terá acesso aos seus dados. Problemas de privacidade podem surgir nos estágios de entrada e saída da aplicação de ML e, para ilustrar esse problema, considere Alice como o proprietário das informações e Bob como o proprietário do modelo ML.Garantir a privacidade de entrada significa impedir a exposição dos dados, preservando tanto a privacidade das informações de Alice quanto a propriedade intelectual do modelo de Bob. Garantir a privacidade de saída significa que Bob não precisa expor seu modelo em texto simples para Alice, e Alice não precisa revelar seus dados em texto simples para o modelo de Bob. Mesmo com privacidade de entrada, Alice poderia potencialmente explorar informações usadas por Bob no treinamento do modelo, e a privacidade de saída evita vazamento de dados durante o treinamento. Garantir a privacidade dos dados de entrada e saída durante a inferência e o treinamento é essencial para a proteção de privacidade de ponta a ponta em aplicativos ML. Visando solucionar o problema descrito, este trabalho tem como objetivo principal propor uma abordagem para garantir privacidade de ponta a ponta, abrangendo tanto as entradas quanto as saídas, em aplicativos de ML, denominada Privacy-Preserving Machine Learning Framework (P2MLF). Entre os objetivos secundários desta tese, destaca-se a demonstração da aplicabilidade de P2MLF, utilizando uma aplicação baseada em Secure Multi-Party Computation (MPC) para inferência segura de Malicious Software (Malware) usando modelos MultiLayer Perceptron (MLP), One-Dimensional Convolutional Neural Network (CNN1D) e Long Short-Term Memory (LSTM) treinados com Differentially-Private Stochastic Gradient Descent (DP-SGD). Outra aplicação utilizará os métodos de P2MLF para treinamento colaborativo de modelos Collaborative Intrusion Detection Systems (CIDS). Uma das contribuições do método de inferência do P2MLF é o uso de quantização float16 pós-treinamento de modelos de aprendizado profundo com MPC para obter detecção eficiente e segura de Domain Generation Algorithms (DGA). Este trabalho demonstra que a quantização aumenta significativamente a velocidade, reduzindo o tempo de execução da inferência em 23% a 42%, sem prejuízo à precisão, utilizando um protocolo de computação segura de três partes. Soluções anteriores não garantem privacidade de ponta a ponta, não fornecem garantias de Differential Privacy (DP) para resultados do modelo e assumem que os Embedding Layer (EL)s do modelo são conhecidos publicamente. O melhor protocolo em termos de precisão é executado em aproximadamente 0, 22 segundos. Por fim, a segunda contribuição destaca a avaliação dos três métodos de treinamento colaborativo propostos pelo P2MLF, com foco em escalabilidade e privacidade, aplicados ao treinamento do CIDS. Entre os métodos avaliados, o que demonstrou o melhor equilíbrio entre privacidade e escalabilidade foi aquele que combina um protocolo MPC para agregação com modelos locais diferencialmente privados, treinados por meio de aprendizagem federada. Esse método é aproximadamente 1,5 vezes mais rápido que a abordagem de maior privacidade, que utiliza exclusivamente protocolos MPC com garantias de DP.
publishDate 2024
dc.date.none.fl_str_mv 2024-12-28
2025-03-17T20:08:37Z
2025-03-17T20:08:37Z
2025-03-17
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv MAIA, Ricardo José Menezes. P2MLF: Um Arcabouço para Preservação de Privacidade de Ponta a Ponta para Aplicações de Aprendizado de Máquina. 2024. 111 f. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2024.
http://repositorio.unb.br/handle/10482/51948
identifier_str_mv MAIA, Ricardo José Menezes. P2MLF: Um Arcabouço para Preservação de Privacidade de Ponta a Ponta para Aplicações de Aprendizado de Máquina. 2024. 111 f. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2024.
url http://repositorio.unb.br/handle/10482/51948
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv repositorio@unb.br
_version_ 1839083756078497792