Sec4ML: anonimização de dados de incidentes de segurança da informação para tarefas de aprendizado de máquina

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Silva, Madalena Lopes e
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Instituto Militar de Engenharia (IME)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.repositorio.mar.mil.br/handle/ripcmb/845628
Resumo: Apesar do crescimento exponencial da World Wide Web desde sua criação, ainda há poucos conjuntos de dados disponíveis de incidentes de cibersegurança a serem reutilizados devido a várias questões, tais como preocupações de preservação da privacidade e padronização do formato de publicação de dados. Como resultado, a análise de incidentes de domínio tem um impacto precário no desenvolvimento de Sistemas de Detecção de Intrusão (IDS). As práticas LOD (Linked Open Data), que permitem o compartilhamento de dados na Web como um grafo de dados grande e interligado, juntamente com os princípios FAIR (Findable, Accessible, Interoperable, and Reusable), que orientam a publicação de dados para reutilização, podem apoiar o compartilhamento de conjuntos de dados de incidentes de segurança cibernética. Ademais, técnicas de anonimização podem ser usadas para lidar com preocupações de privacidade. Além disso, as técnicas de Aprendizado de Máquina (AM) podem ser usadas para melhorar a eficácia do IDS. Este trabalho propõe a abordagem Sec4ML que apoia a preparação de conjuntos de dados de incidentes de cibersegurança para técnicas de AM usando práticas LOD e seguindo os princípios FAIR, envolvendo, entre outros, subprocessos de anonimização e pré-processamento, que são ilustrados usando dados de conjuntos de dados públicos.
id MB_2a90ba3990166d4efde06866e94bbf9b
oai_identifier_str oai:www.repositorio.mar.mil.br:ripcmb/845628
network_acronym_str MB
network_name_str Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB)
repository_id_str
spelling Sec4ML: anonimização de dados de incidentes de segurança da informação para tarefas de aprendizado de máquinaSegurança da informaçãoAnonimizaçãoDados ligadosAprendizado de máquinaInteligência artifical.Princípios FAIRSegurança da informaçãoApesar do crescimento exponencial da World Wide Web desde sua criação, ainda há poucos conjuntos de dados disponíveis de incidentes de cibersegurança a serem reutilizados devido a várias questões, tais como preocupações de preservação da privacidade e padronização do formato de publicação de dados. Como resultado, a análise de incidentes de domínio tem um impacto precário no desenvolvimento de Sistemas de Detecção de Intrusão (IDS). As práticas LOD (Linked Open Data), que permitem o compartilhamento de dados na Web como um grafo de dados grande e interligado, juntamente com os princípios FAIR (Findable, Accessible, Interoperable, and Reusable), que orientam a publicação de dados para reutilização, podem apoiar o compartilhamento de conjuntos de dados de incidentes de segurança cibernética. Ademais, técnicas de anonimização podem ser usadas para lidar com preocupações de privacidade. Além disso, as técnicas de Aprendizado de Máquina (AM) podem ser usadas para melhorar a eficácia do IDS. Este trabalho propõe a abordagem Sec4ML que apoia a preparação de conjuntos de dados de incidentes de cibersegurança para técnicas de AM usando práticas LOD e seguindo os princípios FAIR, envolvendo, entre outros, subprocessos de anonimização e pré-processamento, que são ilustrados usando dados de conjuntos de dados públicos.Despite the exponential growth of the World Wide Web since its creation, there are still few available datasets of cybersecurity incidents to be reused due to several issues, such as privacy-preserving concerns and data publication format standardization. As a result, the domain incidents analysis are precarious impacting on the Intrusion Detection Systems (IDS) development. The LOD (Linked Open Data) practices, which allows the sharing of data on the Web as a large and interconnected data graph, together with the FAIR (Findable, Accessible, Interoperable, and Reusable) principles, which guides the publication of data for reuse, can support the sharing of cybersecurity incidents datasets. Furthermore, anonymization techniques can be used to handle privacy concerns. Moreover, Machine Learning (ML) techniques can be used to improve IDS effectiveness. This work proposes the Sec4ML approach which supports the preparation of cybersecurity incident datasets for ML techniques using LOD practices and following FAIR principles, involving, among others, anonymization and preprocessing subprocesses, which are illustrated using public datasets.Instituto Militar de Engenharia (IME)Cavalcanti, Maria Cláudia ReisSilva, Madalena Lopes e2022-12-08T15:25:55Z2022-12-08T15:25:55Z2022info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.repositorio.mar.mil.br/handle/ripcmb/845628info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB)instname:Marinha do Brasil (MB)instacron:MB2023-05-12T13:22:20Zoai:www.repositorio.mar.mil.br:ripcmb/845628Repositório InstitucionalPUBhttps://www.repositorio.mar.mil.br/oai/requestdphdm.repositorio@marinha.mil.bropendoar:2023-05-12T13:22:20Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB) - Marinha do Brasil (MB)false
dc.title.none.fl_str_mv Sec4ML: anonimização de dados de incidentes de segurança da informação para tarefas de aprendizado de máquina
title Sec4ML: anonimização de dados de incidentes de segurança da informação para tarefas de aprendizado de máquina
spellingShingle Sec4ML: anonimização de dados de incidentes de segurança da informação para tarefas de aprendizado de máquina
Silva, Madalena Lopes e
Segurança da informação
Anonimização
Dados ligados
Aprendizado de máquina
Inteligência artifical.
Princípios FAIR
Segurança da informação
title_short Sec4ML: anonimização de dados de incidentes de segurança da informação para tarefas de aprendizado de máquina
title_full Sec4ML: anonimização de dados de incidentes de segurança da informação para tarefas de aprendizado de máquina
title_fullStr Sec4ML: anonimização de dados de incidentes de segurança da informação para tarefas de aprendizado de máquina
title_full_unstemmed Sec4ML: anonimização de dados de incidentes de segurança da informação para tarefas de aprendizado de máquina
title_sort Sec4ML: anonimização de dados de incidentes de segurança da informação para tarefas de aprendizado de máquina
author Silva, Madalena Lopes e
author_facet Silva, Madalena Lopes e
author_role author
dc.contributor.none.fl_str_mv Cavalcanti, Maria Cláudia Reis
dc.contributor.author.fl_str_mv Silva, Madalena Lopes e
dc.subject.por.fl_str_mv Segurança da informação
Anonimização
Dados ligados
Aprendizado de máquina
Inteligência artifical.
Princípios FAIR
Segurança da informação
topic Segurança da informação
Anonimização
Dados ligados
Aprendizado de máquina
Inteligência artifical.
Princípios FAIR
Segurança da informação
description Apesar do crescimento exponencial da World Wide Web desde sua criação, ainda há poucos conjuntos de dados disponíveis de incidentes de cibersegurança a serem reutilizados devido a várias questões, tais como preocupações de preservação da privacidade e padronização do formato de publicação de dados. Como resultado, a análise de incidentes de domínio tem um impacto precário no desenvolvimento de Sistemas de Detecção de Intrusão (IDS). As práticas LOD (Linked Open Data), que permitem o compartilhamento de dados na Web como um grafo de dados grande e interligado, juntamente com os princípios FAIR (Findable, Accessible, Interoperable, and Reusable), que orientam a publicação de dados para reutilização, podem apoiar o compartilhamento de conjuntos de dados de incidentes de segurança cibernética. Ademais, técnicas de anonimização podem ser usadas para lidar com preocupações de privacidade. Além disso, as técnicas de Aprendizado de Máquina (AM) podem ser usadas para melhorar a eficácia do IDS. Este trabalho propõe a abordagem Sec4ML que apoia a preparação de conjuntos de dados de incidentes de cibersegurança para técnicas de AM usando práticas LOD e seguindo os princípios FAIR, envolvendo, entre outros, subprocessos de anonimização e pré-processamento, que são ilustrados usando dados de conjuntos de dados públicos.
publishDate 2022
dc.date.none.fl_str_mv 2022-12-08T15:25:55Z
2022-12-08T15:25:55Z
2022
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.repositorio.mar.mil.br/handle/ripcmb/845628
url https://www.repositorio.mar.mil.br/handle/ripcmb/845628
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Instituto Militar de Engenharia (IME)
publisher.none.fl_str_mv Instituto Militar de Engenharia (IME)
dc.source.none.fl_str_mv reponame:Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB)
instname:Marinha do Brasil (MB)
instacron:MB
instname_str Marinha do Brasil (MB)
instacron_str MB
institution MB
reponame_str Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB)
collection Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB)
repository.name.fl_str_mv Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB) - Marinha do Brasil (MB)
repository.mail.fl_str_mv dphdm.repositorio@marinha.mil.br
_version_ 1855762805899132928