Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Nogueira, Rafael Sander
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20012026-225010/
Resumo: Ataques cibernéticos têm impactado a sociedade de forma cada vez mais significativa, seja em situações em que são utilizados como armas em conflitos geopolíticos, como o conflito entre Israel e o Irã, seja como um instrumento utilizado por organizações criminosas para executar roubos milionários, como o ciberataque perpetrado contra o sistema financeiro brasileiro em 2025. Com isso, o tema de cibersegurança ganha cada vez mais visibilidade diante das organizações. Em resposta a esse fenômeno, elas procuram incorporar controles aos seus processos a fim de mitigar a probabilidade de ocorrência e impacto de ciberataques. Contudo, a complexidade do ambiente de tecnologia das entidades, aliada à alta capacidade e incentivos que atacantes, conhecidos como hackers, têm em perpetrar ciberataques, faz com que a seleção dos controles a serem aplicados seja um desafio. Adicionalmente, a quantidade de recursos financeiros disponíveis para gasto com controles de cibersegurança é limitada, acrescentando mais uma dificuldade a essa priorização.Por outro lado, com objetivo de superar o desafio mencionado, técnicas de aprendizado de máquina são comumente empregadas com sucesso. Diante desse cenário, este estudo propõe uma solução que utiliza o algoritmo de aprendizado por reforço Q-learning, para determinação de um conjunto ótimo de controles a serem implementados, limitado por um orçamento. Essa abordagem conta com o desenvolvimento de um ambiente com base em ataques reais, sobre o qual o agente Q-learning irá explorar. Durante esse processo, o agente visa selecionar controles de cibersegurança com menor custo, maior capacidade de mitigação dos riscos mais relevantes e que podem impactar ativos de maior criticidade. Além disso, a abordagem apresenta uma forma de avaliação de sua efetividade, por meio da utilização dos indicadores denominados Vulnerabilidade Global e Vulnerabilidade Específica, ambos desenvolvidos neste estudo. Os experimentos realizados foram positivos, ao apresentarem como resultado uma melhora de até 96% da Vulnerabilidade Global, quando comparado com a seleção de controles realizada de forma randômica. Ademais, a solução foi capaz de selecionar um conjunto de controles, o qual leva a uma menor probabilidade de ocorrência dos 40 ataques que compõem o ambiente de aprendizado, quando comparado aos resultados apresentados pela seleção randômica. Todos os valores apurados foram estatisticamente validados, por meio do teste estatístico t pareado, com um nível de confiança de 95%. Esses resultados endossam que a solução proposta é efetiva e possui capacidade de ser aplicada em cenários reais.
id USP_68a9e757ce07d30c5a1e0daf96025194
oai_identifier_str oai:teses.usp.br:tde-20012026-225010
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforçoOptimizing cyber security expenses via reinforcement learningAprendizado de máquinaAprendizado por reforçoCibersegurançaCyber-securityGestão de riscosMachine learningQ-learningQ-learningReinforcement learningRisk managementAtaques cibernéticos têm impactado a sociedade de forma cada vez mais significativa, seja em situações em que são utilizados como armas em conflitos geopolíticos, como o conflito entre Israel e o Irã, seja como um instrumento utilizado por organizações criminosas para executar roubos milionários, como o ciberataque perpetrado contra o sistema financeiro brasileiro em 2025. Com isso, o tema de cibersegurança ganha cada vez mais visibilidade diante das organizações. Em resposta a esse fenômeno, elas procuram incorporar controles aos seus processos a fim de mitigar a probabilidade de ocorrência e impacto de ciberataques. Contudo, a complexidade do ambiente de tecnologia das entidades, aliada à alta capacidade e incentivos que atacantes, conhecidos como hackers, têm em perpetrar ciberataques, faz com que a seleção dos controles a serem aplicados seja um desafio. Adicionalmente, a quantidade de recursos financeiros disponíveis para gasto com controles de cibersegurança é limitada, acrescentando mais uma dificuldade a essa priorização.Por outro lado, com objetivo de superar o desafio mencionado, técnicas de aprendizado de máquina são comumente empregadas com sucesso. Diante desse cenário, este estudo propõe uma solução que utiliza o algoritmo de aprendizado por reforço Q-learning, para determinação de um conjunto ótimo de controles a serem implementados, limitado por um orçamento. Essa abordagem conta com o desenvolvimento de um ambiente com base em ataques reais, sobre o qual o agente Q-learning irá explorar. Durante esse processo, o agente visa selecionar controles de cibersegurança com menor custo, maior capacidade de mitigação dos riscos mais relevantes e que podem impactar ativos de maior criticidade. Além disso, a abordagem apresenta uma forma de avaliação de sua efetividade, por meio da utilização dos indicadores denominados Vulnerabilidade Global e Vulnerabilidade Específica, ambos desenvolvidos neste estudo. Os experimentos realizados foram positivos, ao apresentarem como resultado uma melhora de até 96% da Vulnerabilidade Global, quando comparado com a seleção de controles realizada de forma randômica. Ademais, a solução foi capaz de selecionar um conjunto de controles, o qual leva a uma menor probabilidade de ocorrência dos 40 ataques que compõem o ambiente de aprendizado, quando comparado aos resultados apresentados pela seleção randômica. Todos os valores apurados foram estatisticamente validados, por meio do teste estatístico t pareado, com um nível de confiança de 95%. Esses resultados endossam que a solução proposta é efetiva e possui capacidade de ser aplicada em cenários reais.Cyberattacks have been having an increasingly significant impact on society, whether when used as weapons in geopolitical conflicts, such as the conflict between Israel and Iran, or as a tool used by criminal organizations to commit multi-million dollar thefts, such as the cyberattack perpetrated against the Brazilian financial system in 2025. As a result, the topic of cybersecurity is gaining increasing visibility among organizations. In response to this phenomenon, they seek to incorporate controls into their processes to mitigate the likelihood and impact of cyberattacks. However, the complexity of these organizations\' technology environments, combined with the high capacity and incentives of attackers, known as hackers, to perpetrate cyberattacks, makes the selection of controls to be implemented a challenge. Additionally, the amount of financial resources available for cybersecurity controls is limited, adding another challenge to prioritization. On the other hand, in order to overcome the aforementioned challenge, machine learning techniques are commonly and successfully employed. Given this scenario, this study proposes a solution that uses the reinforcement learning algorithm Q-learning to determine an optimal set of controls to be implemented, limited by a budget. This approach relies on the development of an environment based on real attacks, which the Q-learning agent will explore. During this process, the agent aims to select cybersecurity controls that are less costly, have greater mitigation capacity for the most relevant risks, and can impact more critical assets. Furthermore, the approach provides a way to assess its effectiveness through the use of indicators called Global Vulnerability and Specific Vulnerability, both developed in this research. The experiments performed were positive, resulting in an improvement of up to 96% in Global Vulnerability, when compared to a random selection of controls. Furthermore, the solution was able to select a set of controls that led to a lower probability of occurrence of the 40 attacks that make up the learning environment, when compared to the results obtained through random selection. All values obtained were statistically validated using the paired t-test, with a 95% confidence level. These results confirm that the proposed solution is effective and can be applied in real-world scenarios.Biblioteca Digitais de Teses e Dissertações da USPTerada, RoutoNogueira, Rafael Sander2025-11-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-20012026-225010/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2026-01-23T09:01:02Zoai:teses.usp.br:tde-20012026-225010Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212026-01-23T09:01:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço
Optimizing cyber security expenses via reinforcement learning
title Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço
spellingShingle Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço
Nogueira, Rafael Sander
Aprendizado de máquina
Aprendizado por reforço
Cibersegurança
Cyber-security
Gestão de riscos
Machine learning
Q-learning
Q-learning
Reinforcement learning
Risk management
title_short Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço
title_full Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço
title_fullStr Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço
title_full_unstemmed Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço
title_sort Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço
author Nogueira, Rafael Sander
author_facet Nogueira, Rafael Sander
author_role author
dc.contributor.none.fl_str_mv Terada, Routo
dc.contributor.author.fl_str_mv Nogueira, Rafael Sander
dc.subject.por.fl_str_mv Aprendizado de máquina
Aprendizado por reforço
Cibersegurança
Cyber-security
Gestão de riscos
Machine learning
Q-learning
Q-learning
Reinforcement learning
Risk management
topic Aprendizado de máquina
Aprendizado por reforço
Cibersegurança
Cyber-security
Gestão de riscos
Machine learning
Q-learning
Q-learning
Reinforcement learning
Risk management
description Ataques cibernéticos têm impactado a sociedade de forma cada vez mais significativa, seja em situações em que são utilizados como armas em conflitos geopolíticos, como o conflito entre Israel e o Irã, seja como um instrumento utilizado por organizações criminosas para executar roubos milionários, como o ciberataque perpetrado contra o sistema financeiro brasileiro em 2025. Com isso, o tema de cibersegurança ganha cada vez mais visibilidade diante das organizações. Em resposta a esse fenômeno, elas procuram incorporar controles aos seus processos a fim de mitigar a probabilidade de ocorrência e impacto de ciberataques. Contudo, a complexidade do ambiente de tecnologia das entidades, aliada à alta capacidade e incentivos que atacantes, conhecidos como hackers, têm em perpetrar ciberataques, faz com que a seleção dos controles a serem aplicados seja um desafio. Adicionalmente, a quantidade de recursos financeiros disponíveis para gasto com controles de cibersegurança é limitada, acrescentando mais uma dificuldade a essa priorização.Por outro lado, com objetivo de superar o desafio mencionado, técnicas de aprendizado de máquina são comumente empregadas com sucesso. Diante desse cenário, este estudo propõe uma solução que utiliza o algoritmo de aprendizado por reforço Q-learning, para determinação de um conjunto ótimo de controles a serem implementados, limitado por um orçamento. Essa abordagem conta com o desenvolvimento de um ambiente com base em ataques reais, sobre o qual o agente Q-learning irá explorar. Durante esse processo, o agente visa selecionar controles de cibersegurança com menor custo, maior capacidade de mitigação dos riscos mais relevantes e que podem impactar ativos de maior criticidade. Além disso, a abordagem apresenta uma forma de avaliação de sua efetividade, por meio da utilização dos indicadores denominados Vulnerabilidade Global e Vulnerabilidade Específica, ambos desenvolvidos neste estudo. Os experimentos realizados foram positivos, ao apresentarem como resultado uma melhora de até 96% da Vulnerabilidade Global, quando comparado com a seleção de controles realizada de forma randômica. Ademais, a solução foi capaz de selecionar um conjunto de controles, o qual leva a uma menor probabilidade de ocorrência dos 40 ataques que compõem o ambiente de aprendizado, quando comparado aos resultados apresentados pela seleção randômica. Todos os valores apurados foram estatisticamente validados, por meio do teste estatístico t pareado, com um nível de confiança de 95%. Esses resultados endossam que a solução proposta é efetiva e possui capacidade de ser aplicada em cenários reais.
publishDate 2025
dc.date.none.fl_str_mv 2025-11-27
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20012026-225010/
url https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20012026-225010/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1857669979971780608