Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20012026-225010/ |
Resumo: | Ataques cibernéticos têm impactado a sociedade de forma cada vez mais significativa, seja em situações em que são utilizados como armas em conflitos geopolíticos, como o conflito entre Israel e o Irã, seja como um instrumento utilizado por organizações criminosas para executar roubos milionários, como o ciberataque perpetrado contra o sistema financeiro brasileiro em 2025. Com isso, o tema de cibersegurança ganha cada vez mais visibilidade diante das organizações. Em resposta a esse fenômeno, elas procuram incorporar controles aos seus processos a fim de mitigar a probabilidade de ocorrência e impacto de ciberataques. Contudo, a complexidade do ambiente de tecnologia das entidades, aliada à alta capacidade e incentivos que atacantes, conhecidos como hackers, têm em perpetrar ciberataques, faz com que a seleção dos controles a serem aplicados seja um desafio. Adicionalmente, a quantidade de recursos financeiros disponíveis para gasto com controles de cibersegurança é limitada, acrescentando mais uma dificuldade a essa priorização.Por outro lado, com objetivo de superar o desafio mencionado, técnicas de aprendizado de máquina são comumente empregadas com sucesso. Diante desse cenário, este estudo propõe uma solução que utiliza o algoritmo de aprendizado por reforço Q-learning, para determinação de um conjunto ótimo de controles a serem implementados, limitado por um orçamento. Essa abordagem conta com o desenvolvimento de um ambiente com base em ataques reais, sobre o qual o agente Q-learning irá explorar. Durante esse processo, o agente visa selecionar controles de cibersegurança com menor custo, maior capacidade de mitigação dos riscos mais relevantes e que podem impactar ativos de maior criticidade. Além disso, a abordagem apresenta uma forma de avaliação de sua efetividade, por meio da utilização dos indicadores denominados Vulnerabilidade Global e Vulnerabilidade Específica, ambos desenvolvidos neste estudo. Os experimentos realizados foram positivos, ao apresentarem como resultado uma melhora de até 96% da Vulnerabilidade Global, quando comparado com a seleção de controles realizada de forma randômica. Ademais, a solução foi capaz de selecionar um conjunto de controles, o qual leva a uma menor probabilidade de ocorrência dos 40 ataques que compõem o ambiente de aprendizado, quando comparado aos resultados apresentados pela seleção randômica. Todos os valores apurados foram estatisticamente validados, por meio do teste estatístico t pareado, com um nível de confiança de 95%. Esses resultados endossam que a solução proposta é efetiva e possui capacidade de ser aplicada em cenários reais. |
| id |
USP_68a9e757ce07d30c5a1e0daf96025194 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-20012026-225010 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforçoOptimizing cyber security expenses via reinforcement learningAprendizado de máquinaAprendizado por reforçoCibersegurançaCyber-securityGestão de riscosMachine learningQ-learningQ-learningReinforcement learningRisk managementAtaques cibernéticos têm impactado a sociedade de forma cada vez mais significativa, seja em situações em que são utilizados como armas em conflitos geopolíticos, como o conflito entre Israel e o Irã, seja como um instrumento utilizado por organizações criminosas para executar roubos milionários, como o ciberataque perpetrado contra o sistema financeiro brasileiro em 2025. Com isso, o tema de cibersegurança ganha cada vez mais visibilidade diante das organizações. Em resposta a esse fenômeno, elas procuram incorporar controles aos seus processos a fim de mitigar a probabilidade de ocorrência e impacto de ciberataques. Contudo, a complexidade do ambiente de tecnologia das entidades, aliada à alta capacidade e incentivos que atacantes, conhecidos como hackers, têm em perpetrar ciberataques, faz com que a seleção dos controles a serem aplicados seja um desafio. Adicionalmente, a quantidade de recursos financeiros disponíveis para gasto com controles de cibersegurança é limitada, acrescentando mais uma dificuldade a essa priorização.Por outro lado, com objetivo de superar o desafio mencionado, técnicas de aprendizado de máquina são comumente empregadas com sucesso. Diante desse cenário, este estudo propõe uma solução que utiliza o algoritmo de aprendizado por reforço Q-learning, para determinação de um conjunto ótimo de controles a serem implementados, limitado por um orçamento. Essa abordagem conta com o desenvolvimento de um ambiente com base em ataques reais, sobre o qual o agente Q-learning irá explorar. Durante esse processo, o agente visa selecionar controles de cibersegurança com menor custo, maior capacidade de mitigação dos riscos mais relevantes e que podem impactar ativos de maior criticidade. Além disso, a abordagem apresenta uma forma de avaliação de sua efetividade, por meio da utilização dos indicadores denominados Vulnerabilidade Global e Vulnerabilidade Específica, ambos desenvolvidos neste estudo. Os experimentos realizados foram positivos, ao apresentarem como resultado uma melhora de até 96% da Vulnerabilidade Global, quando comparado com a seleção de controles realizada de forma randômica. Ademais, a solução foi capaz de selecionar um conjunto de controles, o qual leva a uma menor probabilidade de ocorrência dos 40 ataques que compõem o ambiente de aprendizado, quando comparado aos resultados apresentados pela seleção randômica. Todos os valores apurados foram estatisticamente validados, por meio do teste estatístico t pareado, com um nível de confiança de 95%. Esses resultados endossam que a solução proposta é efetiva e possui capacidade de ser aplicada em cenários reais.Cyberattacks have been having an increasingly significant impact on society, whether when used as weapons in geopolitical conflicts, such as the conflict between Israel and Iran, or as a tool used by criminal organizations to commit multi-million dollar thefts, such as the cyberattack perpetrated against the Brazilian financial system in 2025. As a result, the topic of cybersecurity is gaining increasing visibility among organizations. In response to this phenomenon, they seek to incorporate controls into their processes to mitigate the likelihood and impact of cyberattacks. However, the complexity of these organizations\' technology environments, combined with the high capacity and incentives of attackers, known as hackers, to perpetrate cyberattacks, makes the selection of controls to be implemented a challenge. Additionally, the amount of financial resources available for cybersecurity controls is limited, adding another challenge to prioritization. On the other hand, in order to overcome the aforementioned challenge, machine learning techniques are commonly and successfully employed. Given this scenario, this study proposes a solution that uses the reinforcement learning algorithm Q-learning to determine an optimal set of controls to be implemented, limited by a budget. This approach relies on the development of an environment based on real attacks, which the Q-learning agent will explore. During this process, the agent aims to select cybersecurity controls that are less costly, have greater mitigation capacity for the most relevant risks, and can impact more critical assets. Furthermore, the approach provides a way to assess its effectiveness through the use of indicators called Global Vulnerability and Specific Vulnerability, both developed in this research. The experiments performed were positive, resulting in an improvement of up to 96% in Global Vulnerability, when compared to a random selection of controls. Furthermore, the solution was able to select a set of controls that led to a lower probability of occurrence of the 40 attacks that make up the learning environment, when compared to the results obtained through random selection. All values obtained were statistically validated using the paired t-test, with a 95% confidence level. These results confirm that the proposed solution is effective and can be applied in real-world scenarios.Biblioteca Digitais de Teses e Dissertações da USPTerada, RoutoNogueira, Rafael Sander2025-11-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-20012026-225010/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2026-01-23T09:01:02Zoai:teses.usp.br:tde-20012026-225010Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212026-01-23T09:01:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço Optimizing cyber security expenses via reinforcement learning |
| title |
Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço |
| spellingShingle |
Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço Nogueira, Rafael Sander Aprendizado de máquina Aprendizado por reforço Cibersegurança Cyber-security Gestão de riscos Machine learning Q-learning Q-learning Reinforcement learning Risk management |
| title_short |
Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço |
| title_full |
Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço |
| title_fullStr |
Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço |
| title_full_unstemmed |
Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço |
| title_sort |
Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço |
| author |
Nogueira, Rafael Sander |
| author_facet |
Nogueira, Rafael Sander |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Terada, Routo |
| dc.contributor.author.fl_str_mv |
Nogueira, Rafael Sander |
| dc.subject.por.fl_str_mv |
Aprendizado de máquina Aprendizado por reforço Cibersegurança Cyber-security Gestão de riscos Machine learning Q-learning Q-learning Reinforcement learning Risk management |
| topic |
Aprendizado de máquina Aprendizado por reforço Cibersegurança Cyber-security Gestão de riscos Machine learning Q-learning Q-learning Reinforcement learning Risk management |
| description |
Ataques cibernéticos têm impactado a sociedade de forma cada vez mais significativa, seja em situações em que são utilizados como armas em conflitos geopolíticos, como o conflito entre Israel e o Irã, seja como um instrumento utilizado por organizações criminosas para executar roubos milionários, como o ciberataque perpetrado contra o sistema financeiro brasileiro em 2025. Com isso, o tema de cibersegurança ganha cada vez mais visibilidade diante das organizações. Em resposta a esse fenômeno, elas procuram incorporar controles aos seus processos a fim de mitigar a probabilidade de ocorrência e impacto de ciberataques. Contudo, a complexidade do ambiente de tecnologia das entidades, aliada à alta capacidade e incentivos que atacantes, conhecidos como hackers, têm em perpetrar ciberataques, faz com que a seleção dos controles a serem aplicados seja um desafio. Adicionalmente, a quantidade de recursos financeiros disponíveis para gasto com controles de cibersegurança é limitada, acrescentando mais uma dificuldade a essa priorização.Por outro lado, com objetivo de superar o desafio mencionado, técnicas de aprendizado de máquina são comumente empregadas com sucesso. Diante desse cenário, este estudo propõe uma solução que utiliza o algoritmo de aprendizado por reforço Q-learning, para determinação de um conjunto ótimo de controles a serem implementados, limitado por um orçamento. Essa abordagem conta com o desenvolvimento de um ambiente com base em ataques reais, sobre o qual o agente Q-learning irá explorar. Durante esse processo, o agente visa selecionar controles de cibersegurança com menor custo, maior capacidade de mitigação dos riscos mais relevantes e que podem impactar ativos de maior criticidade. Além disso, a abordagem apresenta uma forma de avaliação de sua efetividade, por meio da utilização dos indicadores denominados Vulnerabilidade Global e Vulnerabilidade Específica, ambos desenvolvidos neste estudo. Os experimentos realizados foram positivos, ao apresentarem como resultado uma melhora de até 96% da Vulnerabilidade Global, quando comparado com a seleção de controles realizada de forma randômica. Ademais, a solução foi capaz de selecionar um conjunto de controles, o qual leva a uma menor probabilidade de ocorrência dos 40 ataques que compõem o ambiente de aprendizado, quando comparado aos resultados apresentados pela seleção randômica. Todos os valores apurados foram estatisticamente validados, por meio do teste estatístico t pareado, com um nível de confiança de 95%. Esses resultados endossam que a solução proposta é efetiva e possui capacidade de ser aplicada em cenários reais. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-11-27 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20012026-225010/ |
| url |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20012026-225010/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1857669979971780608 |