Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço

Nogueira, Rafael Sander

Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço

Detalhes bibliográficos
Ano de defesa:	2025
Autor(a) principal:	Nogueira, Rafael Sander
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Aprendizado de máquina Aprendizado por reforço Cibersegurança Cyber-security Gestão de riscos Machine learning Q-learning Reinforcement learning Risk management
Link de acesso:	https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20012026-225010/
Resumo:	Ataques cibernéticos têm impactado a sociedade de forma cada vez mais significativa, seja em situações em que são utilizados como armas em conflitos geopolíticos, como o conflito entre Israel e o Irã, seja como um instrumento utilizado por organizações criminosas para executar roubos milionários, como o ciberataque perpetrado contra o sistema financeiro brasileiro em 2025. Com isso, o tema de cibersegurança ganha cada vez mais visibilidade diante das organizações. Em resposta a esse fenômeno, elas procuram incorporar controles aos seus processos a fim de mitigar a probabilidade de ocorrência e impacto de ciberataques. Contudo, a complexidade do ambiente de tecnologia das entidades, aliada à alta capacidade e incentivos que atacantes, conhecidos como hackers, têm em perpetrar ciberataques, faz com que a seleção dos controles a serem aplicados seja um desafio. Adicionalmente, a quantidade de recursos financeiros disponíveis para gasto com controles de cibersegurança é limitada, acrescentando mais uma dificuldade a essa priorização.Por outro lado, com objetivo de superar o desafio mencionado, técnicas de aprendizado de máquina são comumente empregadas com sucesso. Diante desse cenário, este estudo propõe uma solução que utiliza o algoritmo de aprendizado por reforço Q-learning, para determinação de um conjunto ótimo de controles a serem implementados, limitado por um orçamento. Essa abordagem conta com o desenvolvimento de um ambiente com base em ataques reais, sobre o qual o agente Q-learning irá explorar. Durante esse processo, o agente visa selecionar controles de cibersegurança com menor custo, maior capacidade de mitigação dos riscos mais relevantes e que podem impactar ativos de maior criticidade. Além disso, a abordagem apresenta uma forma de avaliação de sua efetividade, por meio da utilização dos indicadores denominados Vulnerabilidade Global e Vulnerabilidade Específica, ambos desenvolvidos neste estudo. Os experimentos realizados foram positivos, ao apresentarem como resultado uma melhora de até 96% da Vulnerabilidade Global, quando comparado com a seleção de controles realizada de forma randômica. Ademais, a solução foi capaz de selecionar um conjunto de controles, o qual leva a uma menor probabilidade de ocorrência dos 40 ataques que compõem o ambiente de aprendizado, quando comparado aos resultados apresentados pela seleção randômica. Todos os valores apurados foram estatisticamente validados, por meio do teste estatístico t pareado, com um nível de confiança de 95%. Esses resultados endossam que a solução proposta é efetiva e possui capacidade de ser aplicada em cenários reais.

Metadados do item

id	USP_68a9e757ce07d30c5a1e0daf96025194
oai_identifier_str	oai:teses.usp.br:tde-20012026-225010
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling	Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforçoOptimizing cyber security expenses via reinforcement learningAprendizado de máquinaAprendizado por reforçoCibersegurançaCyber-securityGestão de riscosMachine learningQ-learningQ-learningReinforcement learningRisk managementAtaques cibernéticos têm impactado a sociedade de forma cada vez mais significativa, seja em situações em que são utilizados como armas em conflitos geopolíticos, como o conflito entre Israel e o Irã, seja como um instrumento utilizado por organizações criminosas para executar roubos milionários, como o ciberataque perpetrado contra o sistema financeiro brasileiro em 2025. Com isso, o tema de cibersegurança ganha cada vez mais visibilidade diante das organizações. Em resposta a esse fenômeno, elas procuram incorporar controles aos seus processos a fim de mitigar a probabilidade de ocorrência e impacto de ciberataques. Contudo, a complexidade do ambiente de tecnologia das entidades, aliada à alta capacidade e incentivos que atacantes, conhecidos como hackers, têm em perpetrar ciberataques, faz com que a seleção dos controles a serem aplicados seja um desafio. Adicionalmente, a quantidade de recursos financeiros disponíveis para gasto com controles de cibersegurança é limitada, acrescentando mais uma dificuldade a essa priorização.Por outro lado, com objetivo de superar o desafio mencionado, técnicas de aprendizado de máquina são comumente empregadas com sucesso. Diante desse cenário, este estudo propõe uma solução que utiliza o algoritmo de aprendizado por reforço Q-learning, para determinação de um conjunto ótimo de controles a serem implementados, limitado por um orçamento. Essa abordagem conta com o desenvolvimento de um ambiente com base em ataques reais, sobre o qual o agente Q-learning irá explorar. Durante esse processo, o agente visa selecionar controles de cibersegurança com menor custo, maior capacidade de mitigação dos riscos mais relevantes e que podem impactar ativos de maior criticidade. Além disso, a abordagem apresenta uma forma de avaliação de sua efetividade, por meio da utilização dos indicadores denominados Vulnerabilidade Global e Vulnerabilidade Específica, ambos desenvolvidos neste estudo. Os experimentos realizados foram positivos, ao apresentarem como resultado uma melhora de até 96% da Vulnerabilidade Global, quando comparado com a seleção de controles realizada de forma randômica. Ademais, a solução foi capaz de selecionar um conjunto de controles, o qual leva a uma menor probabilidade de ocorrência dos 40 ataques que compõem o ambiente de aprendizado, quando comparado aos resultados apresentados pela seleção randômica. Todos os valores apurados foram estatisticamente validados, por meio do teste estatístico t pareado, com um nível de confiança de 95%. Esses resultados endossam que a solução proposta é efetiva e possui capacidade de ser aplicada em cenários reais.Cyberattacks have been having an increasingly significant impact on society, whether when used as weapons in geopolitical conflicts, such as the conflict between Israel and Iran, or as a tool used by criminal organizations to commit multi-million dollar thefts, such as the cyberattack perpetrated against the Brazilian financial system in 2025. As a result, the topic of cybersecurity is gaining increasing visibility among organizations. In response to this phenomenon, they seek to incorporate controls into their processes to mitigate the likelihood and impact of cyberattacks. However, the complexity of these organizations\' technology environments, combined with the high capacity and incentives of attackers, known as hackers, to perpetrate cyberattacks, makes the selection of controls to be implemented a challenge. Additionally, the amount of financial resources available for cybersecurity controls is limited, adding another challenge to prioritization. On the other hand, in order to overcome the aforementioned challenge, machine learning techniques are commonly and successfully employed. Given this scenario, this study proposes a solution that uses the reinforcement learning algorithm Q-learning to determine an optimal set of controls to be implemented, limited by a budget. This approach relies on the development of an environment based on real attacks, which the Q-learning agent will explore. During this process, the agent aims to select cybersecurity controls that are less costly, have greater mitigation capacity for the most relevant risks, and can impact more critical assets. Furthermore, the approach provides a way to assess its effectiveness through the use of indicators called Global Vulnerability and Specific Vulnerability, both developed in this research. The experiments performed were positive, resulting in an improvement of up to 96% in Global Vulnerability, when compared to a random selection of controls. Furthermore, the solution was able to select a set of controls that led to a lower probability of occurrence of the 40 attacks that make up the learning environment, when compared to the results obtained through random selection. All values obtained were statistically validated using the paired t-test, with a 95% confidence level. These results confirm that the proposed solution is effective and can be applied in real-world scenarios.Biblioteca Digitais de Teses e Dissertações da USPTerada, RoutoNogueira, Rafael Sander2025-11-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-20012026-225010/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2026-01-23T09:01:02Zoai:teses.usp.br:tde-20012026-225010Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212026-01-23T09:01:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço Optimizing cyber security expenses via reinforcement learning
title	Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço
spellingShingle	Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço Nogueira, Rafael Sander Aprendizado de máquina Aprendizado por reforço Cibersegurança Cyber-security Gestão de riscos Machine learning Q-learning Q-learning Reinforcement learning Risk management
title_short	Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço
title_full	Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço
title_fullStr	Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço
title_full_unstemmed	Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço
title_sort	Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço
author	Nogueira, Rafael Sander
author_facet	Nogueira, Rafael Sander
author_role	author
dc.contributor.none.fl_str_mv	Terada, Routo
dc.contributor.author.fl_str_mv	Nogueira, Rafael Sander
dc.subject.por.fl_str_mv	Aprendizado de máquina Aprendizado por reforço Cibersegurança Cyber-security Gestão de riscos Machine learning Q-learning Q-learning Reinforcement learning Risk management
topic	Aprendizado de máquina Aprendizado por reforço Cibersegurança Cyber-security Gestão de riscos Machine learning Q-learning Q-learning Reinforcement learning Risk management
description	Ataques cibernéticos têm impactado a sociedade de forma cada vez mais significativa, seja em situações em que são utilizados como armas em conflitos geopolíticos, como o conflito entre Israel e o Irã, seja como um instrumento utilizado por organizações criminosas para executar roubos milionários, como o ciberataque perpetrado contra o sistema financeiro brasileiro em 2025. Com isso, o tema de cibersegurança ganha cada vez mais visibilidade diante das organizações. Em resposta a esse fenômeno, elas procuram incorporar controles aos seus processos a fim de mitigar a probabilidade de ocorrência e impacto de ciberataques. Contudo, a complexidade do ambiente de tecnologia das entidades, aliada à alta capacidade e incentivos que atacantes, conhecidos como hackers, têm em perpetrar ciberataques, faz com que a seleção dos controles a serem aplicados seja um desafio. Adicionalmente, a quantidade de recursos financeiros disponíveis para gasto com controles de cibersegurança é limitada, acrescentando mais uma dificuldade a essa priorização.Por outro lado, com objetivo de superar o desafio mencionado, técnicas de aprendizado de máquina são comumente empregadas com sucesso. Diante desse cenário, este estudo propõe uma solução que utiliza o algoritmo de aprendizado por reforço Q-learning, para determinação de um conjunto ótimo de controles a serem implementados, limitado por um orçamento. Essa abordagem conta com o desenvolvimento de um ambiente com base em ataques reais, sobre o qual o agente Q-learning irá explorar. Durante esse processo, o agente visa selecionar controles de cibersegurança com menor custo, maior capacidade de mitigação dos riscos mais relevantes e que podem impactar ativos de maior criticidade. Além disso, a abordagem apresenta uma forma de avaliação de sua efetividade, por meio da utilização dos indicadores denominados Vulnerabilidade Global e Vulnerabilidade Específica, ambos desenvolvidos neste estudo. Os experimentos realizados foram positivos, ao apresentarem como resultado uma melhora de até 96% da Vulnerabilidade Global, quando comparado com a seleção de controles realizada de forma randômica. Ademais, a solução foi capaz de selecionar um conjunto de controles, o qual leva a uma menor probabilidade de ocorrência dos 40 ataques que compõem o ambiente de aprendizado, quando comparado aos resultados apresentados pela seleção randômica. Todos os valores apurados foram estatisticamente validados, por meio do teste estatístico t pareado, com um nível de confiança de 95%. Esses resultados endossam que a solução proposta é efetiva e possui capacidade de ser aplicada em cenários reais.
publishDate	2025
dc.date.none.fl_str_mv	2025-11-27
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20012026-225010/
url	https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20012026-225010/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1865492421244092416

Otimização de gastos aplicados com cibersegurança por meio de aprendizado por reforço

Registros relacionados