Detecção de domínios gerados por algoritmos com aprendizado profundo incremental e DNS passivo

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Gregório, João Rafael [UNESP]
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/11449/313556
Resumo: O Domain Name System (DNS) é um dos serviços mais importantes da internet, responsável por mapear nomes de domínio em endereços IP. Embora seja amplamente utilizado de forma legítima, o DNS também pode ser explorado por cibercriminosos como parte de suas infraestruturas de ataque. Entre as mais comuns estão as botnets, redes de dispositivos comprometidos por malware e controlados remotamente de maneira coordenada. O controle dessas redes ocorre por meio de servidores de comando e controle (C2), que permitem aos atacantes gerenciar os dispositivos infectados. Para ocultar o endereço real dos C2 ou possibilitar a alteração frequente desses endereços sem interromper a comunicação com a botnet, os atacantes recorrem a algoritmos geradores de domínios (DGA), responsáveis por criar nomes de domínio pseudoaleatórios utilizados na comunicação maliciosa. Este trabalho apresenta um modelo de aprendizado profundo capaz de detectar domínios DGA utilizando técnicas de processamento de linguagem natural (NLP) para a classificação de textos curtos, além de uma metodologia de atualização incremental que permite incorporar novos exemplos, preservando a capacidade do modelo de identificar famílias emergentes de ameaças. A validação do modelo foi realizada em ambiente real, por meio da coleta de consultas DNS em rede local com DNS passivo, e complementada com o desenvolvimento de um painel de monitoramento DNS, destinado a acompanhar os domínios classificados como suspeitos pelo modelo. Nos experimentos, o modelo alcançou métricas expressivas tanto em ambiente controlado quanto em cenários reais, obtendo acurácia de 98,00%, precisão de 97,96%, recall de 97,95% e taxa de falsos positivos de 2,39%. O treinamento incremental demonstrou eficácia em evitar o esquecimento catastrófico, mantendo o desempenho estável ao longo do tempo. A validação em tráfego DNS de mundo real reforça a relevância do modelo na detecção de domínios DGA proposto neste trabalho, contribuindo significativamente para a segurança cibernética.
id UNSP_60f2abe81f98dd40aa9e23d826e95fcb
oai_identifier_str oai:repositorio.unesp.br:11449/313556
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str
spelling Detecção de domínios gerados por algoritmos com aprendizado profundo incremental e DNS passivoDetection of algorithmically generated domains with incremental deep learning and passive DNSNomes de domínio na InternetSegurança de sistemasInteligência artificialRedes neurais (Computação)Internet domain namesSystem safetyArtificial intelligenceNeural networks (Computer science)O Domain Name System (DNS) é um dos serviços mais importantes da internet, responsável por mapear nomes de domínio em endereços IP. Embora seja amplamente utilizado de forma legítima, o DNS também pode ser explorado por cibercriminosos como parte de suas infraestruturas de ataque. Entre as mais comuns estão as botnets, redes de dispositivos comprometidos por malware e controlados remotamente de maneira coordenada. O controle dessas redes ocorre por meio de servidores de comando e controle (C2), que permitem aos atacantes gerenciar os dispositivos infectados. Para ocultar o endereço real dos C2 ou possibilitar a alteração frequente desses endereços sem interromper a comunicação com a botnet, os atacantes recorrem a algoritmos geradores de domínios (DGA), responsáveis por criar nomes de domínio pseudoaleatórios utilizados na comunicação maliciosa. Este trabalho apresenta um modelo de aprendizado profundo capaz de detectar domínios DGA utilizando técnicas de processamento de linguagem natural (NLP) para a classificação de textos curtos, além de uma metodologia de atualização incremental que permite incorporar novos exemplos, preservando a capacidade do modelo de identificar famílias emergentes de ameaças. A validação do modelo foi realizada em ambiente real, por meio da coleta de consultas DNS em rede local com DNS passivo, e complementada com o desenvolvimento de um painel de monitoramento DNS, destinado a acompanhar os domínios classificados como suspeitos pelo modelo. Nos experimentos, o modelo alcançou métricas expressivas tanto em ambiente controlado quanto em cenários reais, obtendo acurácia de 98,00%, precisão de 97,96%, recall de 97,95% e taxa de falsos positivos de 2,39%. O treinamento incremental demonstrou eficácia em evitar o esquecimento catastrófico, mantendo o desempenho estável ao longo do tempo. A validação em tráfego DNS de mundo real reforça a relevância do modelo na detecção de domínios DGA proposto neste trabalho, contribuindo significativamente para a segurança cibernética.The Domain Name System (DNS) is one of the most important services of the Internet, responsible for mapping domain names to IP addresses. Although it is widely used for legitimate purposes, DNS can also be exploited by cybercriminals as part of their attack infrastructures. Among the most common are botnets, networks of devices compromised by malware and remotely controlled in a coordinated manner. The control of these networks is carried out through command and control (C2) servers, which allow attackers to manage the infected devices. To conceal the real address of C2 servers or to enable frequent changes of these addresses without disrupting communication with the botnet, attackers employ Domain Generation Algorithms (DGA), which generate pseudo-random domain names used for malicious communication. This work presents a deep learning model capable of detecting DGA domains using natural language processing (NLP) techniques for the classification of short texts, in addition to an incremental update methodology that allows incorporating new examples, preserving the model's ability to identify emerging families of threats. The model was validated in a real-world environment through the collection of DNS queries on a local network using passive DNS monitoring, and complemented with the development of a DNS monitoring dashboard to track domains classified as suspicious by the model. In the experiments, the model achieved significant results in both controlled and real-world scenarios, reaching an accuracy of 98.00%, precision of 97.96%, recall of 97.95%, and a false positive rate of 2.39%. Incremental training proved effective in preventing catastrophic forgetting, maintaining stable performance over time. Validation with real-world DNS traffic reinforces the relevance of the proposed model in detecting DGA domains, making a significant contribution to cybersecurity.Universidade Estadual Paulista (Unesp)Cansian, Adriano Mauro [UNESP]Universidade Estadual Paulista (Unesp)Gregório, João Rafael [UNESP]2025-09-11T14:12:59Z2025-08-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfGREGÓRIO, João Rafael. Detecção de domínios gerados por algoritmos com aprendizado profundo incremental e DNS passivo. Dissertação (Mestrado em Ciência da Computação). 2025 – Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas (Ibilce), São José do Rio Preto, 2025.https://hdl.handle.net/11449/31355633004153073P236620400708063980000-0001-7783-2567porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2025-09-12T04:00:31Zoai:repositorio.unesp.br:11449/313556Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462025-09-12T04:00:31Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Detecção de domínios gerados por algoritmos com aprendizado profundo incremental e DNS passivo
Detection of algorithmically generated domains with incremental deep learning and passive DNS
title Detecção de domínios gerados por algoritmos com aprendizado profundo incremental e DNS passivo
spellingShingle Detecção de domínios gerados por algoritmos com aprendizado profundo incremental e DNS passivo
Gregório, João Rafael [UNESP]
Nomes de domínio na Internet
Segurança de sistemas
Inteligência artificial
Redes neurais (Computação)
Internet domain names
System safety
Artificial intelligence
Neural networks (Computer science)
title_short Detecção de domínios gerados por algoritmos com aprendizado profundo incremental e DNS passivo
title_full Detecção de domínios gerados por algoritmos com aprendizado profundo incremental e DNS passivo
title_fullStr Detecção de domínios gerados por algoritmos com aprendizado profundo incremental e DNS passivo
title_full_unstemmed Detecção de domínios gerados por algoritmos com aprendizado profundo incremental e DNS passivo
title_sort Detecção de domínios gerados por algoritmos com aprendizado profundo incremental e DNS passivo
author Gregório, João Rafael [UNESP]
author_facet Gregório, João Rafael [UNESP]
author_role author
dc.contributor.none.fl_str_mv Cansian, Adriano Mauro [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Gregório, João Rafael [UNESP]
dc.subject.por.fl_str_mv Nomes de domínio na Internet
Segurança de sistemas
Inteligência artificial
Redes neurais (Computação)
Internet domain names
System safety
Artificial intelligence
Neural networks (Computer science)
topic Nomes de domínio na Internet
Segurança de sistemas
Inteligência artificial
Redes neurais (Computação)
Internet domain names
System safety
Artificial intelligence
Neural networks (Computer science)
description O Domain Name System (DNS) é um dos serviços mais importantes da internet, responsável por mapear nomes de domínio em endereços IP. Embora seja amplamente utilizado de forma legítima, o DNS também pode ser explorado por cibercriminosos como parte de suas infraestruturas de ataque. Entre as mais comuns estão as botnets, redes de dispositivos comprometidos por malware e controlados remotamente de maneira coordenada. O controle dessas redes ocorre por meio de servidores de comando e controle (C2), que permitem aos atacantes gerenciar os dispositivos infectados. Para ocultar o endereço real dos C2 ou possibilitar a alteração frequente desses endereços sem interromper a comunicação com a botnet, os atacantes recorrem a algoritmos geradores de domínios (DGA), responsáveis por criar nomes de domínio pseudoaleatórios utilizados na comunicação maliciosa. Este trabalho apresenta um modelo de aprendizado profundo capaz de detectar domínios DGA utilizando técnicas de processamento de linguagem natural (NLP) para a classificação de textos curtos, além de uma metodologia de atualização incremental que permite incorporar novos exemplos, preservando a capacidade do modelo de identificar famílias emergentes de ameaças. A validação do modelo foi realizada em ambiente real, por meio da coleta de consultas DNS em rede local com DNS passivo, e complementada com o desenvolvimento de um painel de monitoramento DNS, destinado a acompanhar os domínios classificados como suspeitos pelo modelo. Nos experimentos, o modelo alcançou métricas expressivas tanto em ambiente controlado quanto em cenários reais, obtendo acurácia de 98,00%, precisão de 97,96%, recall de 97,95% e taxa de falsos positivos de 2,39%. O treinamento incremental demonstrou eficácia em evitar o esquecimento catastrófico, mantendo o desempenho estável ao longo do tempo. A validação em tráfego DNS de mundo real reforça a relevância do modelo na detecção de domínios DGA proposto neste trabalho, contribuindo significativamente para a segurança cibernética.
publishDate 2025
dc.date.none.fl_str_mv 2025-09-11T14:12:59Z
2025-08-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv GREGÓRIO, João Rafael. Detecção de domínios gerados por algoritmos com aprendizado profundo incremental e DNS passivo. Dissertação (Mestrado em Ciência da Computação). 2025 – Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas (Ibilce), São José do Rio Preto, 2025.
https://hdl.handle.net/11449/313556
33004153073P2
3662040070806398
0000-0001-7783-2567
identifier_str_mv GREGÓRIO, João Rafael. Detecção de domínios gerados por algoritmos com aprendizado profundo incremental e DNS passivo. Dissertação (Mestrado em Ciência da Computação). 2025 – Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas (Ibilce), São José do Rio Preto, 2025.
33004153073P2
3662040070806398
0000-0001-7783-2567
url https://hdl.handle.net/11449/313556
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv repositoriounesp@unesp.br
_version_ 1854954335654379520