Abordagem semi-supervisionada para detecção de domínios maliciosos em TLDs em sua primeira consulta

Silveira, Marcos Rogério [UNESP]

Abordagem semi-supervisionada para detecção de domínios maliciosos em TLDs em sua primeira consulta

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Silveira, Marcos Rogério [UNESP]
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Ciência da computação Computadores medidas de segurança Crime por computador Aprendizado de máquinas Domain name system Malicious domain Passive DNS Machine learning
Link de acesso:	https://hdl.handle.net/11449/257188
Resumo:	Este trabalho propõe um método para a detecção precoce de domínios maliciosos recém-registrados em Top Level Domains (TLDs). A abordagem proposta utiliza apenas a primeira consulta DNS de um domínio recém-registrado coletada de forma passiva e enriquecida pelo sistema ENTRADA, que permite a análise e o armazenamento eficiente e em larga escala desses dados. A detecção desses domínios fica a cargo de uma abordagem semi-supervisionada, composta por um módulo de aprendizado de máquina supervisionado no qual foram utilizados dois algoritmos supervisionados, e um módulo de aprendizado não supervisionado, com a utilização de um algoritmo de clusterização. As saídas de todos os modelos usados são enviadas para um modelo classificador final, com o objetivo de combinar as previsões anteriormente fornecidas e identificar se aquele domínio é malicioso, juntamente com a probabilidade. Para a etapa de treinamento dos modelos supervisionados, os dados são balanceados para que não haja viés. O treinamento do modelo não supervisionado é feito apenas com domínios maliciosos, visando gerar clusters puramente maliciosos. Após a etapa de treinamento, os modelos são testados no ambiente real, avaliando novos domínios recém-registrados e o desempenho da abordagem proposta. Por fim, um módulo de re-treinamento está disponível, sempre que houver uma degradação no desempenho. A abordagem proposta na etapa de treinamento apresentou uma área sob a curva ROC (AUC) de 0,96 (+/- 0,01) e uma Acurácia (ACC) de 0,91. Na etapa de teste, que simula o ambiente de produção, as métricas foram ACC 0,88, taxa de de verdadeiro positivo (TVP) de 0,884, taxa de de verdadeiro negativo (TVN) 0,875, taxa de falso positivo (TFP) 0,124 e taxa de falso negativo (TFN) 0,110.

Metadados do item

id	UNSP_c3951a1b4da695712d4ecbcb0f1db7e8
oai_identifier_str	oai:repositorio.unesp.br:11449/257188
network_acronym_str	UNSP
network_name_str	Repositório Institucional da UNESP
repository_id_str
spelling	Abordagem semi-supervisionada para detecção de domínios maliciosos em TLDs em sua primeira consultaSemi-supervised approach for detecting malicious domains in TLDs on their first queryCiência da computaçãoComputadores medidas de segurançaCrime por computadorAprendizado de máquinasDomain name systemMalicious domainPassive DNSMachine learningEste trabalho propõe um método para a detecção precoce de domínios maliciosos recém-registrados em Top Level Domains (TLDs). A abordagem proposta utiliza apenas a primeira consulta DNS de um domínio recém-registrado coletada de forma passiva e enriquecida pelo sistema ENTRADA, que permite a análise e o armazenamento eficiente e em larga escala desses dados. A detecção desses domínios fica a cargo de uma abordagem semi-supervisionada, composta por um módulo de aprendizado de máquina supervisionado no qual foram utilizados dois algoritmos supervisionados, e um módulo de aprendizado não supervisionado, com a utilização de um algoritmo de clusterização. As saídas de todos os modelos usados são enviadas para um modelo classificador final, com o objetivo de combinar as previsões anteriormente fornecidas e identificar se aquele domínio é malicioso, juntamente com a probabilidade. Para a etapa de treinamento dos modelos supervisionados, os dados são balanceados para que não haja viés. O treinamento do modelo não supervisionado é feito apenas com domínios maliciosos, visando gerar clusters puramente maliciosos. Após a etapa de treinamento, os modelos são testados no ambiente real, avaliando novos domínios recém-registrados e o desempenho da abordagem proposta. Por fim, um módulo de re-treinamento está disponível, sempre que houver uma degradação no desempenho. A abordagem proposta na etapa de treinamento apresentou uma área sob a curva ROC (AUC) de 0,96 (+/- 0,01) e uma Acurácia (ACC) de 0,91. Na etapa de teste, que simula o ambiente de produção, as métricas foram ACC 0,88, taxa de de verdadeiro positivo (TVP) de 0,884, taxa de de verdadeiro negativo (TVN) 0,875, taxa de falso positivo (TFP) 0,124 e taxa de falso negativo (TFN) 0,110.This work proposes a method for the early detection of newly registered malicious domains in Top Level Domains (TLDs). The proposed approach utilizes only the first DNS query of a newly registered domain, passively collected and enriched by the ENTRADA system, which enables the efficient and large-scale analysis and storage of these data. The detection of these domains is handled by a semi-supervised approach, consisting of a supervised machine learning module, in which two supervised algorithms were used, and an unsupervised learning module, employing a clustering algorithm. The outputs of all the models used are sent to a final classifier model, with the aim of combining the previously provided predictions and identifying whether the domain is malicious, along with the probability. For the training phase of the supervised models, the data is balanced to avoid bias. The training of the unsupervised model is done exclusively with malicious domains, aiming to generate purely malicious clusters. After the training phase, the models are tested in a real environment, evaluating newly registered domains and the performance of the proposed approach. Finally, a retraining module is available whenever there is a degradation in performance. The proposed approach in the training phase achieved an Area Under the ROC Curve (AUC) of 0.96 (+/- 0.01) and an Accuracy (ACC) of 0.91. In the testing phase, which simulates the production environment, the metrics were ACC 0.88, True Positive Rate (TPR) of 0.884, True Negative Rate (TNR) of 0.875, False Positive Rate (FPR) of 0.124, and False Negative Rate (FNR) of 0.110.Fundação para o Desenvolvimento da UNESP (FUNDUNESP)FUNDUNESP: 2764/2018Universidade Estadual Paulista (Unesp)Cansian, Adriano Mauro [UNESP]Universidade Estadual Paulista (Unesp)Silveira, Marcos Rogério [UNESP]2024-08-27T13:38:47Z2024-08-27T13:38:47Z2024-08-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfSILVEIRA, Marcos Rogério. Abordagem semi-supervisionada para detecção de domínios maliciosos em TLDs em sua primeira consulta. (Doutorado em Ciência da Computação). 2024. Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas (Ibilce), São José do Rio Preto, 2024.https://hdl.handle.net/11449/25718833004153073P2porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-08-28T18:32:32Zoai:repositorio.unesp.br:11449/257188Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462024-08-28T18:32:32Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv	Abordagem semi-supervisionada para detecção de domínios maliciosos em TLDs em sua primeira consulta Semi-supervised approach for detecting malicious domains in TLDs on their first query
title	Abordagem semi-supervisionada para detecção de domínios maliciosos em TLDs em sua primeira consulta
spellingShingle	Abordagem semi-supervisionada para detecção de domínios maliciosos em TLDs em sua primeira consulta Silveira, Marcos Rogério [UNESP] Ciência da computação Computadores medidas de segurança Crime por computador Aprendizado de máquinas Domain name system Malicious domain Passive DNS Machine learning
title_short	Abordagem semi-supervisionada para detecção de domínios maliciosos em TLDs em sua primeira consulta
title_full	Abordagem semi-supervisionada para detecção de domínios maliciosos em TLDs em sua primeira consulta
title_fullStr	Abordagem semi-supervisionada para detecção de domínios maliciosos em TLDs em sua primeira consulta
title_full_unstemmed	Abordagem semi-supervisionada para detecção de domínios maliciosos em TLDs em sua primeira consulta
title_sort	Abordagem semi-supervisionada para detecção de domínios maliciosos em TLDs em sua primeira consulta
author	Silveira, Marcos Rogério [UNESP]
author_facet	Silveira, Marcos Rogério [UNESP]
author_role	author
dc.contributor.none.fl_str_mv	Cansian, Adriano Mauro [UNESP] Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv	Silveira, Marcos Rogério [UNESP]
dc.subject.por.fl_str_mv	Ciência da computação Computadores medidas de segurança Crime por computador Aprendizado de máquinas Domain name system Malicious domain Passive DNS Machine learning
topic	Ciência da computação Computadores medidas de segurança Crime por computador Aprendizado de máquinas Domain name system Malicious domain Passive DNS Machine learning
description	Este trabalho propõe um método para a detecção precoce de domínios maliciosos recém-registrados em Top Level Domains (TLDs). A abordagem proposta utiliza apenas a primeira consulta DNS de um domínio recém-registrado coletada de forma passiva e enriquecida pelo sistema ENTRADA, que permite a análise e o armazenamento eficiente e em larga escala desses dados. A detecção desses domínios fica a cargo de uma abordagem semi-supervisionada, composta por um módulo de aprendizado de máquina supervisionado no qual foram utilizados dois algoritmos supervisionados, e um módulo de aprendizado não supervisionado, com a utilização de um algoritmo de clusterização. As saídas de todos os modelos usados são enviadas para um modelo classificador final, com o objetivo de combinar as previsões anteriormente fornecidas e identificar se aquele domínio é malicioso, juntamente com a probabilidade. Para a etapa de treinamento dos modelos supervisionados, os dados são balanceados para que não haja viés. O treinamento do modelo não supervisionado é feito apenas com domínios maliciosos, visando gerar clusters puramente maliciosos. Após a etapa de treinamento, os modelos são testados no ambiente real, avaliando novos domínios recém-registrados e o desempenho da abordagem proposta. Por fim, um módulo de re-treinamento está disponível, sempre que houver uma degradação no desempenho. A abordagem proposta na etapa de treinamento apresentou uma área sob a curva ROC (AUC) de 0,96 (+/- 0,01) e uma Acurácia (ACC) de 0,91. Na etapa de teste, que simula o ambiente de produção, as métricas foram ACC 0,88, taxa de de verdadeiro positivo (TVP) de 0,884, taxa de de verdadeiro negativo (TVN) 0,875, taxa de falso positivo (TFP) 0,124 e taxa de falso negativo (TFN) 0,110.
publishDate	2024
dc.date.none.fl_str_mv	2024-08-27T13:38:47Z 2024-08-27T13:38:47Z 2024-08-06
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	SILVEIRA, Marcos Rogério. Abordagem semi-supervisionada para detecção de domínios maliciosos em TLDs em sua primeira consulta. (Doutorado em Ciência da Computação). 2024. Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas (Ibilce), São José do Rio Preto, 2024. https://hdl.handle.net/11449/257188 33004153073P2
identifier_str_mv	SILVEIRA, Marcos Rogério. Abordagem semi-supervisionada para detecção de domínios maliciosos em TLDs em sua primeira consulta. (Doutorado em Ciência da Computação). 2024. Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas (Ibilce), São José do Rio Preto, 2024. 33004153073P2
url	https://hdl.handle.net/11449/257188
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP
instname_str	Universidade Estadual Paulista (UNESP)
instacron_str	UNESP
institution	UNESP
reponame_str	Repositório Institucional da UNESP
collection	Repositório Institucional da UNESP
repository.name.fl_str_mv	Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv	repositoriounesp@unesp.br
_version_	1854954459748106240

Abordagem semi-supervisionada para detecção de domínios maliciosos em TLDs em sua primeira consulta

Registros relacionados