Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Cruz, Lucas Puerta [UNESP]
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/11449/314406
Resumo: Este trabalho investiga a aplicação de métodos de aprendizado de máquina do tipo ensemble, incluindo Random Forest, AdaBoost e XGBoost, na detecção de ataques de phishing. Foram utilizados três conjuntos de dados amplamente empregados na literatura (Enron, ISCX-URL- 2016 e Phishing Websites — UCI), que passaram por etapas de pré-processamento e foram adaptados para classificação binária, distinguindo entre instâncias legítimas e maliciosas. Os métodos ensemble foram comparados a algoritmos tradicionais, como Regressão Logística, k-Nearest Neighbors, Naive Bayes e Decision Tree, por meio de métricas de acurácia, precisão, recall e F1-score, com execuções repetidas de validação cruzada para garantir robustez estatística. Os resultados mostraram que os modelos ensemble obtiveram acurácia média de 96,9% e F1-score de 97%, superando os métodos convencionais, especialmente na redução de falsos negativos. Não foi desenvolvido um sistema completo em produção. O estudo evidencia o potencial dos métodos avaliados como base para implementações futuras, abrangendo engenharia de atributos, integração arquitetural e validação em ambientes reais.
id UNSP_f220e893b82918181659e80ec98782c3
oai_identifier_str oai:repositorio.unesp.br:11449/314406
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str
spelling Detecção de Phishing por aprendizado de máquina com ênfase em Métodos EnsemblePhishing detection based on machine learning with focus on Ensemble MethodsPhishingAprendizado de máquinaMétodos EnsembleMachine learningRandom forestXgboostEste trabalho investiga a aplicação de métodos de aprendizado de máquina do tipo ensemble, incluindo Random Forest, AdaBoost e XGBoost, na detecção de ataques de phishing. Foram utilizados três conjuntos de dados amplamente empregados na literatura (Enron, ISCX-URL- 2016 e Phishing Websites — UCI), que passaram por etapas de pré-processamento e foram adaptados para classificação binária, distinguindo entre instâncias legítimas e maliciosas. Os métodos ensemble foram comparados a algoritmos tradicionais, como Regressão Logística, k-Nearest Neighbors, Naive Bayes e Decision Tree, por meio de métricas de acurácia, precisão, recall e F1-score, com execuções repetidas de validação cruzada para garantir robustez estatística. Os resultados mostraram que os modelos ensemble obtiveram acurácia média de 96,9% e F1-score de 97%, superando os métodos convencionais, especialmente na redução de falsos negativos. Não foi desenvolvido um sistema completo em produção. O estudo evidencia o potencial dos métodos avaliados como base para implementações futuras, abrangendo engenharia de atributos, integração arquitetural e validação em ambientes reais.This work investigates the application of ensemble-type machine learning methods, including Ran- dom Forest, AdaBoost, and XGBoost, in the detection of phishing attacks. Three datasets widely used in the literature (Enron, ISCX-URL-2016, and Phishing Websites — UCI) were employed. They underwent preprocessing stages and were adapted for binary classification, distinguishing between legitimate and malicious instances. The ensemble methods were compared to traditional algorithms such as Logistic Regression, k-Nearest Neighbors, Naive Bayes, and Decision Tree using accuracy, precision, recall, and F1-score metrics, with repeated cross-validation executions to ensure statistical robustness. The results showed that the ensemble models achieved an average accuracy of 96.9% and an F1-score of 97%, outperforming conventional methods, especially in reducing false negatives. A complete production system was not developed. The study highlights the potential of the evaluated methods as a basis for future implementations, encompassing feature engineering, architectural integration, and validation in real environments.Universidade Estadual Paulista (Unesp)Cansian, Adriano Mauro [UNESP]Universidade Estadual Paulista (Unesp)Cruz, Lucas Puerta [UNESP]2025-10-20T15:34:45Z2025-08-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfCRUZ, Lucas Puerta. Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble. Dissertação (Mestrado em Ciência da Computação). 2025 – Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas (Ibilce), São José do Rio Preto, 2025.https://hdl.handle.net/11449/31440633004153073P20009-0001-8802-946Xporinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2025-10-20T21:28:42Zoai:repositorio.unesp.br:11449/314406Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462025-10-20T21:28:42Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble
Phishing detection based on machine learning with focus on Ensemble Methods
title Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble
spellingShingle Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble
Cruz, Lucas Puerta [UNESP]
Phishing
Aprendizado de máquina
Métodos Ensemble
Machine learning
Random forest
Xgboost
title_short Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble
title_full Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble
title_fullStr Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble
title_full_unstemmed Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble
title_sort Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble
author Cruz, Lucas Puerta [UNESP]
author_facet Cruz, Lucas Puerta [UNESP]
author_role author
dc.contributor.none.fl_str_mv Cansian, Adriano Mauro [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Cruz, Lucas Puerta [UNESP]
dc.subject.por.fl_str_mv Phishing
Aprendizado de máquina
Métodos Ensemble
Machine learning
Random forest
Xgboost
topic Phishing
Aprendizado de máquina
Métodos Ensemble
Machine learning
Random forest
Xgboost
description Este trabalho investiga a aplicação de métodos de aprendizado de máquina do tipo ensemble, incluindo Random Forest, AdaBoost e XGBoost, na detecção de ataques de phishing. Foram utilizados três conjuntos de dados amplamente empregados na literatura (Enron, ISCX-URL- 2016 e Phishing Websites — UCI), que passaram por etapas de pré-processamento e foram adaptados para classificação binária, distinguindo entre instâncias legítimas e maliciosas. Os métodos ensemble foram comparados a algoritmos tradicionais, como Regressão Logística, k-Nearest Neighbors, Naive Bayes e Decision Tree, por meio de métricas de acurácia, precisão, recall e F1-score, com execuções repetidas de validação cruzada para garantir robustez estatística. Os resultados mostraram que os modelos ensemble obtiveram acurácia média de 96,9% e F1-score de 97%, superando os métodos convencionais, especialmente na redução de falsos negativos. Não foi desenvolvido um sistema completo em produção. O estudo evidencia o potencial dos métodos avaliados como base para implementações futuras, abrangendo engenharia de atributos, integração arquitetural e validação em ambientes reais.
publishDate 2025
dc.date.none.fl_str_mv 2025-10-20T15:34:45Z
2025-08-25
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv CRUZ, Lucas Puerta. Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble. Dissertação (Mestrado em Ciência da Computação). 2025 – Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas (Ibilce), São José do Rio Preto, 2025.
https://hdl.handle.net/11449/314406
33004153073P2
0009-0001-8802-946X
identifier_str_mv CRUZ, Lucas Puerta. Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble. Dissertação (Mestrado em Ciência da Computação). 2025 – Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas (Ibilce), São José do Rio Preto, 2025.
33004153073P2
0009-0001-8802-946X
url https://hdl.handle.net/11449/314406
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv repositoriounesp@unesp.br
_version_ 1854955000315248640