Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Estadual Paulista (Unesp)
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://hdl.handle.net/11449/314406 |
Resumo: | Este trabalho investiga a aplicação de métodos de aprendizado de máquina do tipo ensemble, incluindo Random Forest, AdaBoost e XGBoost, na detecção de ataques de phishing. Foram utilizados três conjuntos de dados amplamente empregados na literatura (Enron, ISCX-URL- 2016 e Phishing Websites — UCI), que passaram por etapas de pré-processamento e foram adaptados para classificação binária, distinguindo entre instâncias legítimas e maliciosas. Os métodos ensemble foram comparados a algoritmos tradicionais, como Regressão Logística, k-Nearest Neighbors, Naive Bayes e Decision Tree, por meio de métricas de acurácia, precisão, recall e F1-score, com execuções repetidas de validação cruzada para garantir robustez estatística. Os resultados mostraram que os modelos ensemble obtiveram acurácia média de 96,9% e F1-score de 97%, superando os métodos convencionais, especialmente na redução de falsos negativos. Não foi desenvolvido um sistema completo em produção. O estudo evidencia o potencial dos métodos avaliados como base para implementações futuras, abrangendo engenharia de atributos, integração arquitetural e validação em ambientes reais. |
| id |
UNSP_f220e893b82918181659e80ec98782c3 |
|---|---|
| oai_identifier_str |
oai:repositorio.unesp.br:11449/314406 |
| network_acronym_str |
UNSP |
| network_name_str |
Repositório Institucional da UNESP |
| repository_id_str |
|
| spelling |
Detecção de Phishing por aprendizado de máquina com ênfase em Métodos EnsemblePhishing detection based on machine learning with focus on Ensemble MethodsPhishingAprendizado de máquinaMétodos EnsembleMachine learningRandom forestXgboostEste trabalho investiga a aplicação de métodos de aprendizado de máquina do tipo ensemble, incluindo Random Forest, AdaBoost e XGBoost, na detecção de ataques de phishing. Foram utilizados três conjuntos de dados amplamente empregados na literatura (Enron, ISCX-URL- 2016 e Phishing Websites — UCI), que passaram por etapas de pré-processamento e foram adaptados para classificação binária, distinguindo entre instâncias legítimas e maliciosas. Os métodos ensemble foram comparados a algoritmos tradicionais, como Regressão Logística, k-Nearest Neighbors, Naive Bayes e Decision Tree, por meio de métricas de acurácia, precisão, recall e F1-score, com execuções repetidas de validação cruzada para garantir robustez estatística. Os resultados mostraram que os modelos ensemble obtiveram acurácia média de 96,9% e F1-score de 97%, superando os métodos convencionais, especialmente na redução de falsos negativos. Não foi desenvolvido um sistema completo em produção. O estudo evidencia o potencial dos métodos avaliados como base para implementações futuras, abrangendo engenharia de atributos, integração arquitetural e validação em ambientes reais.This work investigates the application of ensemble-type machine learning methods, including Ran- dom Forest, AdaBoost, and XGBoost, in the detection of phishing attacks. Three datasets widely used in the literature (Enron, ISCX-URL-2016, and Phishing Websites — UCI) were employed. They underwent preprocessing stages and were adapted for binary classification, distinguishing between legitimate and malicious instances. The ensemble methods were compared to traditional algorithms such as Logistic Regression, k-Nearest Neighbors, Naive Bayes, and Decision Tree using accuracy, precision, recall, and F1-score metrics, with repeated cross-validation executions to ensure statistical robustness. The results showed that the ensemble models achieved an average accuracy of 96.9% and an F1-score of 97%, outperforming conventional methods, especially in reducing false negatives. A complete production system was not developed. The study highlights the potential of the evaluated methods as a basis for future implementations, encompassing feature engineering, architectural integration, and validation in real environments.Universidade Estadual Paulista (Unesp)Cansian, Adriano Mauro [UNESP]Universidade Estadual Paulista (Unesp)Cruz, Lucas Puerta [UNESP]2025-10-20T15:34:45Z2025-08-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfCRUZ, Lucas Puerta. Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble. Dissertação (Mestrado em Ciência da Computação). 2025 – Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas (Ibilce), São José do Rio Preto, 2025.https://hdl.handle.net/11449/31440633004153073P20009-0001-8802-946Xporinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2025-10-20T21:28:42Zoai:repositorio.unesp.br:11449/314406Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462025-10-20T21:28:42Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false |
| dc.title.none.fl_str_mv |
Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble Phishing detection based on machine learning with focus on Ensemble Methods |
| title |
Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble |
| spellingShingle |
Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble Cruz, Lucas Puerta [UNESP] Phishing Aprendizado de máquina Métodos Ensemble Machine learning Random forest Xgboost |
| title_short |
Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble |
| title_full |
Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble |
| title_fullStr |
Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble |
| title_full_unstemmed |
Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble |
| title_sort |
Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble |
| author |
Cruz, Lucas Puerta [UNESP] |
| author_facet |
Cruz, Lucas Puerta [UNESP] |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Cansian, Adriano Mauro [UNESP] Universidade Estadual Paulista (Unesp) |
| dc.contributor.author.fl_str_mv |
Cruz, Lucas Puerta [UNESP] |
| dc.subject.por.fl_str_mv |
Phishing Aprendizado de máquina Métodos Ensemble Machine learning Random forest Xgboost |
| topic |
Phishing Aprendizado de máquina Métodos Ensemble Machine learning Random forest Xgboost |
| description |
Este trabalho investiga a aplicação de métodos de aprendizado de máquina do tipo ensemble, incluindo Random Forest, AdaBoost e XGBoost, na detecção de ataques de phishing. Foram utilizados três conjuntos de dados amplamente empregados na literatura (Enron, ISCX-URL- 2016 e Phishing Websites — UCI), que passaram por etapas de pré-processamento e foram adaptados para classificação binária, distinguindo entre instâncias legítimas e maliciosas. Os métodos ensemble foram comparados a algoritmos tradicionais, como Regressão Logística, k-Nearest Neighbors, Naive Bayes e Decision Tree, por meio de métricas de acurácia, precisão, recall e F1-score, com execuções repetidas de validação cruzada para garantir robustez estatística. Os resultados mostraram que os modelos ensemble obtiveram acurácia média de 96,9% e F1-score de 97%, superando os métodos convencionais, especialmente na redução de falsos negativos. Não foi desenvolvido um sistema completo em produção. O estudo evidencia o potencial dos métodos avaliados como base para implementações futuras, abrangendo engenharia de atributos, integração arquitetural e validação em ambientes reais. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-10-20T15:34:45Z 2025-08-25 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
CRUZ, Lucas Puerta. Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble. Dissertação (Mestrado em Ciência da Computação). 2025 – Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas (Ibilce), São José do Rio Preto, 2025. https://hdl.handle.net/11449/314406 33004153073P2 0009-0001-8802-946X |
| identifier_str_mv |
CRUZ, Lucas Puerta. Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble. Dissertação (Mestrado em Ciência da Computação). 2025 – Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas (Ibilce), São José do Rio Preto, 2025. 33004153073P2 0009-0001-8802-946X |
| url |
https://hdl.handle.net/11449/314406 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
| publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP |
| instname_str |
Universidade Estadual Paulista (UNESP) |
| instacron_str |
UNESP |
| institution |
UNESP |
| reponame_str |
Repositório Institucional da UNESP |
| collection |
Repositório Institucional da UNESP |
| repository.name.fl_str_mv |
Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP) |
| repository.mail.fl_str_mv |
repositoriounesp@unesp.br |
| _version_ |
1854955000315248640 |