Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: DANTAS, Camila de Sousa
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/67847
Resumo: A análise de dados não paramétricos, desbalanceados e de alta dimensionalidade é um desafio recorrente em diversas aplicações de Aprendizado de Máquina (AM), onde métodos tradicio nais de Seleção de Características (FS) frequentemente falham devido a suposições restritivas (como normalidade dos dados) ou alto custo computacional. Este trabalho propõe uma es-tratégia abrangente de FS para sistemas baseados em AM por meio de uma abordagem não paramétrica, robusta e escalável. O modelo é estruturado em três estágios: filtragem, clusteri-zação e ranqueamento, utilizando métricas adaptadas como entropia de Shannon, correlação de Spearman, distância de Bhattacharyya modificada e Informação Mútua Ajustada (AMI). que dispensam premissas rígidas sobre a distribuição dos dados. Implementado em Python, o algoritmo foi validado experimentalmente em múltiplos cenários, incluindo estudos de caso em cibersegurança com bases de dados reais de tráfego de rede e ataques cibernéticos, em-pregando classificadores como Floresta Aleatória (RF), validação cruzada e testes estatísticos não paramétricos (Friedman e Nemenyi). Os resultados demonstraram redução de 81,5% no número total de características, considerando a média da redução nos três datasets utiliza-dos, sem comprometer a exatidão, com superioridade estatística (p-valor <0,05) em métricas como exatidão(ou acurácia), Pontuação F1 (média harmônica de precisão e revocação) (F1) e Área sob a Curva ROC (Característica de Operação do Receptor) (AUC-ROC) em compa-ração a métodos tradicionais, além de reduzir o tempo de processamento em até 3,8 vezes em comparação com a classificação sobre os conjuntos de dados completos. A estratégia pro-posta não apenas melhora a eficiência computacional e a performance preditiva em problemas complexos, mas também amplia a explicabilidade e adaptabilidade a domínios com dados he-terogêneos, oferecendo uma alternativa para a seleção de atributos em cenários onde dados não paramétricos são predominantes.
id UFPE_d5c2a9d42e0ef30d5029f5da91c8ef14
oai_identifier_str oai:repositorio.ufpe.br:123456789/67847
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str
spelling Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquinaSeleção de atributosTécnicas não paramétricasRedução de dimensionalidadeA análise de dados não paramétricos, desbalanceados e de alta dimensionalidade é um desafio recorrente em diversas aplicações de Aprendizado de Máquina (AM), onde métodos tradicio nais de Seleção de Características (FS) frequentemente falham devido a suposições restritivas (como normalidade dos dados) ou alto custo computacional. Este trabalho propõe uma es-tratégia abrangente de FS para sistemas baseados em AM por meio de uma abordagem não paramétrica, robusta e escalável. O modelo é estruturado em três estágios: filtragem, clusteri-zação e ranqueamento, utilizando métricas adaptadas como entropia de Shannon, correlação de Spearman, distância de Bhattacharyya modificada e Informação Mútua Ajustada (AMI). que dispensam premissas rígidas sobre a distribuição dos dados. Implementado em Python, o algoritmo foi validado experimentalmente em múltiplos cenários, incluindo estudos de caso em cibersegurança com bases de dados reais de tráfego de rede e ataques cibernéticos, em-pregando classificadores como Floresta Aleatória (RF), validação cruzada e testes estatísticos não paramétricos (Friedman e Nemenyi). Os resultados demonstraram redução de 81,5% no número total de características, considerando a média da redução nos três datasets utiliza-dos, sem comprometer a exatidão, com superioridade estatística (p-valor <0,05) em métricas como exatidão(ou acurácia), Pontuação F1 (média harmônica de precisão e revocação) (F1) e Área sob a Curva ROC (Característica de Operação do Receptor) (AUC-ROC) em compa-ração a métodos tradicionais, além de reduzir o tempo de processamento em até 3,8 vezes em comparação com a classificação sobre os conjuntos de dados completos. A estratégia pro-posta não apenas melhora a eficiência computacional e a performance preditiva em problemas complexos, mas também amplia a explicabilidade e adaptabilidade a domínios com dados he-terogêneos, oferecendo uma alternativa para a seleção de atributos em cenários onde dados não paramétricos são predominantes.The analysis of non-parametric, imbalanced, and high-dimensional data remains a recurring challenge in numerous Machine Learning (ML) applications, where traditional feature selection (FS) methods often fail dubito restrictive assumptions (e.g., data normality) or high computa-tional costs. This work proposes a comprehensive FS strategy for ML-based systems through a non-parametric, robust, and scalable approach. The model is structured in three stages: filter-ing, clustering, and ranking, employing adapted metrics such as Shannon entropy, Spearman correlation, modified Bhattacharyya distance, and adjusted mutual information (AMI), which eliminate rigid assumptions about data distribution. Implemented in Python, the algorithm was experimentally validated across multiple scenarios, including cybersecurity case studies with real-world network traffic and cyberattack datasets, using classifiers such as Random Forest, 10-fold cross-validation, and non-parametric statistical tests (Friedman and Nemenyi). Results showed an average dimensionality reduction of 81.5% without compromising accuracy, achieving statistical superiority (p-value < 0.05) in metrics such as accuracy, Fl-score, and AUC-ROC compared to traditional methods, while reducing processing time by up to 3.8x. The stability of the selections exceeded 90% agreement, demonstrating the reliability of the model. The proposed strategy not only enhances computational efficiency and predictive per-formance in complex problems but also improves explainability and adaptability to domains with heterogeneous data, providing an effective alternative for feature selection in scenarios dominated by non-parametric data.Universidade Federal de PernambucoUFPEBrasilPrograma de Pos Graduacao em Ciencia da ComputacaoDANTAS, Jamilson RamalhoSILVA JUNIOR, João Ferreira dahttp://lattes.cnpq.br/5512384796762058http://lattes.cnpq.br/5655706091153128http://lattes.cnpq.br/0524469251291943https://orcid.org/0000-0003-0610-6925https://orcid.org/0000-0001-9009-7659DANTAS, Camila de Sousa2026-01-23T15:04:29Z2026-01-23T15:04:29Z2025-08-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfDANTAS, Camila de Sousa. Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina. 2025. Dissertação (Mestrado em Ciências da Computação) - Universidade Federal de Pernambuco, Recife, 2025.https://repositorio.ufpe.br/handle/123456789/67847porhttps://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPE2026-01-25T19:48:53Zoai:repositorio.ufpe.br:123456789/67847Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212026-01-25T19:48:53Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.none.fl_str_mv Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina
title Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina
spellingShingle Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina
DANTAS, Camila de Sousa
Seleção de atributos
Técnicas não paramétricas
Redução de dimensionalidade
title_short Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina
title_full Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina
title_fullStr Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina
title_full_unstemmed Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina
title_sort Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina
author DANTAS, Camila de Sousa
author_facet DANTAS, Camila de Sousa
author_role author
dc.contributor.none.fl_str_mv DANTAS, Jamilson Ramalho
SILVA JUNIOR, João Ferreira da
http://lattes.cnpq.br/5512384796762058
http://lattes.cnpq.br/5655706091153128
http://lattes.cnpq.br/0524469251291943
https://orcid.org/0000-0003-0610-6925
https://orcid.org/0000-0001-9009-7659
dc.contributor.author.fl_str_mv DANTAS, Camila de Sousa
dc.subject.por.fl_str_mv Seleção de atributos
Técnicas não paramétricas
Redução de dimensionalidade
topic Seleção de atributos
Técnicas não paramétricas
Redução de dimensionalidade
description A análise de dados não paramétricos, desbalanceados e de alta dimensionalidade é um desafio recorrente em diversas aplicações de Aprendizado de Máquina (AM), onde métodos tradicio nais de Seleção de Características (FS) frequentemente falham devido a suposições restritivas (como normalidade dos dados) ou alto custo computacional. Este trabalho propõe uma es-tratégia abrangente de FS para sistemas baseados em AM por meio de uma abordagem não paramétrica, robusta e escalável. O modelo é estruturado em três estágios: filtragem, clusteri-zação e ranqueamento, utilizando métricas adaptadas como entropia de Shannon, correlação de Spearman, distância de Bhattacharyya modificada e Informação Mútua Ajustada (AMI). que dispensam premissas rígidas sobre a distribuição dos dados. Implementado em Python, o algoritmo foi validado experimentalmente em múltiplos cenários, incluindo estudos de caso em cibersegurança com bases de dados reais de tráfego de rede e ataques cibernéticos, em-pregando classificadores como Floresta Aleatória (RF), validação cruzada e testes estatísticos não paramétricos (Friedman e Nemenyi). Os resultados demonstraram redução de 81,5% no número total de características, considerando a média da redução nos três datasets utiliza-dos, sem comprometer a exatidão, com superioridade estatística (p-valor <0,05) em métricas como exatidão(ou acurácia), Pontuação F1 (média harmônica de precisão e revocação) (F1) e Área sob a Curva ROC (Característica de Operação do Receptor) (AUC-ROC) em compa-ração a métodos tradicionais, além de reduzir o tempo de processamento em até 3,8 vezes em comparação com a classificação sobre os conjuntos de dados completos. A estratégia pro-posta não apenas melhora a eficiência computacional e a performance preditiva em problemas complexos, mas também amplia a explicabilidade e adaptabilidade a domínios com dados he-terogêneos, oferecendo uma alternativa para a seleção de atributos em cenários onde dados não paramétricos são predominantes.
publishDate 2025
dc.date.none.fl_str_mv 2025-08-28
2026-01-23T15:04:29Z
2026-01-23T15:04:29Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv DANTAS, Camila de Sousa. Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina. 2025. Dissertação (Mestrado em Ciências da Computação) - Universidade Federal de Pernambuco, Recife, 2025.
https://repositorio.ufpe.br/handle/123456789/67847
identifier_str_mv DANTAS, Camila de Sousa. Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina. 2025. Dissertação (Mestrado em Ciências da Computação) - Universidade Federal de Pernambuco, Recife, 2025.
url https://repositorio.ufpe.br/handle/123456789/67847
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1856042067694714880