Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de Pernambuco
UFPE Brasil Programa de Pos Graduacao em Ciencia da Computacao |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://repositorio.ufpe.br/handle/123456789/67847 |
Resumo: | A análise de dados não paramétricos, desbalanceados e de alta dimensionalidade é um desafio recorrente em diversas aplicações de Aprendizado de Máquina (AM), onde métodos tradicio nais de Seleção de Características (FS) frequentemente falham devido a suposições restritivas (como normalidade dos dados) ou alto custo computacional. Este trabalho propõe uma es-tratégia abrangente de FS para sistemas baseados em AM por meio de uma abordagem não paramétrica, robusta e escalável. O modelo é estruturado em três estágios: filtragem, clusteri-zação e ranqueamento, utilizando métricas adaptadas como entropia de Shannon, correlação de Spearman, distância de Bhattacharyya modificada e Informação Mútua Ajustada (AMI). que dispensam premissas rígidas sobre a distribuição dos dados. Implementado em Python, o algoritmo foi validado experimentalmente em múltiplos cenários, incluindo estudos de caso em cibersegurança com bases de dados reais de tráfego de rede e ataques cibernéticos, em-pregando classificadores como Floresta Aleatória (RF), validação cruzada e testes estatísticos não paramétricos (Friedman e Nemenyi). Os resultados demonstraram redução de 81,5% no número total de características, considerando a média da redução nos três datasets utiliza-dos, sem comprometer a exatidão, com superioridade estatística (p-valor <0,05) em métricas como exatidão(ou acurácia), Pontuação F1 (média harmônica de precisão e revocação) (F1) e Área sob a Curva ROC (Característica de Operação do Receptor) (AUC-ROC) em compa-ração a métodos tradicionais, além de reduzir o tempo de processamento em até 3,8 vezes em comparação com a classificação sobre os conjuntos de dados completos. A estratégia pro-posta não apenas melhora a eficiência computacional e a performance preditiva em problemas complexos, mas também amplia a explicabilidade e adaptabilidade a domínios com dados he-terogêneos, oferecendo uma alternativa para a seleção de atributos em cenários onde dados não paramétricos são predominantes. |
| id |
UFPE_d5c2a9d42e0ef30d5029f5da91c8ef14 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufpe.br:123456789/67847 |
| network_acronym_str |
UFPE |
| network_name_str |
Repositório Institucional da UFPE |
| repository_id_str |
|
| spelling |
Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquinaSeleção de atributosTécnicas não paramétricasRedução de dimensionalidadeA análise de dados não paramétricos, desbalanceados e de alta dimensionalidade é um desafio recorrente em diversas aplicações de Aprendizado de Máquina (AM), onde métodos tradicio nais de Seleção de Características (FS) frequentemente falham devido a suposições restritivas (como normalidade dos dados) ou alto custo computacional. Este trabalho propõe uma es-tratégia abrangente de FS para sistemas baseados em AM por meio de uma abordagem não paramétrica, robusta e escalável. O modelo é estruturado em três estágios: filtragem, clusteri-zação e ranqueamento, utilizando métricas adaptadas como entropia de Shannon, correlação de Spearman, distância de Bhattacharyya modificada e Informação Mútua Ajustada (AMI). que dispensam premissas rígidas sobre a distribuição dos dados. Implementado em Python, o algoritmo foi validado experimentalmente em múltiplos cenários, incluindo estudos de caso em cibersegurança com bases de dados reais de tráfego de rede e ataques cibernéticos, em-pregando classificadores como Floresta Aleatória (RF), validação cruzada e testes estatísticos não paramétricos (Friedman e Nemenyi). Os resultados demonstraram redução de 81,5% no número total de características, considerando a média da redução nos três datasets utiliza-dos, sem comprometer a exatidão, com superioridade estatística (p-valor <0,05) em métricas como exatidão(ou acurácia), Pontuação F1 (média harmônica de precisão e revocação) (F1) e Área sob a Curva ROC (Característica de Operação do Receptor) (AUC-ROC) em compa-ração a métodos tradicionais, além de reduzir o tempo de processamento em até 3,8 vezes em comparação com a classificação sobre os conjuntos de dados completos. A estratégia pro-posta não apenas melhora a eficiência computacional e a performance preditiva em problemas complexos, mas também amplia a explicabilidade e adaptabilidade a domínios com dados he-terogêneos, oferecendo uma alternativa para a seleção de atributos em cenários onde dados não paramétricos são predominantes.The analysis of non-parametric, imbalanced, and high-dimensional data remains a recurring challenge in numerous Machine Learning (ML) applications, where traditional feature selection (FS) methods often fail dubito restrictive assumptions (e.g., data normality) or high computa-tional costs. This work proposes a comprehensive FS strategy for ML-based systems through a non-parametric, robust, and scalable approach. The model is structured in three stages: filter-ing, clustering, and ranking, employing adapted metrics such as Shannon entropy, Spearman correlation, modified Bhattacharyya distance, and adjusted mutual information (AMI), which eliminate rigid assumptions about data distribution. Implemented in Python, the algorithm was experimentally validated across multiple scenarios, including cybersecurity case studies with real-world network traffic and cyberattack datasets, using classifiers such as Random Forest, 10-fold cross-validation, and non-parametric statistical tests (Friedman and Nemenyi). Results showed an average dimensionality reduction of 81.5% without compromising accuracy, achieving statistical superiority (p-value < 0.05) in metrics such as accuracy, Fl-score, and AUC-ROC compared to traditional methods, while reducing processing time by up to 3.8x. The stability of the selections exceeded 90% agreement, demonstrating the reliability of the model. The proposed strategy not only enhances computational efficiency and predictive per-formance in complex problems but also improves explainability and adaptability to domains with heterogeneous data, providing an effective alternative for feature selection in scenarios dominated by non-parametric data.Universidade Federal de PernambucoUFPEBrasilPrograma de Pos Graduacao em Ciencia da ComputacaoDANTAS, Jamilson RamalhoSILVA JUNIOR, João Ferreira dahttp://lattes.cnpq.br/5512384796762058http://lattes.cnpq.br/5655706091153128http://lattes.cnpq.br/0524469251291943https://orcid.org/0000-0003-0610-6925https://orcid.org/0000-0001-9009-7659DANTAS, Camila de Sousa2026-01-23T15:04:29Z2026-01-23T15:04:29Z2025-08-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfDANTAS, Camila de Sousa. Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina. 2025. Dissertação (Mestrado em Ciências da Computação) - Universidade Federal de Pernambuco, Recife, 2025.https://repositorio.ufpe.br/handle/123456789/67847porhttps://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPE2026-01-25T19:48:53Zoai:repositorio.ufpe.br:123456789/67847Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212026-01-25T19:48:53Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
| dc.title.none.fl_str_mv |
Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina |
| title |
Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina |
| spellingShingle |
Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina DANTAS, Camila de Sousa Seleção de atributos Técnicas não paramétricas Redução de dimensionalidade |
| title_short |
Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina |
| title_full |
Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina |
| title_fullStr |
Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina |
| title_full_unstemmed |
Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina |
| title_sort |
Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina |
| author |
DANTAS, Camila de Sousa |
| author_facet |
DANTAS, Camila de Sousa |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
DANTAS, Jamilson Ramalho SILVA JUNIOR, João Ferreira da http://lattes.cnpq.br/5512384796762058 http://lattes.cnpq.br/5655706091153128 http://lattes.cnpq.br/0524469251291943 https://orcid.org/0000-0003-0610-6925 https://orcid.org/0000-0001-9009-7659 |
| dc.contributor.author.fl_str_mv |
DANTAS, Camila de Sousa |
| dc.subject.por.fl_str_mv |
Seleção de atributos Técnicas não paramétricas Redução de dimensionalidade |
| topic |
Seleção de atributos Técnicas não paramétricas Redução de dimensionalidade |
| description |
A análise de dados não paramétricos, desbalanceados e de alta dimensionalidade é um desafio recorrente em diversas aplicações de Aprendizado de Máquina (AM), onde métodos tradicio nais de Seleção de Características (FS) frequentemente falham devido a suposições restritivas (como normalidade dos dados) ou alto custo computacional. Este trabalho propõe uma es-tratégia abrangente de FS para sistemas baseados em AM por meio de uma abordagem não paramétrica, robusta e escalável. O modelo é estruturado em três estágios: filtragem, clusteri-zação e ranqueamento, utilizando métricas adaptadas como entropia de Shannon, correlação de Spearman, distância de Bhattacharyya modificada e Informação Mútua Ajustada (AMI). que dispensam premissas rígidas sobre a distribuição dos dados. Implementado em Python, o algoritmo foi validado experimentalmente em múltiplos cenários, incluindo estudos de caso em cibersegurança com bases de dados reais de tráfego de rede e ataques cibernéticos, em-pregando classificadores como Floresta Aleatória (RF), validação cruzada e testes estatísticos não paramétricos (Friedman e Nemenyi). Os resultados demonstraram redução de 81,5% no número total de características, considerando a média da redução nos três datasets utiliza-dos, sem comprometer a exatidão, com superioridade estatística (p-valor <0,05) em métricas como exatidão(ou acurácia), Pontuação F1 (média harmônica de precisão e revocação) (F1) e Área sob a Curva ROC (Característica de Operação do Receptor) (AUC-ROC) em compa-ração a métodos tradicionais, além de reduzir o tempo de processamento em até 3,8 vezes em comparação com a classificação sobre os conjuntos de dados completos. A estratégia pro-posta não apenas melhora a eficiência computacional e a performance preditiva em problemas complexos, mas também amplia a explicabilidade e adaptabilidade a domínios com dados he-terogêneos, oferecendo uma alternativa para a seleção de atributos em cenários onde dados não paramétricos são predominantes. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-08-28 2026-01-23T15:04:29Z 2026-01-23T15:04:29Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
DANTAS, Camila de Sousa. Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina. 2025. Dissertação (Mestrado em Ciências da Computação) - Universidade Federal de Pernambuco, Recife, 2025. https://repositorio.ufpe.br/handle/123456789/67847 |
| identifier_str_mv |
DANTAS, Camila de Sousa. Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina. 2025. Dissertação (Mestrado em Ciências da Computação) - Universidade Federal de Pernambuco, Recife, 2025. |
| url |
https://repositorio.ufpe.br/handle/123456789/67847 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco UFPE Brasil Programa de Pos Graduacao em Ciencia da Computacao |
| publisher.none.fl_str_mv |
Universidade Federal de Pernambuco UFPE Brasil Programa de Pos Graduacao em Ciencia da Computacao |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
| instname_str |
Universidade Federal de Pernambuco (UFPE) |
| instacron_str |
UFPE |
| institution |
UFPE |
| reponame_str |
Repositório Institucional da UFPE |
| collection |
Repositório Institucional da UFPE |
| repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
| repository.mail.fl_str_mv |
attena@ufpe.br |
| _version_ |
1856042067694714880 |