Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção Wrapper

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Andrade, Cássio Antonio
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/55/55137/tde-15012025-113931/
Resumo: Mesmo com os avanços em Big Data Analytics e Deep Learning, problemas clássicos de préprocessamento de dados na Estatística e no Aprendizado de Máquina, especialmente os oriundos de conjuntos de dados pequenos, continuam proeminentes. A seleção de variáveis é uma etapa crucial para derivar modelos preditivos robustos e eficientes. Remover previamente variáveis redundantes, irrelevantes e ruidosas melhora a capacidade de generalização dos modelos e reduz o tempo de treinamento e implementação em ambiente de produção. Um conjunto menor de variáveis também facilita a explicabilidade dos modelos, promovendo a chamada inteligência artificial explicável e minimizando os recursos humanos, tecnológicos e/ou econômicos envolvidos na coleta de dados. Entre as abordagens clássicas de seleção de variáveis, a Wrapper é frequentemente a mais eficiente no desempenho de generalização para um modelo destino, mas é também a mais custosa computacionalmente. Estudos recentes têm visado métodos alternativos com melhores desempenhos preditivos e viabilidade computacional para seleção por Wrappers. No entanto, eles geralmente estão focados em meta-heurísticas mais eficientes, pré-filtragem ou uma combinação de ambas. Este trabalho propõe um novo método, uma abordagem inédita ao problema de seleção que visa prever as variáveis relevantes de anotações resultantes da seleção pela abordagem Wrapper para um modelo de regressão logística. Em vez de utilizar meta-heurísticas dispendiosas, são empregados descritores do conjunto de dados e de suas variáveis para treinamento de um modelo de predição de relevância. O modelo preditivo de relevâncias alcançou, em média, 64% de acurácia e 78% de sensibilidade, com uma redução de 30% na dimensionalidade média calculada para os 54 conjuntos de dados utilizados. Comparado com a própria abordagem Wrapper, o desempenho da regressão logística com as variáveis selecionadas pelo método proposto foi similar para 80% dos conjuntos avaliados. Em dois outros conjuntos altamente restritivos à execução da seleção por Wrapper (busca exaustiva), o método proposto reduziu substancialmente a dimensionalidade (33,33% e 56,25%), sem perdas nas acurácias médias. Os resultados indicam que o método proposto é promissor para seleção de variáveis relevantes e redução de dimensionalidade, com baixo custo computacional e sem perdas significativas no desempenho preditivo.
id USP_4bdeb740b4b451f1fdb55ffef5077ec4
oai_identifier_str oai:teses.usp.br:tde-15012025-113931
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção WrapperOptimized method for prediction of the relevance of variables and dimensionality reduction based on the Wrapper selection approachDimensionality reductionFeature selectionPredição de relevânciaRedução de dimensionalidadeRelevance predictionSeleção de variáveisWrapperWrapperMesmo com os avanços em Big Data Analytics e Deep Learning, problemas clássicos de préprocessamento de dados na Estatística e no Aprendizado de Máquina, especialmente os oriundos de conjuntos de dados pequenos, continuam proeminentes. A seleção de variáveis é uma etapa crucial para derivar modelos preditivos robustos e eficientes. Remover previamente variáveis redundantes, irrelevantes e ruidosas melhora a capacidade de generalização dos modelos e reduz o tempo de treinamento e implementação em ambiente de produção. Um conjunto menor de variáveis também facilita a explicabilidade dos modelos, promovendo a chamada inteligência artificial explicável e minimizando os recursos humanos, tecnológicos e/ou econômicos envolvidos na coleta de dados. Entre as abordagens clássicas de seleção de variáveis, a Wrapper é frequentemente a mais eficiente no desempenho de generalização para um modelo destino, mas é também a mais custosa computacionalmente. Estudos recentes têm visado métodos alternativos com melhores desempenhos preditivos e viabilidade computacional para seleção por Wrappers. No entanto, eles geralmente estão focados em meta-heurísticas mais eficientes, pré-filtragem ou uma combinação de ambas. Este trabalho propõe um novo método, uma abordagem inédita ao problema de seleção que visa prever as variáveis relevantes de anotações resultantes da seleção pela abordagem Wrapper para um modelo de regressão logística. Em vez de utilizar meta-heurísticas dispendiosas, são empregados descritores do conjunto de dados e de suas variáveis para treinamento de um modelo de predição de relevância. O modelo preditivo de relevâncias alcançou, em média, 64% de acurácia e 78% de sensibilidade, com uma redução de 30% na dimensionalidade média calculada para os 54 conjuntos de dados utilizados. Comparado com a própria abordagem Wrapper, o desempenho da regressão logística com as variáveis selecionadas pelo método proposto foi similar para 80% dos conjuntos avaliados. Em dois outros conjuntos altamente restritivos à execução da seleção por Wrapper (busca exaustiva), o método proposto reduziu substancialmente a dimensionalidade (33,33% e 56,25%), sem perdas nas acurácias médias. Os resultados indicam que o método proposto é promissor para seleção de variáveis relevantes e redução de dimensionalidade, com baixo custo computacional e sem perdas significativas no desempenho preditivo.Even with advances in Big Data Analytics and Deep Learning, classic data preprocessing problems in Statistics and Machine Learning, especially those arising from small datasets, remain prominent. Feature selection is a crucial step for deriving robust and efficient predictive models. Removing redundant, irrelevant, and noisy variables beforehand improves the generalization capacity of the models and reduces the training and deployment time in a production environment. A smaller feature subset also facilitates the explainability of the models, promoting the so-called explainable artificial intelligence and minimizing the human, technological, and/or economic resources involved in data collection. Among the classic feature selection approaches, the Wrapper is often the most efficient in generalization performance for a target model, but it is also the most computationally expensive. Recent studies have aimed at alternative methods with better predictive performances and computational feasibility for selection by using Wrappers. However, they are generally focused on more efficient meta-heuristics, pre-filtering, or combining both. This work proposes a new method, an unprecedented approach to the selection problem that aims to predict the relevant features from resulting annotations from the selection by the Wrapper approach for a logistic regression model. Instead of using costly meta-heuristics, descriptors of the dataset and of its features are employed for training a relevance prediction model. The predictive model of relevances achieved, on average, 64% accuracy and 78% sensitivity, with a reduction of 30% in the average dimensionality calculated for the 54 datasets used. Compared with theWrapper approach itself, the performance of logistic regression with the features selected by the proposed method was similar for 80% of the evaluated datasets. In two other highly restrictive datasets to the execution of selection by Wrapper (exhaustive search), the proposed method substantially reduced the dimensionality (33.33% and 56.25%), without losses in average accuracies. Results indicate that the proposed method is promising for the selection of relevant features and dimensionality reduction, with low computational cost and without significant losses in predictive performance.Biblioteca Digitais de Teses e Dissertações da USPFerreira, Ednaldo JoseAndrade, Cássio Antonio2024-10-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55137/tde-15012025-113931/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-01-15T14:03:01Zoai:teses.usp.br:tde-15012025-113931Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-01-15T14:03:01Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção Wrapper
Optimized method for prediction of the relevance of variables and dimensionality reduction based on the Wrapper selection approach
title Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção Wrapper
spellingShingle Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção Wrapper
Andrade, Cássio Antonio
Dimensionality reduction
Feature selection
Predição de relevância
Redução de dimensionalidade
Relevance prediction
Seleção de variáveis
Wrapper
Wrapper
title_short Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção Wrapper
title_full Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção Wrapper
title_fullStr Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção Wrapper
title_full_unstemmed Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção Wrapper
title_sort Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção Wrapper
author Andrade, Cássio Antonio
author_facet Andrade, Cássio Antonio
author_role author
dc.contributor.none.fl_str_mv Ferreira, Ednaldo Jose
dc.contributor.author.fl_str_mv Andrade, Cássio Antonio
dc.subject.por.fl_str_mv Dimensionality reduction
Feature selection
Predição de relevância
Redução de dimensionalidade
Relevance prediction
Seleção de variáveis
Wrapper
Wrapper
topic Dimensionality reduction
Feature selection
Predição de relevância
Redução de dimensionalidade
Relevance prediction
Seleção de variáveis
Wrapper
Wrapper
description Mesmo com os avanços em Big Data Analytics e Deep Learning, problemas clássicos de préprocessamento de dados na Estatística e no Aprendizado de Máquina, especialmente os oriundos de conjuntos de dados pequenos, continuam proeminentes. A seleção de variáveis é uma etapa crucial para derivar modelos preditivos robustos e eficientes. Remover previamente variáveis redundantes, irrelevantes e ruidosas melhora a capacidade de generalização dos modelos e reduz o tempo de treinamento e implementação em ambiente de produção. Um conjunto menor de variáveis também facilita a explicabilidade dos modelos, promovendo a chamada inteligência artificial explicável e minimizando os recursos humanos, tecnológicos e/ou econômicos envolvidos na coleta de dados. Entre as abordagens clássicas de seleção de variáveis, a Wrapper é frequentemente a mais eficiente no desempenho de generalização para um modelo destino, mas é também a mais custosa computacionalmente. Estudos recentes têm visado métodos alternativos com melhores desempenhos preditivos e viabilidade computacional para seleção por Wrappers. No entanto, eles geralmente estão focados em meta-heurísticas mais eficientes, pré-filtragem ou uma combinação de ambas. Este trabalho propõe um novo método, uma abordagem inédita ao problema de seleção que visa prever as variáveis relevantes de anotações resultantes da seleção pela abordagem Wrapper para um modelo de regressão logística. Em vez de utilizar meta-heurísticas dispendiosas, são empregados descritores do conjunto de dados e de suas variáveis para treinamento de um modelo de predição de relevância. O modelo preditivo de relevâncias alcançou, em média, 64% de acurácia e 78% de sensibilidade, com uma redução de 30% na dimensionalidade média calculada para os 54 conjuntos de dados utilizados. Comparado com a própria abordagem Wrapper, o desempenho da regressão logística com as variáveis selecionadas pelo método proposto foi similar para 80% dos conjuntos avaliados. Em dois outros conjuntos altamente restritivos à execução da seleção por Wrapper (busca exaustiva), o método proposto reduziu substancialmente a dimensionalidade (33,33% e 56,25%), sem perdas nas acurácias médias. Os resultados indicam que o método proposto é promissor para seleção de variáveis relevantes e redução de dimensionalidade, com baixo custo computacional e sem perdas significativas no desempenho preditivo.
publishDate 2024
dc.date.none.fl_str_mv 2024-10-23
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55137/tde-15012025-113931/
url https://www.teses.usp.br/teses/disponiveis/55/55137/tde-15012025-113931/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1831214830709637120