Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção Wrapper
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/55/55137/tde-15012025-113931/ |
Resumo: | Mesmo com os avanços em Big Data Analytics e Deep Learning, problemas clássicos de préprocessamento de dados na Estatística e no Aprendizado de Máquina, especialmente os oriundos de conjuntos de dados pequenos, continuam proeminentes. A seleção de variáveis é uma etapa crucial para derivar modelos preditivos robustos e eficientes. Remover previamente variáveis redundantes, irrelevantes e ruidosas melhora a capacidade de generalização dos modelos e reduz o tempo de treinamento e implementação em ambiente de produção. Um conjunto menor de variáveis também facilita a explicabilidade dos modelos, promovendo a chamada inteligência artificial explicável e minimizando os recursos humanos, tecnológicos e/ou econômicos envolvidos na coleta de dados. Entre as abordagens clássicas de seleção de variáveis, a Wrapper é frequentemente a mais eficiente no desempenho de generalização para um modelo destino, mas é também a mais custosa computacionalmente. Estudos recentes têm visado métodos alternativos com melhores desempenhos preditivos e viabilidade computacional para seleção por Wrappers. No entanto, eles geralmente estão focados em meta-heurísticas mais eficientes, pré-filtragem ou uma combinação de ambas. Este trabalho propõe um novo método, uma abordagem inédita ao problema de seleção que visa prever as variáveis relevantes de anotações resultantes da seleção pela abordagem Wrapper para um modelo de regressão logística. Em vez de utilizar meta-heurísticas dispendiosas, são empregados descritores do conjunto de dados e de suas variáveis para treinamento de um modelo de predição de relevância. O modelo preditivo de relevâncias alcançou, em média, 64% de acurácia e 78% de sensibilidade, com uma redução de 30% na dimensionalidade média calculada para os 54 conjuntos de dados utilizados. Comparado com a própria abordagem Wrapper, o desempenho da regressão logística com as variáveis selecionadas pelo método proposto foi similar para 80% dos conjuntos avaliados. Em dois outros conjuntos altamente restritivos à execução da seleção por Wrapper (busca exaustiva), o método proposto reduziu substancialmente a dimensionalidade (33,33% e 56,25%), sem perdas nas acurácias médias. Os resultados indicam que o método proposto é promissor para seleção de variáveis relevantes e redução de dimensionalidade, com baixo custo computacional e sem perdas significativas no desempenho preditivo. |
| id |
USP_4bdeb740b4b451f1fdb55ffef5077ec4 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-15012025-113931 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção WrapperOptimized method for prediction of the relevance of variables and dimensionality reduction based on the Wrapper selection approachDimensionality reductionFeature selectionPredição de relevânciaRedução de dimensionalidadeRelevance predictionSeleção de variáveisWrapperWrapperMesmo com os avanços em Big Data Analytics e Deep Learning, problemas clássicos de préprocessamento de dados na Estatística e no Aprendizado de Máquina, especialmente os oriundos de conjuntos de dados pequenos, continuam proeminentes. A seleção de variáveis é uma etapa crucial para derivar modelos preditivos robustos e eficientes. Remover previamente variáveis redundantes, irrelevantes e ruidosas melhora a capacidade de generalização dos modelos e reduz o tempo de treinamento e implementação em ambiente de produção. Um conjunto menor de variáveis também facilita a explicabilidade dos modelos, promovendo a chamada inteligência artificial explicável e minimizando os recursos humanos, tecnológicos e/ou econômicos envolvidos na coleta de dados. Entre as abordagens clássicas de seleção de variáveis, a Wrapper é frequentemente a mais eficiente no desempenho de generalização para um modelo destino, mas é também a mais custosa computacionalmente. Estudos recentes têm visado métodos alternativos com melhores desempenhos preditivos e viabilidade computacional para seleção por Wrappers. No entanto, eles geralmente estão focados em meta-heurísticas mais eficientes, pré-filtragem ou uma combinação de ambas. Este trabalho propõe um novo método, uma abordagem inédita ao problema de seleção que visa prever as variáveis relevantes de anotações resultantes da seleção pela abordagem Wrapper para um modelo de regressão logística. Em vez de utilizar meta-heurísticas dispendiosas, são empregados descritores do conjunto de dados e de suas variáveis para treinamento de um modelo de predição de relevância. O modelo preditivo de relevâncias alcançou, em média, 64% de acurácia e 78% de sensibilidade, com uma redução de 30% na dimensionalidade média calculada para os 54 conjuntos de dados utilizados. Comparado com a própria abordagem Wrapper, o desempenho da regressão logística com as variáveis selecionadas pelo método proposto foi similar para 80% dos conjuntos avaliados. Em dois outros conjuntos altamente restritivos à execução da seleção por Wrapper (busca exaustiva), o método proposto reduziu substancialmente a dimensionalidade (33,33% e 56,25%), sem perdas nas acurácias médias. Os resultados indicam que o método proposto é promissor para seleção de variáveis relevantes e redução de dimensionalidade, com baixo custo computacional e sem perdas significativas no desempenho preditivo.Even with advances in Big Data Analytics and Deep Learning, classic data preprocessing problems in Statistics and Machine Learning, especially those arising from small datasets, remain prominent. Feature selection is a crucial step for deriving robust and efficient predictive models. Removing redundant, irrelevant, and noisy variables beforehand improves the generalization capacity of the models and reduces the training and deployment time in a production environment. A smaller feature subset also facilitates the explainability of the models, promoting the so-called explainable artificial intelligence and minimizing the human, technological, and/or economic resources involved in data collection. Among the classic feature selection approaches, the Wrapper is often the most efficient in generalization performance for a target model, but it is also the most computationally expensive. Recent studies have aimed at alternative methods with better predictive performances and computational feasibility for selection by using Wrappers. However, they are generally focused on more efficient meta-heuristics, pre-filtering, or combining both. This work proposes a new method, an unprecedented approach to the selection problem that aims to predict the relevant features from resulting annotations from the selection by the Wrapper approach for a logistic regression model. Instead of using costly meta-heuristics, descriptors of the dataset and of its features are employed for training a relevance prediction model. The predictive model of relevances achieved, on average, 64% accuracy and 78% sensitivity, with a reduction of 30% in the average dimensionality calculated for the 54 datasets used. Compared with theWrapper approach itself, the performance of logistic regression with the features selected by the proposed method was similar for 80% of the evaluated datasets. In two other highly restrictive datasets to the execution of selection by Wrapper (exhaustive search), the proposed method substantially reduced the dimensionality (33.33% and 56.25%), without losses in average accuracies. Results indicate that the proposed method is promising for the selection of relevant features and dimensionality reduction, with low computational cost and without significant losses in predictive performance.Biblioteca Digitais de Teses e Dissertações da USPFerreira, Ednaldo JoseAndrade, Cássio Antonio2024-10-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55137/tde-15012025-113931/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-01-15T14:03:01Zoai:teses.usp.br:tde-15012025-113931Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-01-15T14:03:01Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção Wrapper Optimized method for prediction of the relevance of variables and dimensionality reduction based on the Wrapper selection approach |
| title |
Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção Wrapper |
| spellingShingle |
Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção Wrapper Andrade, Cássio Antonio Dimensionality reduction Feature selection Predição de relevância Redução de dimensionalidade Relevance prediction Seleção de variáveis Wrapper Wrapper |
| title_short |
Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção Wrapper |
| title_full |
Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção Wrapper |
| title_fullStr |
Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção Wrapper |
| title_full_unstemmed |
Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção Wrapper |
| title_sort |
Método otimizado para predição da relevância de variáveis e redução de dimensionalidade pautado pela abordagem de seleção Wrapper |
| author |
Andrade, Cássio Antonio |
| author_facet |
Andrade, Cássio Antonio |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Ferreira, Ednaldo Jose |
| dc.contributor.author.fl_str_mv |
Andrade, Cássio Antonio |
| dc.subject.por.fl_str_mv |
Dimensionality reduction Feature selection Predição de relevância Redução de dimensionalidade Relevance prediction Seleção de variáveis Wrapper Wrapper |
| topic |
Dimensionality reduction Feature selection Predição de relevância Redução de dimensionalidade Relevance prediction Seleção de variáveis Wrapper Wrapper |
| description |
Mesmo com os avanços em Big Data Analytics e Deep Learning, problemas clássicos de préprocessamento de dados na Estatística e no Aprendizado de Máquina, especialmente os oriundos de conjuntos de dados pequenos, continuam proeminentes. A seleção de variáveis é uma etapa crucial para derivar modelos preditivos robustos e eficientes. Remover previamente variáveis redundantes, irrelevantes e ruidosas melhora a capacidade de generalização dos modelos e reduz o tempo de treinamento e implementação em ambiente de produção. Um conjunto menor de variáveis também facilita a explicabilidade dos modelos, promovendo a chamada inteligência artificial explicável e minimizando os recursos humanos, tecnológicos e/ou econômicos envolvidos na coleta de dados. Entre as abordagens clássicas de seleção de variáveis, a Wrapper é frequentemente a mais eficiente no desempenho de generalização para um modelo destino, mas é também a mais custosa computacionalmente. Estudos recentes têm visado métodos alternativos com melhores desempenhos preditivos e viabilidade computacional para seleção por Wrappers. No entanto, eles geralmente estão focados em meta-heurísticas mais eficientes, pré-filtragem ou uma combinação de ambas. Este trabalho propõe um novo método, uma abordagem inédita ao problema de seleção que visa prever as variáveis relevantes de anotações resultantes da seleção pela abordagem Wrapper para um modelo de regressão logística. Em vez de utilizar meta-heurísticas dispendiosas, são empregados descritores do conjunto de dados e de suas variáveis para treinamento de um modelo de predição de relevância. O modelo preditivo de relevâncias alcançou, em média, 64% de acurácia e 78% de sensibilidade, com uma redução de 30% na dimensionalidade média calculada para os 54 conjuntos de dados utilizados. Comparado com a própria abordagem Wrapper, o desempenho da regressão logística com as variáveis selecionadas pelo método proposto foi similar para 80% dos conjuntos avaliados. Em dois outros conjuntos altamente restritivos à execução da seleção por Wrapper (busca exaustiva), o método proposto reduziu substancialmente a dimensionalidade (33,33% e 56,25%), sem perdas nas acurácias médias. Os resultados indicam que o método proposto é promissor para seleção de variáveis relevantes e redução de dimensionalidade, com baixo custo computacional e sem perdas significativas no desempenho preditivo. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-10-23 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55137/tde-15012025-113931/ |
| url |
https://www.teses.usp.br/teses/disponiveis/55/55137/tde-15012025-113931/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1831214830709637120 |