Hybrid Machine Learning Algorithms in High-Dimensional Settings

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Galvão, Luciano Ribeiro
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/
Resumo: This work proposes and evaluates a hybrid framework for prediction and variable selection in supervised learning settings, combining statistical regularization with non-linear machine learning algorithms. Initially, the pipeline is applied to real-world data from a travel insurance company, consisting of 2,697 customer records and 35 explanatory variables obtained through feature engineering. Variables were selected using penalized regressions (Lasso, Ridge, and Elastic Net), followed by black-box predictive models (Random Forest, XGBoost, H2O GBM, LightGBM, and CatBoost) in a hybrid structure. Stratified cross-validation and random search optimization allowed for a comprehensive comparison of metrics such as AUC, F1-score, precision, and recall. The CatBoost model with Lasso-based feature selection achieved the best performance (AUC = 0.861; F1 = 0.808), highlighting the potential of hybrid models to preserve interpretability while maintaining high predictive power. Complementarily, a theoretical and empirical analysis is developed on the asymptotic consistency and generalization properties of such models in high-dimensional noisy settings, using simulations based on the Friedman equation. A total of 23 models are evaluated (3 regularized, 5 pure black-box, and 15 hybrids) across scenarios with varying sample sizes (n = 50, 100, 200, 500, 1000) and numbers of predictors (p = 10, 50, 100). The assessment metrics include RMSE, Jaccard index, and support recovery rate. Results show that hybrid models achieve a superior balance between accurate prediction, parsimony, and robustness in variable selection, especially as increases. Therefore, this study contributes both with unexplored practical applications in the insurance sector and with novel theoretical advances for the formal validation of hybrid pipelines in complex high-dimensional scenarios.
id USP_b94e90503355948bb3f5613899042edf
oai_identifier_str oai:teses.usp.br:tde-06012026-111153
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Hybrid Machine Learning Algorithms in High-Dimensional SettingsAlgoritmos Híbridos de Aprendizado de Máquina em Ambientes de Alta DimensãoAlgorithmic stabilityAsymptotic consistencyConsistência assintóticaConvex penalization; Friedman simulationsEstabilidade algorítmicaGeneralização preditivaInteração não linearNon-linear interactionPenalização convexaPredictive generalizationSimulações de FriedmanStratified cross-validationValidação cruzada estratificadaThis work proposes and evaluates a hybrid framework for prediction and variable selection in supervised learning settings, combining statistical regularization with non-linear machine learning algorithms. Initially, the pipeline is applied to real-world data from a travel insurance company, consisting of 2,697 customer records and 35 explanatory variables obtained through feature engineering. Variables were selected using penalized regressions (Lasso, Ridge, and Elastic Net), followed by black-box predictive models (Random Forest, XGBoost, H2O GBM, LightGBM, and CatBoost) in a hybrid structure. Stratified cross-validation and random search optimization allowed for a comprehensive comparison of metrics such as AUC, F1-score, precision, and recall. The CatBoost model with Lasso-based feature selection achieved the best performance (AUC = 0.861; F1 = 0.808), highlighting the potential of hybrid models to preserve interpretability while maintaining high predictive power. Complementarily, a theoretical and empirical analysis is developed on the asymptotic consistency and generalization properties of such models in high-dimensional noisy settings, using simulations based on the Friedman equation. A total of 23 models are evaluated (3 regularized, 5 pure black-box, and 15 hybrids) across scenarios with varying sample sizes (n = 50, 100, 200, 500, 1000) and numbers of predictors (p = 10, 50, 100). The assessment metrics include RMSE, Jaccard index, and support recovery rate. Results show that hybrid models achieve a superior balance between accurate prediction, parsimony, and robustness in variable selection, especially as increases. Therefore, this study contributes both with unexplored practical applications in the insurance sector and with novel theoretical advances for the formal validation of hybrid pipelines in complex high-dimensional scenarios.Este trabalho propõe e avalia um framework híbrido para predição e seleção de variáveis em contextos supervisionados, combinando regularização estatística com algoritmos não lineares de machine learning. Inicialmente, aplica-se o pipeline em dados reais de uma seguradora do setor de turismo, com 2.697 registros de clientes e 35 variáveis explicativas obtidas por engenharia de atributos. As variáveis foram selecionadas por regressões penalizadas (Lasso, Ridge e Elastic Net), seguidas de modelos preditivos black-box (Random Forest, XGBoost, H2O GBM, LightGBM e CatBoost), combinados de forma híbrida. A validação cruzada estratificada e a otimização por busca aleatória permitiram comparar métricas como AUC, F1-score, precisão e recall. O modelo CatBoost com seleção via Lasso obteve o melhor desempenho (AUC = 0,861; F1 = 0,808), evidenciando o potencial de modelos híbridos para manter interpretabilidade e alto poder preditivo. Complementarmente, desenvolve-se uma análise teórica e empírica sobre a consistência assintótica e a generalização desses modelos em ambientes de alta dimensionalidade com ruído, por meio de simulações baseadas na equação de Friedman. São avaliados 23 modelos (3 regularizados, 5 black-box puros e 15 híbridos) em cenários com diferentes combinações de tamanho amostral (n = 50, 100, 200, 500, 1000) e número de preditores (p = 10, 50, 100). As métricas consideradas foram o RMSE, índice de Jaccard e taxa de recuperação. Os resultados demonstram que os modelos híbridos alcançam melhor equilíbrio entre predição acurada, parcimônia e robustez na seleção de variáveis, principalmente conforme aumenta. Assim, este estudo contribui tanto com aplicações práticas inexploradas no setor de seguros quanto com novos avanços teóricos para validação formal de pipelines híbridos em cenários de alta complexidadeBiblioteca Digitais de Teses e Dissertações da USPMoral, Rafael de AndradeGalvão, Luciano Ribeiro2025-11-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2026-01-08T14:10:02Zoai:teses.usp.br:tde-06012026-111153Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212026-01-08T14:10:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Hybrid Machine Learning Algorithms in High-Dimensional Settings
Algoritmos Híbridos de Aprendizado de Máquina em Ambientes de Alta Dimensão
title Hybrid Machine Learning Algorithms in High-Dimensional Settings
spellingShingle Hybrid Machine Learning Algorithms in High-Dimensional Settings
Galvão, Luciano Ribeiro
Algorithmic stability
Asymptotic consistency
Consistência assintótica
Convex penalization; Friedman simulations
Estabilidade algorítmica
Generalização preditiva
Interação não linear
Non-linear interaction
Penalização convexa
Predictive generalization
Simulações de Friedman
Stratified cross-validation
Validação cruzada estratificada
title_short Hybrid Machine Learning Algorithms in High-Dimensional Settings
title_full Hybrid Machine Learning Algorithms in High-Dimensional Settings
title_fullStr Hybrid Machine Learning Algorithms in High-Dimensional Settings
title_full_unstemmed Hybrid Machine Learning Algorithms in High-Dimensional Settings
title_sort Hybrid Machine Learning Algorithms in High-Dimensional Settings
author Galvão, Luciano Ribeiro
author_facet Galvão, Luciano Ribeiro
author_role author
dc.contributor.none.fl_str_mv Moral, Rafael de Andrade
dc.contributor.author.fl_str_mv Galvão, Luciano Ribeiro
dc.subject.por.fl_str_mv Algorithmic stability
Asymptotic consistency
Consistência assintótica
Convex penalization; Friedman simulations
Estabilidade algorítmica
Generalização preditiva
Interação não linear
Non-linear interaction
Penalização convexa
Predictive generalization
Simulações de Friedman
Stratified cross-validation
Validação cruzada estratificada
topic Algorithmic stability
Asymptotic consistency
Consistência assintótica
Convex penalization; Friedman simulations
Estabilidade algorítmica
Generalização preditiva
Interação não linear
Non-linear interaction
Penalização convexa
Predictive generalization
Simulações de Friedman
Stratified cross-validation
Validação cruzada estratificada
description This work proposes and evaluates a hybrid framework for prediction and variable selection in supervised learning settings, combining statistical regularization with non-linear machine learning algorithms. Initially, the pipeline is applied to real-world data from a travel insurance company, consisting of 2,697 customer records and 35 explanatory variables obtained through feature engineering. Variables were selected using penalized regressions (Lasso, Ridge, and Elastic Net), followed by black-box predictive models (Random Forest, XGBoost, H2O GBM, LightGBM, and CatBoost) in a hybrid structure. Stratified cross-validation and random search optimization allowed for a comprehensive comparison of metrics such as AUC, F1-score, precision, and recall. The CatBoost model with Lasso-based feature selection achieved the best performance (AUC = 0.861; F1 = 0.808), highlighting the potential of hybrid models to preserve interpretability while maintaining high predictive power. Complementarily, a theoretical and empirical analysis is developed on the asymptotic consistency and generalization properties of such models in high-dimensional noisy settings, using simulations based on the Friedman equation. A total of 23 models are evaluated (3 regularized, 5 pure black-box, and 15 hybrids) across scenarios with varying sample sizes (n = 50, 100, 200, 500, 1000) and numbers of predictors (p = 10, 50, 100). The assessment metrics include RMSE, Jaccard index, and support recovery rate. Results show that hybrid models achieve a superior balance between accurate prediction, parsimony, and robustness in variable selection, especially as increases. Therefore, this study contributes both with unexplored practical applications in the insurance sector and with novel theoretical advances for the formal validation of hybrid pipelines in complex high-dimensional scenarios.
publishDate 2025
dc.date.none.fl_str_mv 2025-11-27
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/
url https://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1857669975348609024