Hybrid Machine Learning Algorithms in High-Dimensional Settings
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/ |
Resumo: | This work proposes and evaluates a hybrid framework for prediction and variable selection in supervised learning settings, combining statistical regularization with non-linear machine learning algorithms. Initially, the pipeline is applied to real-world data from a travel insurance company, consisting of 2,697 customer records and 35 explanatory variables obtained through feature engineering. Variables were selected using penalized regressions (Lasso, Ridge, and Elastic Net), followed by black-box predictive models (Random Forest, XGBoost, H2O GBM, LightGBM, and CatBoost) in a hybrid structure. Stratified cross-validation and random search optimization allowed for a comprehensive comparison of metrics such as AUC, F1-score, precision, and recall. The CatBoost model with Lasso-based feature selection achieved the best performance (AUC = 0.861; F1 = 0.808), highlighting the potential of hybrid models to preserve interpretability while maintaining high predictive power. Complementarily, a theoretical and empirical analysis is developed on the asymptotic consistency and generalization properties of such models in high-dimensional noisy settings, using simulations based on the Friedman equation. A total of 23 models are evaluated (3 regularized, 5 pure black-box, and 15 hybrids) across scenarios with varying sample sizes (n = 50, 100, 200, 500, 1000) and numbers of predictors (p = 10, 50, 100). The assessment metrics include RMSE, Jaccard index, and support recovery rate. Results show that hybrid models achieve a superior balance between accurate prediction, parsimony, and robustness in variable selection, especially as increases. Therefore, this study contributes both with unexplored practical applications in the insurance sector and with novel theoretical advances for the formal validation of hybrid pipelines in complex high-dimensional scenarios. |
| id |
USP_b94e90503355948bb3f5613899042edf |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-06012026-111153 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Hybrid Machine Learning Algorithms in High-Dimensional SettingsAlgoritmos Híbridos de Aprendizado de Máquina em Ambientes de Alta DimensãoAlgorithmic stabilityAsymptotic consistencyConsistência assintóticaConvex penalization; Friedman simulationsEstabilidade algorítmicaGeneralização preditivaInteração não linearNon-linear interactionPenalização convexaPredictive generalizationSimulações de FriedmanStratified cross-validationValidação cruzada estratificadaThis work proposes and evaluates a hybrid framework for prediction and variable selection in supervised learning settings, combining statistical regularization with non-linear machine learning algorithms. Initially, the pipeline is applied to real-world data from a travel insurance company, consisting of 2,697 customer records and 35 explanatory variables obtained through feature engineering. Variables were selected using penalized regressions (Lasso, Ridge, and Elastic Net), followed by black-box predictive models (Random Forest, XGBoost, H2O GBM, LightGBM, and CatBoost) in a hybrid structure. Stratified cross-validation and random search optimization allowed for a comprehensive comparison of metrics such as AUC, F1-score, precision, and recall. The CatBoost model with Lasso-based feature selection achieved the best performance (AUC = 0.861; F1 = 0.808), highlighting the potential of hybrid models to preserve interpretability while maintaining high predictive power. Complementarily, a theoretical and empirical analysis is developed on the asymptotic consistency and generalization properties of such models in high-dimensional noisy settings, using simulations based on the Friedman equation. A total of 23 models are evaluated (3 regularized, 5 pure black-box, and 15 hybrids) across scenarios with varying sample sizes (n = 50, 100, 200, 500, 1000) and numbers of predictors (p = 10, 50, 100). The assessment metrics include RMSE, Jaccard index, and support recovery rate. Results show that hybrid models achieve a superior balance between accurate prediction, parsimony, and robustness in variable selection, especially as increases. Therefore, this study contributes both with unexplored practical applications in the insurance sector and with novel theoretical advances for the formal validation of hybrid pipelines in complex high-dimensional scenarios.Este trabalho propõe e avalia um framework híbrido para predição e seleção de variáveis em contextos supervisionados, combinando regularização estatística com algoritmos não lineares de machine learning. Inicialmente, aplica-se o pipeline em dados reais de uma seguradora do setor de turismo, com 2.697 registros de clientes e 35 variáveis explicativas obtidas por engenharia de atributos. As variáveis foram selecionadas por regressões penalizadas (Lasso, Ridge e Elastic Net), seguidas de modelos preditivos black-box (Random Forest, XGBoost, H2O GBM, LightGBM e CatBoost), combinados de forma híbrida. A validação cruzada estratificada e a otimização por busca aleatória permitiram comparar métricas como AUC, F1-score, precisão e recall. O modelo CatBoost com seleção via Lasso obteve o melhor desempenho (AUC = 0,861; F1 = 0,808), evidenciando o potencial de modelos híbridos para manter interpretabilidade e alto poder preditivo. Complementarmente, desenvolve-se uma análise teórica e empírica sobre a consistência assintótica e a generalização desses modelos em ambientes de alta dimensionalidade com ruído, por meio de simulações baseadas na equação de Friedman. São avaliados 23 modelos (3 regularizados, 5 black-box puros e 15 híbridos) em cenários com diferentes combinações de tamanho amostral (n = 50, 100, 200, 500, 1000) e número de preditores (p = 10, 50, 100). As métricas consideradas foram o RMSE, índice de Jaccard e taxa de recuperação. Os resultados demonstram que os modelos híbridos alcançam melhor equilíbrio entre predição acurada, parcimônia e robustez na seleção de variáveis, principalmente conforme aumenta. Assim, este estudo contribui tanto com aplicações práticas inexploradas no setor de seguros quanto com novos avanços teóricos para validação formal de pipelines híbridos em cenários de alta complexidadeBiblioteca Digitais de Teses e Dissertações da USPMoral, Rafael de AndradeGalvão, Luciano Ribeiro2025-11-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2026-01-08T14:10:02Zoai:teses.usp.br:tde-06012026-111153Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212026-01-08T14:10:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Hybrid Machine Learning Algorithms in High-Dimensional Settings Algoritmos Híbridos de Aprendizado de Máquina em Ambientes de Alta Dimensão |
| title |
Hybrid Machine Learning Algorithms in High-Dimensional Settings |
| spellingShingle |
Hybrid Machine Learning Algorithms in High-Dimensional Settings Galvão, Luciano Ribeiro Algorithmic stability Asymptotic consistency Consistência assintótica Convex penalization; Friedman simulations Estabilidade algorítmica Generalização preditiva Interação não linear Non-linear interaction Penalização convexa Predictive generalization Simulações de Friedman Stratified cross-validation Validação cruzada estratificada |
| title_short |
Hybrid Machine Learning Algorithms in High-Dimensional Settings |
| title_full |
Hybrid Machine Learning Algorithms in High-Dimensional Settings |
| title_fullStr |
Hybrid Machine Learning Algorithms in High-Dimensional Settings |
| title_full_unstemmed |
Hybrid Machine Learning Algorithms in High-Dimensional Settings |
| title_sort |
Hybrid Machine Learning Algorithms in High-Dimensional Settings |
| author |
Galvão, Luciano Ribeiro |
| author_facet |
Galvão, Luciano Ribeiro |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Moral, Rafael de Andrade |
| dc.contributor.author.fl_str_mv |
Galvão, Luciano Ribeiro |
| dc.subject.por.fl_str_mv |
Algorithmic stability Asymptotic consistency Consistência assintótica Convex penalization; Friedman simulations Estabilidade algorítmica Generalização preditiva Interação não linear Non-linear interaction Penalização convexa Predictive generalization Simulações de Friedman Stratified cross-validation Validação cruzada estratificada |
| topic |
Algorithmic stability Asymptotic consistency Consistência assintótica Convex penalization; Friedman simulations Estabilidade algorítmica Generalização preditiva Interação não linear Non-linear interaction Penalização convexa Predictive generalization Simulações de Friedman Stratified cross-validation Validação cruzada estratificada |
| description |
This work proposes and evaluates a hybrid framework for prediction and variable selection in supervised learning settings, combining statistical regularization with non-linear machine learning algorithms. Initially, the pipeline is applied to real-world data from a travel insurance company, consisting of 2,697 customer records and 35 explanatory variables obtained through feature engineering. Variables were selected using penalized regressions (Lasso, Ridge, and Elastic Net), followed by black-box predictive models (Random Forest, XGBoost, H2O GBM, LightGBM, and CatBoost) in a hybrid structure. Stratified cross-validation and random search optimization allowed for a comprehensive comparison of metrics such as AUC, F1-score, precision, and recall. The CatBoost model with Lasso-based feature selection achieved the best performance (AUC = 0.861; F1 = 0.808), highlighting the potential of hybrid models to preserve interpretability while maintaining high predictive power. Complementarily, a theoretical and empirical analysis is developed on the asymptotic consistency and generalization properties of such models in high-dimensional noisy settings, using simulations based on the Friedman equation. A total of 23 models are evaluated (3 regularized, 5 pure black-box, and 15 hybrids) across scenarios with varying sample sizes (n = 50, 100, 200, 500, 1000) and numbers of predictors (p = 10, 50, 100). The assessment metrics include RMSE, Jaccard index, and support recovery rate. Results show that hybrid models achieve a superior balance between accurate prediction, parsimony, and robustness in variable selection, especially as increases. Therefore, this study contributes both with unexplored practical applications in the insurance sector and with novel theoretical advances for the formal validation of hybrid pipelines in complex high-dimensional scenarios. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-11-27 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/ |
| url |
https://www.teses.usp.br/teses/disponiveis/11/11134/tde-06012026-111153/ |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1857669975348609024 |