Análise comparativa de métodos de seleção de variáveis em problemas de classificação

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Cunha, Luna Wagner
Orientador(a): Russo, Cibele Maria lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Câmpus São Carlos
Programa de Pós-Graduação: Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufscar.br/handle/20.500.14289/21177
Resumo: In this study, a comprehensive comparison between the SHAP method and the Lasso method for variable selection is presented. The methodologies of both techniques are explored and juxtaposed, utilizing key selection metrics such as precision, recall, F1 score, and accuracy in both simulated and real database scenarios. The tests applied show SHAP as a good competitor for variable selection methods, with results even slightly superior to Lasso in the cases presented here, both on a simulated and real basis, maintaining competitive accuracy levels in relation to the complete model. Despite being somewhat close in accuracy, SHAP notably reduces the variable space, demonstrating its selection prowess. Additionally, a robustness study involving perturbation values in training, testing, and combined datasets confirms the resilience of the variables selected by SHAP, particularly in terms of accuracy. These analyses underscore the efficacy of the SHAP method as a versatile and potent tool for variable selection, promising improved interpretability and performance in machine learning applications.
id SCAR_e1cf011c7777737b4ec97ae7e7c56b49
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/21177
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Cunha, Luna WagnerRusso, Cibele Mariahttp://lattes.cnpq.br/1011098065426388https://lattes.cnpq.br/6351934108951168https://orcid.org/0009-0004-7608-4973https://orcid.org/0000-0003-1356-02452025-01-06T19:14:35Z2025-01-06T19:14:35Z2024-11-14CUNHA, Luna Wagner. Análise comparativa de métodos de seleção de variáveis em problemas de classificação. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21177.https://repositorio.ufscar.br/handle/20.500.14289/21177In this study, a comprehensive comparison between the SHAP method and the Lasso method for variable selection is presented. The methodologies of both techniques are explored and juxtaposed, utilizing key selection metrics such as precision, recall, F1 score, and accuracy in both simulated and real database scenarios. The tests applied show SHAP as a good competitor for variable selection methods, with results even slightly superior to Lasso in the cases presented here, both on a simulated and real basis, maintaining competitive accuracy levels in relation to the complete model. Despite being somewhat close in accuracy, SHAP notably reduces the variable space, demonstrating its selection prowess. Additionally, a robustness study involving perturbation values in training, testing, and combined datasets confirms the resilience of the variables selected by SHAP, particularly in terms of accuracy. These analyses underscore the efficacy of the SHAP method as a versatile and potent tool for variable selection, promising improved interpretability and performance in machine learning applications.Neste trabalho é apresentada uma comparação abrangente entre o método SHAP e o método Lasso para seleção de variáveis. As metodologias de ambas as técnicas são exploradas e justapostas, alavancando métricas de verificação de classificação, como precisão, recall, pontuação F1 e acurácia em cenários de banco de dados simulados e reais. Os testes aplicados mostram o SHAP como um bom competidor para métodos de seleção de variáveis, com resultados inclusive levemente superiores em relação ao Lasso nos casos aqui apresentados, tanto na base simulada quando na base real, mantendo níveis de acurácia competitivos em relação ao modelo completo. Apesar de ficar um pouco próximo na acurácia, o SHAP reduz notavelmente o espaço de variáveis, demonstrando sua proeza na seleção. Além disso, um estudo de robustez usando valores de perturbação em treinamento, teste e em ambos conjuntamente, confirma a resiliência das variáveis selecionadas pelo SHAP, particularmente em termos de acurácia. Essas análises destacam a eficácia do método SHAP como uma ferramenta versátil e poderosa para seleção de variáveis, prometendo melhor interpretabilidade e desempenho em aplicações de aprendizado de máquina.porUniversidade Federal de São CarlosCâmpus São CarlosPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessValores SHAPAprendizado de máquinaSeleção de variáveisLassoSHAP valuesMachine learningFeature selectionCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA PARAMETRICACIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAOAnálise comparativa de métodos de seleção de variáveis em problemas de classificaçãoComparative analysis of variable selection methods in classification problemsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARTEXTDissertação___Luna_Wagner_Cunha.pdf.txtDissertação___Luna_Wagner_Cunha.pdf.txtExtracted texttext/plain103696https://repositorio.ufscar.br/bitstreams/4a951b69-8bcf-472a-bc03-0989ea1d2231/downloadac2b00060f09dcab8c3e647a5b1ef5e9MD53falseAnonymousREADTHUMBNAILDissertação___Luna_Wagner_Cunha.pdf.jpgDissertação___Luna_Wagner_Cunha.pdf.jpgGenerated Thumbnailimage/jpeg6404https://repositorio.ufscar.br/bitstreams/78a89d21-5e15-4a79-90ba-a4560731e613/download8388abfb9e2ed19467776281aaaba791MD54falseAnonymousREADORIGINALDissertação___Luna_Wagner_Cunha.pdfDissertação___Luna_Wagner_Cunha.pdfDissertação Finalapplication/pdf2986206https://repositorio.ufscar.br/bitstreams/909e10cd-959b-4784-a0b1-0a5ba15e86c9/downloadfe6c0a89f68b28d6843032d13b7622c3MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstreams/9efaf06b-b559-4a69-860c-fb1d051f6671/downloadf337d95da1fce0a22c77480e5e9a7aecMD52falseAnonymousREAD20.500.14289/211772025-02-12 11:58:30.255http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/21177https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-12T14:58:30Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Análise comparativa de métodos de seleção de variáveis em problemas de classificação
dc.title.alternative.eng.fl_str_mv Comparative analysis of variable selection methods in classification problems
title Análise comparativa de métodos de seleção de variáveis em problemas de classificação
spellingShingle Análise comparativa de métodos de seleção de variáveis em problemas de classificação
Cunha, Luna Wagner
Valores SHAP
Aprendizado de máquina
Seleção de variáveis
Lasso
SHAP values
Machine learning
Feature selection
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA PARAMETRICA
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO
title_short Análise comparativa de métodos de seleção de variáveis em problemas de classificação
title_full Análise comparativa de métodos de seleção de variáveis em problemas de classificação
title_fullStr Análise comparativa de métodos de seleção de variáveis em problemas de classificação
title_full_unstemmed Análise comparativa de métodos de seleção de variáveis em problemas de classificação
title_sort Análise comparativa de métodos de seleção de variáveis em problemas de classificação
author Cunha, Luna Wagner
author_facet Cunha, Luna Wagner
author_role author
dc.contributor.authorlattes.por.fl_str_mv https://lattes.cnpq.br/6351934108951168
dc.contributor.authororcid.por.fl_str_mv https://orcid.org/0009-0004-7608-4973
dc.contributor.advisor1orcid.por.fl_str_mv https://orcid.org/0000-0003-1356-0245
dc.contributor.author.fl_str_mv Cunha, Luna Wagner
dc.contributor.advisor1.fl_str_mv Russo, Cibele Maria
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/1011098065426388
contributor_str_mv Russo, Cibele Maria
dc.subject.por.fl_str_mv Valores SHAP
Aprendizado de máquina
Seleção de variáveis
Lasso
topic Valores SHAP
Aprendizado de máquina
Seleção de variáveis
Lasso
SHAP values
Machine learning
Feature selection
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA PARAMETRICA
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO
dc.subject.eng.fl_str_mv SHAP values
Machine learning
Feature selection
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA PARAMETRICA
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO
description In this study, a comprehensive comparison between the SHAP method and the Lasso method for variable selection is presented. The methodologies of both techniques are explored and juxtaposed, utilizing key selection metrics such as precision, recall, F1 score, and accuracy in both simulated and real database scenarios. The tests applied show SHAP as a good competitor for variable selection methods, with results even slightly superior to Lasso in the cases presented here, both on a simulated and real basis, maintaining competitive accuracy levels in relation to the complete model. Despite being somewhat close in accuracy, SHAP notably reduces the variable space, demonstrating its selection prowess. Additionally, a robustness study involving perturbation values in training, testing, and combined datasets confirms the resilience of the variables selected by SHAP, particularly in terms of accuracy. These analyses underscore the efficacy of the SHAP method as a versatile and potent tool for variable selection, promising improved interpretability and performance in machine learning applications.
publishDate 2024
dc.date.issued.fl_str_mv 2024-11-14
dc.date.accessioned.fl_str_mv 2025-01-06T19:14:35Z
dc.date.available.fl_str_mv 2025-01-06T19:14:35Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv CUNHA, Luna Wagner. Análise comparativa de métodos de seleção de variáveis em problemas de classificação. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21177.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/21177
identifier_str_mv CUNHA, Luna Wagner. Análise comparativa de métodos de seleção de variáveis em problemas de classificação. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21177.
url https://repositorio.ufscar.br/handle/20.500.14289/21177
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/4a951b69-8bcf-472a-bc03-0989ea1d2231/download
https://repositorio.ufscar.br/bitstreams/78a89d21-5e15-4a79-90ba-a4560731e613/download
https://repositorio.ufscar.br/bitstreams/909e10cd-959b-4784-a0b1-0a5ba15e86c9/download
https://repositorio.ufscar.br/bitstreams/9efaf06b-b559-4a69-860c-fb1d051f6671/download
bitstream.checksum.fl_str_mv ac2b00060f09dcab8c3e647a5b1ef5e9
8388abfb9e2ed19467776281aaaba791
fe6c0a89f68b28d6843032d13b7622c3
f337d95da1fce0a22c77480e5e9a7aec
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688732455862272