Análise comparativa de métodos de seleção de variáveis em problemas de classificação
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de São Carlos
Câmpus São Carlos |
| Programa de Pós-Graduação: |
Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://repositorio.ufscar.br/handle/20.500.14289/21177 |
Resumo: | In this study, a comprehensive comparison between the SHAP method and the Lasso method for variable selection is presented. The methodologies of both techniques are explored and juxtaposed, utilizing key selection metrics such as precision, recall, F1 score, and accuracy in both simulated and real database scenarios. The tests applied show SHAP as a good competitor for variable selection methods, with results even slightly superior to Lasso in the cases presented here, both on a simulated and real basis, maintaining competitive accuracy levels in relation to the complete model. Despite being somewhat close in accuracy, SHAP notably reduces the variable space, demonstrating its selection prowess. Additionally, a robustness study involving perturbation values in training, testing, and combined datasets confirms the resilience of the variables selected by SHAP, particularly in terms of accuracy. These analyses underscore the efficacy of the SHAP method as a versatile and potent tool for variable selection, promising improved interpretability and performance in machine learning applications. |
| id |
SCAR_e1cf011c7777737b4ec97ae7e7c56b49 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/21177 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Cunha, Luna WagnerRusso, Cibele Mariahttp://lattes.cnpq.br/1011098065426388https://lattes.cnpq.br/6351934108951168https://orcid.org/0009-0004-7608-4973https://orcid.org/0000-0003-1356-02452025-01-06T19:14:35Z2025-01-06T19:14:35Z2024-11-14CUNHA, Luna Wagner. Análise comparativa de métodos de seleção de variáveis em problemas de classificação. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21177.https://repositorio.ufscar.br/handle/20.500.14289/21177In this study, a comprehensive comparison between the SHAP method and the Lasso method for variable selection is presented. The methodologies of both techniques are explored and juxtaposed, utilizing key selection metrics such as precision, recall, F1 score, and accuracy in both simulated and real database scenarios. The tests applied show SHAP as a good competitor for variable selection methods, with results even slightly superior to Lasso in the cases presented here, both on a simulated and real basis, maintaining competitive accuracy levels in relation to the complete model. Despite being somewhat close in accuracy, SHAP notably reduces the variable space, demonstrating its selection prowess. Additionally, a robustness study involving perturbation values in training, testing, and combined datasets confirms the resilience of the variables selected by SHAP, particularly in terms of accuracy. These analyses underscore the efficacy of the SHAP method as a versatile and potent tool for variable selection, promising improved interpretability and performance in machine learning applications.Neste trabalho é apresentada uma comparação abrangente entre o método SHAP e o método Lasso para seleção de variáveis. As metodologias de ambas as técnicas são exploradas e justapostas, alavancando métricas de verificação de classificação, como precisão, recall, pontuação F1 e acurácia em cenários de banco de dados simulados e reais. Os testes aplicados mostram o SHAP como um bom competidor para métodos de seleção de variáveis, com resultados inclusive levemente superiores em relação ao Lasso nos casos aqui apresentados, tanto na base simulada quando na base real, mantendo níveis de acurácia competitivos em relação ao modelo completo. Apesar de ficar um pouco próximo na acurácia, o SHAP reduz notavelmente o espaço de variáveis, demonstrando sua proeza na seleção. Além disso, um estudo de robustez usando valores de perturbação em treinamento, teste e em ambos conjuntamente, confirma a resiliência das variáveis selecionadas pelo SHAP, particularmente em termos de acurácia. Essas análises destacam a eficácia do método SHAP como uma ferramenta versátil e poderosa para seleção de variáveis, prometendo melhor interpretabilidade e desempenho em aplicações de aprendizado de máquina.porUniversidade Federal de São CarlosCâmpus São CarlosPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessValores SHAPAprendizado de máquinaSeleção de variáveisLassoSHAP valuesMachine learningFeature selectionCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA PARAMETRICACIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAOAnálise comparativa de métodos de seleção de variáveis em problemas de classificaçãoComparative analysis of variable selection methods in classification problemsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARTEXTDissertação___Luna_Wagner_Cunha.pdf.txtDissertação___Luna_Wagner_Cunha.pdf.txtExtracted texttext/plain103696https://repositorio.ufscar.br/bitstreams/4a951b69-8bcf-472a-bc03-0989ea1d2231/downloadac2b00060f09dcab8c3e647a5b1ef5e9MD53falseAnonymousREADTHUMBNAILDissertação___Luna_Wagner_Cunha.pdf.jpgDissertação___Luna_Wagner_Cunha.pdf.jpgGenerated Thumbnailimage/jpeg6404https://repositorio.ufscar.br/bitstreams/78a89d21-5e15-4a79-90ba-a4560731e613/download8388abfb9e2ed19467776281aaaba791MD54falseAnonymousREADORIGINALDissertação___Luna_Wagner_Cunha.pdfDissertação___Luna_Wagner_Cunha.pdfDissertação Finalapplication/pdf2986206https://repositorio.ufscar.br/bitstreams/909e10cd-959b-4784-a0b1-0a5ba15e86c9/downloadfe6c0a89f68b28d6843032d13b7622c3MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstreams/9efaf06b-b559-4a69-860c-fb1d051f6671/downloadf337d95da1fce0a22c77480e5e9a7aecMD52falseAnonymousREAD20.500.14289/211772025-02-12 11:58:30.255http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/21177https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-12T14:58:30Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.por.fl_str_mv |
Análise comparativa de métodos de seleção de variáveis em problemas de classificação |
| dc.title.alternative.eng.fl_str_mv |
Comparative analysis of variable selection methods in classification problems |
| title |
Análise comparativa de métodos de seleção de variáveis em problemas de classificação |
| spellingShingle |
Análise comparativa de métodos de seleção de variáveis em problemas de classificação Cunha, Luna Wagner Valores SHAP Aprendizado de máquina Seleção de variáveis Lasso SHAP values Machine learning Feature selection CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA PARAMETRICA CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO |
| title_short |
Análise comparativa de métodos de seleção de variáveis em problemas de classificação |
| title_full |
Análise comparativa de métodos de seleção de variáveis em problemas de classificação |
| title_fullStr |
Análise comparativa de métodos de seleção de variáveis em problemas de classificação |
| title_full_unstemmed |
Análise comparativa de métodos de seleção de variáveis em problemas de classificação |
| title_sort |
Análise comparativa de métodos de seleção de variáveis em problemas de classificação |
| author |
Cunha, Luna Wagner |
| author_facet |
Cunha, Luna Wagner |
| author_role |
author |
| dc.contributor.authorlattes.por.fl_str_mv |
https://lattes.cnpq.br/6351934108951168 |
| dc.contributor.authororcid.por.fl_str_mv |
https://orcid.org/0009-0004-7608-4973 |
| dc.contributor.advisor1orcid.por.fl_str_mv |
https://orcid.org/0000-0003-1356-0245 |
| dc.contributor.author.fl_str_mv |
Cunha, Luna Wagner |
| dc.contributor.advisor1.fl_str_mv |
Russo, Cibele Maria |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/1011098065426388 |
| contributor_str_mv |
Russo, Cibele Maria |
| dc.subject.por.fl_str_mv |
Valores SHAP Aprendizado de máquina Seleção de variáveis Lasso |
| topic |
Valores SHAP Aprendizado de máquina Seleção de variáveis Lasso SHAP values Machine learning Feature selection CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA PARAMETRICA CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO |
| dc.subject.eng.fl_str_mv |
SHAP values Machine learning Feature selection |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA PARAMETRICA CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO |
| description |
In this study, a comprehensive comparison between the SHAP method and the Lasso method for variable selection is presented. The methodologies of both techniques are explored and juxtaposed, utilizing key selection metrics such as precision, recall, F1 score, and accuracy in both simulated and real database scenarios. The tests applied show SHAP as a good competitor for variable selection methods, with results even slightly superior to Lasso in the cases presented here, both on a simulated and real basis, maintaining competitive accuracy levels in relation to the complete model. Despite being somewhat close in accuracy, SHAP notably reduces the variable space, demonstrating its selection prowess. Additionally, a robustness study involving perturbation values in training, testing, and combined datasets confirms the resilience of the variables selected by SHAP, particularly in terms of accuracy. These analyses underscore the efficacy of the SHAP method as a versatile and potent tool for variable selection, promising improved interpretability and performance in machine learning applications. |
| publishDate |
2024 |
| dc.date.issued.fl_str_mv |
2024-11-14 |
| dc.date.accessioned.fl_str_mv |
2025-01-06T19:14:35Z |
| dc.date.available.fl_str_mv |
2025-01-06T19:14:35Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
CUNHA, Luna Wagner. Análise comparativa de métodos de seleção de variáveis em problemas de classificação. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21177. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/20.500.14289/21177 |
| identifier_str_mv |
CUNHA, Luna Wagner. Análise comparativa de métodos de seleção de variáveis em problemas de classificação. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21177. |
| url |
https://repositorio.ufscar.br/handle/20.500.14289/21177 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.publisher.program.fl_str_mv |
Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/4a951b69-8bcf-472a-bc03-0989ea1d2231/download https://repositorio.ufscar.br/bitstreams/78a89d21-5e15-4a79-90ba-a4560731e613/download https://repositorio.ufscar.br/bitstreams/909e10cd-959b-4784-a0b1-0a5ba15e86c9/download https://repositorio.ufscar.br/bitstreams/9efaf06b-b559-4a69-860c-fb1d051f6671/download |
| bitstream.checksum.fl_str_mv |
ac2b00060f09dcab8c3e647a5b1ef5e9 8388abfb9e2ed19467776281aaaba791 fe6c0a89f68b28d6843032d13b7622c3 f337d95da1fce0a22c77480e5e9a7aec |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1851688732455862272 |