Exportação concluída — 

Um estudo comparativo de técnicas de validação cruzada aplicadas a modelos para dados desbalanceados

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Veloso, Luiza Tuler
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/45/45133/tde-18042022-200608/
Resumo: Dentro do contexto de modelagem preditiva, a escolha de um modelo perpassa pela avaliação da qualidade das predições por meio do Risco Esperado. Esse risco, no entanto, pode ser subestimado se obtido a partir da mesma amostra utilizada para ajuste do modelo. Para lidar com este problema, surgem estratégias de Validação Cruzada (Hold-out, K-Fold, Leave-one-out, Bootstrap) que buscam separar os dados disponíveis em Amostra de Treino, em que o modelo será ajustado, e Amostra de Validação, em que o modelo terá seu desempenho verificado. Ao se tratar de dados desbalanceados, ou seja, dados nos quais o evento de interesse (Y=1) da variável resposta binária ocorre dezenas a milhares de vezes menos do que a outra categoria (Y=0), podem ser necessárias algumas adaptações no processo de modelagem e validação. Em vista disso, este trabalho busca avaliar a maneira com que as técnicas de validação de modelos se comportam conforme o desbalanceamento dos dados para tamanhos distintos de amostra. Para isso, foi realizada revisão das técnicas que possibilitam a validação de modelos e revisão das tratativas e principais dificuldades ao modelar dados desbalanceados. Por fim, as técnicas de validação foram avaliadas, a partir de simulações, para modelos logísticos com correção no viés para dados desbalanceados proposta por King e Zeng [2001] e, posteriormente, foi avaliada a metodologia em estudo de simulação e aplicada em uma base de dados real referente a notificação de casos da Síndrome Inflamatória Multissistêmica (SIM-P) temporalmente associada à COVID-19.
id USP_a6a4284a0cb368388ee2e2186f85728e
oai_identifier_str oai:teses.usp.br:tde-18042022-200608
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Um estudo comparativo de técnicas de validação cruzada aplicadas a modelos para dados desbalanceadosA comparative study of cross validation techniques applied to imbalanced data modelsCross validationDados desbalanceadosExpected RiskImbalanced dataMIS-CRisco EsperadoSIM-PValidação cruzadaDentro do contexto de modelagem preditiva, a escolha de um modelo perpassa pela avaliação da qualidade das predições por meio do Risco Esperado. Esse risco, no entanto, pode ser subestimado se obtido a partir da mesma amostra utilizada para ajuste do modelo. Para lidar com este problema, surgem estratégias de Validação Cruzada (Hold-out, K-Fold, Leave-one-out, Bootstrap) que buscam separar os dados disponíveis em Amostra de Treino, em que o modelo será ajustado, e Amostra de Validação, em que o modelo terá seu desempenho verificado. Ao se tratar de dados desbalanceados, ou seja, dados nos quais o evento de interesse (Y=1) da variável resposta binária ocorre dezenas a milhares de vezes menos do que a outra categoria (Y=0), podem ser necessárias algumas adaptações no processo de modelagem e validação. Em vista disso, este trabalho busca avaliar a maneira com que as técnicas de validação de modelos se comportam conforme o desbalanceamento dos dados para tamanhos distintos de amostra. Para isso, foi realizada revisão das técnicas que possibilitam a validação de modelos e revisão das tratativas e principais dificuldades ao modelar dados desbalanceados. Por fim, as técnicas de validação foram avaliadas, a partir de simulações, para modelos logísticos com correção no viés para dados desbalanceados proposta por King e Zeng [2001] e, posteriormente, foi avaliada a metodologia em estudo de simulação e aplicada em uma base de dados real referente a notificação de casos da Síndrome Inflamatória Multissistêmica (SIM-P) temporalmente associada à COVID-19.Within the context of predictive modeling, the chosing of a model involves evaluating, through Expected Risk, the quality of predictions. Such risk, however, may be underestimated if obtained from the same sample utilized to adjusting the model. To deal with such problem, Cross Validation strategies (Hold-out, K-Fold, Leave-one-out, Bootstrap) emerge, that seek to split the available data in Training Sample, in which the model will be adjusted, and Validation Sample, where the model will have its performance verified. When dealing with imbalanced data, in other words, data in which the event of interest (Y=1) of the binary response variable occurs dozens to thousands of times less than the other category (Y=0), might need some adaptations in the process of modeling and validation. In view of this, this paper seeks to evaluate the way in which model validation techiniques behave, according to the degree of data imbalance and different sample sizes. For such, a review of the techniques that enable the models validation and revision of the approaches and main difficulties when modeling imbalanced data was made. Finally, the validation techniques were evaluated, through simulation studies, for corrected logistic regression applied to imbalanced data, proposed by King & Zeng [2001] and, later, the methodology was assessed in a simulation study, then applied to a real database regarding the notification of cases of Multisystem Inflammatory Syndrome in Children (MIS-C) temporally associated with COVID-19.Biblioteca Digitais de Teses e Dissertações da USPGiampaoli, VivianaVeloso, Luiza Tuler2022-02-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45133/tde-18042022-200608/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-08-15T20:53:02Zoai:teses.usp.br:tde-18042022-200608Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-08-15T20:53:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Um estudo comparativo de técnicas de validação cruzada aplicadas a modelos para dados desbalanceados
A comparative study of cross validation techniques applied to imbalanced data models
title Um estudo comparativo de técnicas de validação cruzada aplicadas a modelos para dados desbalanceados
spellingShingle Um estudo comparativo de técnicas de validação cruzada aplicadas a modelos para dados desbalanceados
Veloso, Luiza Tuler
Cross validation
Dados desbalanceados
Expected Risk
Imbalanced data
MIS-C
Risco Esperado
SIM-P
Validação cruzada
title_short Um estudo comparativo de técnicas de validação cruzada aplicadas a modelos para dados desbalanceados
title_full Um estudo comparativo de técnicas de validação cruzada aplicadas a modelos para dados desbalanceados
title_fullStr Um estudo comparativo de técnicas de validação cruzada aplicadas a modelos para dados desbalanceados
title_full_unstemmed Um estudo comparativo de técnicas de validação cruzada aplicadas a modelos para dados desbalanceados
title_sort Um estudo comparativo de técnicas de validação cruzada aplicadas a modelos para dados desbalanceados
author Veloso, Luiza Tuler
author_facet Veloso, Luiza Tuler
author_role author
dc.contributor.none.fl_str_mv Giampaoli, Viviana
dc.contributor.author.fl_str_mv Veloso, Luiza Tuler
dc.subject.por.fl_str_mv Cross validation
Dados desbalanceados
Expected Risk
Imbalanced data
MIS-C
Risco Esperado
SIM-P
Validação cruzada
topic Cross validation
Dados desbalanceados
Expected Risk
Imbalanced data
MIS-C
Risco Esperado
SIM-P
Validação cruzada
description Dentro do contexto de modelagem preditiva, a escolha de um modelo perpassa pela avaliação da qualidade das predições por meio do Risco Esperado. Esse risco, no entanto, pode ser subestimado se obtido a partir da mesma amostra utilizada para ajuste do modelo. Para lidar com este problema, surgem estratégias de Validação Cruzada (Hold-out, K-Fold, Leave-one-out, Bootstrap) que buscam separar os dados disponíveis em Amostra de Treino, em que o modelo será ajustado, e Amostra de Validação, em que o modelo terá seu desempenho verificado. Ao se tratar de dados desbalanceados, ou seja, dados nos quais o evento de interesse (Y=1) da variável resposta binária ocorre dezenas a milhares de vezes menos do que a outra categoria (Y=0), podem ser necessárias algumas adaptações no processo de modelagem e validação. Em vista disso, este trabalho busca avaliar a maneira com que as técnicas de validação de modelos se comportam conforme o desbalanceamento dos dados para tamanhos distintos de amostra. Para isso, foi realizada revisão das técnicas que possibilitam a validação de modelos e revisão das tratativas e principais dificuldades ao modelar dados desbalanceados. Por fim, as técnicas de validação foram avaliadas, a partir de simulações, para modelos logísticos com correção no viés para dados desbalanceados proposta por King e Zeng [2001] e, posteriormente, foi avaliada a metodologia em estudo de simulação e aplicada em uma base de dados real referente a notificação de casos da Síndrome Inflamatória Multissistêmica (SIM-P) temporalmente associada à COVID-19.
publishDate 2022
dc.date.none.fl_str_mv 2022-02-21
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45133/tde-18042022-200608/
url https://www.teses.usp.br/teses/disponiveis/45/45133/tde-18042022-200608/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815258212336664576