Modelos alternativos para classificação em dados desbalanceados

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: de la Cruz Huayanay, Alex
Orientador(a): Bazán Guzmán, Jorge Luis lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Câmpus São Carlos
Programa de Pós-Graduação: Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufscar.br/handle/20.500.14289/18630
Resumo: In binary classification, the most used method is logistic regression model. However, several authors indicate that this model is not suitable when the data are imbalanced; for this, different asymmetric link functions as alternatives for binary response models have been proposed, for example, in recent years the power (P) and reverse power (RP) distributions have been presented. In this work we develop new properties of the P and RP distributions in the context of models for classification on imbalanced data. Also, some metrics for classification are studied through a simulation study, and an application of the studied methodology is presented. In addition, we extend the binary regression models to the case of mixed models for binary classification in the context of a longitudinal studies. To evaluate the performance of the models, a simulation study is performed. Additionally, an application is considered concerning the studied methodology in a dataset in which the response is longitudinal and imbalanced. For parameter estimation the Bayesian approach is considered using a MCMC procedure through the No-U-Turn Sampler (NUTS) algorithm. Further predictive checks, randomized Bayesian quantile residuals and a measure of Bayesian influence are considered for model diagnosis. Different models are compared using model selection criteria.
id SCAR_27334bab5a416daee3c7d76d516ef348
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/18630
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling de la Cruz Huayanay, AlexBazán Guzmán, Jorge Luishttp://lattes.cnpq.br/8040998023074358http://lattes.cnpq.br/5174900495252139https://orcid.org/0000-0003-0746-0803c61cac02-1a87-4c58-918e-5b4ba99b0a532023-09-22T17:01:47Z2023-09-22T17:01:47Z2023-08-11DE LA CRUZ HUAYANAY, Alex. Modelos alternativos para classificação em dados desbalanceados. 2023. Tese (Doutorado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/18630.https://repositorio.ufscar.br/handle/20.500.14289/18630In binary classification, the most used method is logistic regression model. However, several authors indicate that this model is not suitable when the data are imbalanced; for this, different asymmetric link functions as alternatives for binary response models have been proposed, for example, in recent years the power (P) and reverse power (RP) distributions have been presented. In this work we develop new properties of the P and RP distributions in the context of models for classification on imbalanced data. Also, some metrics for classification are studied through a simulation study, and an application of the studied methodology is presented. In addition, we extend the binary regression models to the case of mixed models for binary classification in the context of a longitudinal studies. To evaluate the performance of the models, a simulation study is performed. Additionally, an application is considered concerning the studied methodology in a dataset in which the response is longitudinal and imbalanced. For parameter estimation the Bayesian approach is considered using a MCMC procedure through the No-U-Turn Sampler (NUTS) algorithm. Further predictive checks, randomized Bayesian quantile residuals and a measure of Bayesian influence are considered for model diagnosis. Different models are compared using model selection criteria.Na classificação binária o método mais usado é o modelo de regressão logística. No entanto, vários autores indicam que esse modelo não é adequado quando os dados são desbalanceados. Diante disso, diferentes funções de ligação assimétrica, como alternativas para modelos de resposta binária, foram propostas; por exemplo, nos últimos anos foram estudadas as distribuições potência (P) e reversa de potência (RP). Neste trabalho desenvolvemos novas propriedades das distribuições P e RP no contexto de modelos para classificação em dados desbalanceados. Também, algumas métricas para classificação são estudadas através de um estudo de simulação, e uma aplicação da metologia estudada é apresentada. Além do mais, estudamos a extensão dos modelos de regressão binária para o caso misto em classificação binária no contexto de estudos longitudinais. Para avaliar o performance deste tipo de modelos apresentamos um estudo de simulação. Adicionalmente, mostramos uma aplicação da metodologia estudada para um conjunto de dados em que a variável resposta é longitudinal e desbalanceada. Para o processo de estimação dos parâmetros consideramos uma abordagem bayesiana usando um procedimento MCMC através do algoritmo No-U-Turn Sampler (NUTS). Verificações preditivas a posteriori, resíduos quantílicos aleatorizados Bayesianos e uma medida de influência bayesiana são considerados para o diagnóstico do modelo longitudinal. Diferentes modelos são comparados usando critérios de comparação de modelos.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)001porUniversidade Federal de São CarlosCâmpus São CarlosPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessMétricas para classificação bináriaPotência GumbelDistribuição potênciaLigação assimétricaDados desbalanceadosModelo de efeitos mistosAsymmetric linkMetrics for binary classificationPower GumbelPower distributionImbalanced dataMixed-effects modelCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICAModelos alternativos para classificação em dados desbalanceadosAlternative models for classification in imbalanced datainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis600712d7773-fe6a-4a4f-a2f1-42684ef30b44reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstreams/b7a34256-36e5-4067-a352-7ac2fd265861/downloadf337d95da1fce0a22c77480e5e9a7aecMD52falseAnonymousREAD2023-09-21ORIGINALTeseAlex.pdfTeseAlex.pdfapplication/pdf1534207https://repositorio.ufscar.br/bitstreams/eba707a2-5703-4e6c-bc28-4cec5080d38c/download0669c5283a7559efc49f991fead0d019MD51trueAnonymousREAD2023-09-21TEXTTeseAlex.pdf.txtTeseAlex.pdf.txtExtracted texttext/plain216676https://repositorio.ufscar.br/bitstreams/a811f116-2e9a-461d-b2bb-5336fdbebd84/downloadf8c21c6a51295742fabcbdb21fc6cf95MD53falseAnonymousREAD2023-09-21THUMBNAILTeseAlex.pdf.jpgTeseAlex.pdf.jpgIM Thumbnailimage/jpeg15025https://repositorio.ufscar.br/bitstreams/56df8a44-1ffa-434d-9379-ed2b454e71f2/download081af58706c626d54a6cd02ffed0b54fMD54falseAnonymousREAD2023-09-2120.500.14289/186302025-02-06 00:26:57.622http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/18630https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T03:26:57Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Modelos alternativos para classificação em dados desbalanceados
dc.title.alternative.eng.fl_str_mv Alternative models for classification in imbalanced data
title Modelos alternativos para classificação em dados desbalanceados
spellingShingle Modelos alternativos para classificação em dados desbalanceados
de la Cruz Huayanay, Alex
Métricas para classificação binária
Potência Gumbel
Distribuição potência
Ligação assimétrica
Dados desbalanceados
Modelo de efeitos mistos
Asymmetric link
Metrics for binary classification
Power Gumbel
Power distribution
Imbalanced data
Mixed-effects model
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
title_short Modelos alternativos para classificação em dados desbalanceados
title_full Modelos alternativos para classificação em dados desbalanceados
title_fullStr Modelos alternativos para classificação em dados desbalanceados
title_full_unstemmed Modelos alternativos para classificação em dados desbalanceados
title_sort Modelos alternativos para classificação em dados desbalanceados
author de la Cruz Huayanay, Alex
author_facet de la Cruz Huayanay, Alex
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/5174900495252139
dc.contributor.authororcid.por.fl_str_mv https://orcid.org/0000-0003-0746-0803
dc.contributor.author.fl_str_mv de la Cruz Huayanay, Alex
dc.contributor.advisor1.fl_str_mv Bazán Guzmán, Jorge Luis
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/8040998023074358
dc.contributor.authorID.fl_str_mv c61cac02-1a87-4c58-918e-5b4ba99b0a53
contributor_str_mv Bazán Guzmán, Jorge Luis
dc.subject.por.fl_str_mv Métricas para classificação binária
Potência Gumbel
Distribuição potência
Ligação assimétrica
Dados desbalanceados
Modelo de efeitos mistos
Asymmetric link
topic Métricas para classificação binária
Potência Gumbel
Distribuição potência
Ligação assimétrica
Dados desbalanceados
Modelo de efeitos mistos
Asymmetric link
Metrics for binary classification
Power Gumbel
Power distribution
Imbalanced data
Mixed-effects model
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
dc.subject.eng.fl_str_mv Metrics for binary classification
Power Gumbel
Power distribution
Imbalanced data
Mixed-effects model
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
description In binary classification, the most used method is logistic regression model. However, several authors indicate that this model is not suitable when the data are imbalanced; for this, different asymmetric link functions as alternatives for binary response models have been proposed, for example, in recent years the power (P) and reverse power (RP) distributions have been presented. In this work we develop new properties of the P and RP distributions in the context of models for classification on imbalanced data. Also, some metrics for classification are studied through a simulation study, and an application of the studied methodology is presented. In addition, we extend the binary regression models to the case of mixed models for binary classification in the context of a longitudinal studies. To evaluate the performance of the models, a simulation study is performed. Additionally, an application is considered concerning the studied methodology in a dataset in which the response is longitudinal and imbalanced. For parameter estimation the Bayesian approach is considered using a MCMC procedure through the No-U-Turn Sampler (NUTS) algorithm. Further predictive checks, randomized Bayesian quantile residuals and a measure of Bayesian influence are considered for model diagnosis. Different models are compared using model selection criteria.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-09-22T17:01:47Z
dc.date.available.fl_str_mv 2023-09-22T17:01:47Z
dc.date.issued.fl_str_mv 2023-08-11
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv DE LA CRUZ HUAYANAY, Alex. Modelos alternativos para classificação em dados desbalanceados. 2023. Tese (Doutorado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/18630.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/18630
identifier_str_mv DE LA CRUZ HUAYANAY, Alex. Modelos alternativos para classificação em dados desbalanceados. 2023. Tese (Doutorado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/18630.
url https://repositorio.ufscar.br/handle/20.500.14289/18630
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
dc.relation.authority.fl_str_mv 712d7773-fe6a-4a4f-a2f1-42684ef30b44
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/b7a34256-36e5-4067-a352-7ac2fd265861/download
https://repositorio.ufscar.br/bitstreams/eba707a2-5703-4e6c-bc28-4cec5080d38c/download
https://repositorio.ufscar.br/bitstreams/a811f116-2e9a-461d-b2bb-5336fdbebd84/download
https://repositorio.ufscar.br/bitstreams/56df8a44-1ffa-434d-9379-ed2b454e71f2/download
bitstream.checksum.fl_str_mv f337d95da1fce0a22c77480e5e9a7aec
0669c5283a7559efc49f991fead0d019
f8c21c6a51295742fabcbdb21fc6cf95
081af58706c626d54a6cd02ffed0b54f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688794032439296