Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Silva, Diego Mattozo Bernardes da
Orientador(a): Pereira, Gustavo Henrique de Araujo lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Câmpus São Carlos
Programa de Pós-Graduação: Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufscar.br/handle/20.500.14289/9322
Resumo: Regression models for binary response variables are very common in several areas of knowledge. The most used model in these situations is the logistic regression model, which assumes that the logit of the probability of a certain event is a linear function of the predictors variables. When this assumption is not reasonable, it is common to make some changes in the model, such as: transformation of predictor variables and/or add quadratic or cubic terms to the model. The problem with this approach is that it hinders parameter interpretation, and in some areas it is fundamental to interpret the parameters. Thus, a common approach is to categorize the quantitative covariates. This work aims to propose two new classes of categorization methods for continuous variables in binary regression models. The first class of methods is univariate and seeks to maximize the association between the response variable and the categorized covariate using measures of association for qualitative variables. The second class of methods is multivariate and incorporates the predictor variables correlation structure through the joint categorization of all covariates. To evaluate the performance, we applied the proposed methods and four existing categorization methods in 3 credit scoring databases and in two simulated cenarios. The results in the real databases suggest that the proposed univariate class of categorization methods performs better than the existing methods when we compare the predictive power of the logistic regression model. The results in the simulated databases suggest that both proposed classes perform better than the existing methods. Regarding computational performance, the multivariate method is inferior and the univariate method is superior to the existing methods.
id SCAR_4d766f35e7b17931495a1582144e3fa4
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/9322
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Silva, Diego Mattozo Bernardes daPereira, Gustavo Henrique de Araujohttp://lattes.cnpq.br/4536501674241631http://lattes.cnpq.br/514813920050940311aed2f7-917f-4242-8458-c609caf5534e2018-01-29T18:14:39Z2018-01-29T18:14:39Z2017-06-13SILVA, Diego Mattozo Bernardes da. Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias. 2017. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2017. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/9322.https://repositorio.ufscar.br/handle/20.500.14289/9322Regression models for binary response variables are very common in several areas of knowledge. The most used model in these situations is the logistic regression model, which assumes that the logit of the probability of a certain event is a linear function of the predictors variables. When this assumption is not reasonable, it is common to make some changes in the model, such as: transformation of predictor variables and/or add quadratic or cubic terms to the model. The problem with this approach is that it hinders parameter interpretation, and in some areas it is fundamental to interpret the parameters. Thus, a common approach is to categorize the quantitative covariates. This work aims to propose two new classes of categorization methods for continuous variables in binary regression models. The first class of methods is univariate and seeks to maximize the association between the response variable and the categorized covariate using measures of association for qualitative variables. The second class of methods is multivariate and incorporates the predictor variables correlation structure through the joint categorization of all covariates. To evaluate the performance, we applied the proposed methods and four existing categorization methods in 3 credit scoring databases and in two simulated cenarios. The results in the real databases suggest that the proposed univariate class of categorization methods performs better than the existing methods when we compare the predictive power of the logistic regression model. The results in the simulated databases suggest that both proposed classes perform better than the existing methods. Regarding computational performance, the multivariate method is inferior and the univariate method is superior to the existing methods.Modelos de regressão para variáveis resposta binárias são muito comuns em diversas áreas do conhecimento. O modelo mais utilizado nessas situações é o modelo de regressão logística, que assume que o logito da probabilidade de ocorrência de um dos valores da variável resposta é uma função linear das variáveis preditoras. Quando essa suposição não é razoável, algumas possíveis alternativas são: realizar transformação das variáveis preditoras e/ou inserir termos quadráticos ou cúbicos no modelo. O problema dessa abordagem é que ela dificulta bastante a interpretação dos parâmetros do modelo e, em algumas áreas, é fundamental que eles sejam interpretáveis. Assim, uma abordagem muitas vezes utilizada é a categorização das variáveis preditoras quantitativas do modelo. Sendo assim, este trabalho tem como objetivo propor duas novas classes de métodos de categorização de variáveis contínuas em modelos de regressão para variáveis resposta binárias. A primeira classe de métodos é univariada e busca maximizar a associação entre a variável resposta e a covariável categorizada utilizando medidas de associação para variáveis qualitativas. Já a classe de métodos multivariada tenta incorporar a estrutura de dependência entre as covariáveis do modelo através da categorização conjunta de todas as variáveis preditoras. Para avaliar o desempenho, aplicamos as classes de métodos propostas e quatro métodos de categorização existentes em 3 bases de dados relacionadas à área de risco de crédito e a dois cenários de dados simulados. Os resultados nas bases reais sugerem que a classe univariada proposta têm um desempenho superior aos métodos existentes quando comparamos o poder preditivo do modelo de regressão logística. Já os resultados nas bases de dados simuladas sugerem que ambas as classes propostas possuem um desempenho superior aos métodos existentes. Em relação ao desempenho computacional, o método multivariado mostrou-se inferior e o univariado é superior aos métodos existentes.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)porUniversidade Federal de São CarlosCâmpus São CarlosPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEsUFSCarRegressãoRisco de créditoCategorização de variáveis preditorasRegressionCredit scoringCategorization of predictor variablesCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICAMétodos de categorização de variáveis preditoras em modelos de regressão para variáveis bináriasCategorization methods for predictor variables in binary regression modelsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisOnline600c46df921-489b-4fcd-b981-2bd7f0512e1ainfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDissDMBS.pdfDissDMBS.pdfapplication/pdf821487https://repositorio.ufscar.br/bitstreams/3b57e6e8-4cac-4e33-b5e6-4015f527e14b/download497fc9b102478d03042a1c3d10a45c19MD51trueAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81957https://repositorio.ufscar.br/bitstreams/89614487-22b5-444e-9af0-6861b1ec0133/downloadae0398b6f8b235e40ad82cba6c50031dMD52falseAnonymousREADTEXTDissDMBS.pdf.txtDissDMBS.pdf.txtExtracted texttext/plain129541https://repositorio.ufscar.br/bitstreams/d11efba3-7db7-461e-94e8-ce249c59f845/downloade603a70297d125f0c9483725a47d0555MD55falseAnonymousREADTHUMBNAILDissDMBS.pdf.jpgDissDMBS.pdf.jpgIM Thumbnailimage/jpeg2821https://repositorio.ufscar.br/bitstreams/facb1b18-b510-4bc0-a6af-2759b5e77da1/download004aaf02696c27d354a6b114dc84abfdMD56falseAnonymousREAD20.500.14289/93222025-02-05 17:37:40.419Acesso abertoopen.accessoai:repositorio.ufscar.br:20.500.14289/9322https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-05T20:37:40Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)falseTElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgw6AgVW5pdmVyc2lkYWRlCkZlZGVyYWwgZGUgU8OjbyBDYXJsb3MgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdQpkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlCmVtIHF1YWxxdWVyIG1laW8sIGluY2x1aW5kbyBvcyBmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIGEgVUZTQ2FyIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28KcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFVGU0NhciBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgYSBzdWEgdGVzZSBvdQpkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcwpuZXN0YSBsaWNlbsOnYS4gVm9jw6ogdGFtYsOpbSBkZWNsYXJhIHF1ZSBvIGRlcMOzc2l0byBkYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG7Do28sIHF1ZSBzZWphIGRlIHNldQpjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6oKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFVGU0NhcgpvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUKaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBVRlNDYXIsClZPQ8OKIERFQ0xBUkEgUVVFIFJFU1BFSVRPVSBUT0RPUyBFIFFVQUlTUVVFUiBESVJFSVRPUyBERSBSRVZJU8ODTyBDT01PClRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKQSBVRlNDYXIgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzCmNvbmNlZGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuCg==
dc.title.por.fl_str_mv Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias
dc.title.alternative.eng.fl_str_mv Categorization methods for predictor variables in binary regression models
title Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias
spellingShingle Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias
Silva, Diego Mattozo Bernardes da
Regressão
Risco de crédito
Categorização de variáveis preditoras
Regression
Credit scoring
Categorization of predictor variables
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
title_short Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias
title_full Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias
title_fullStr Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias
title_full_unstemmed Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias
title_sort Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias
author Silva, Diego Mattozo Bernardes da
author_facet Silva, Diego Mattozo Bernardes da
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/5148139200509403
dc.contributor.author.fl_str_mv Silva, Diego Mattozo Bernardes da
dc.contributor.advisor1.fl_str_mv Pereira, Gustavo Henrique de Araujo
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/4536501674241631
dc.contributor.authorID.fl_str_mv 11aed2f7-917f-4242-8458-c609caf5534e
contributor_str_mv Pereira, Gustavo Henrique de Araujo
dc.subject.por.fl_str_mv Regressão
Risco de crédito
Categorização de variáveis preditoras
topic Regressão
Risco de crédito
Categorização de variáveis preditoras
Regression
Credit scoring
Categorization of predictor variables
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
dc.subject.eng.fl_str_mv Regression
Credit scoring
Categorization of predictor variables
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
description Regression models for binary response variables are very common in several areas of knowledge. The most used model in these situations is the logistic regression model, which assumes that the logit of the probability of a certain event is a linear function of the predictors variables. When this assumption is not reasonable, it is common to make some changes in the model, such as: transformation of predictor variables and/or add quadratic or cubic terms to the model. The problem with this approach is that it hinders parameter interpretation, and in some areas it is fundamental to interpret the parameters. Thus, a common approach is to categorize the quantitative covariates. This work aims to propose two new classes of categorization methods for continuous variables in binary regression models. The first class of methods is univariate and seeks to maximize the association between the response variable and the categorized covariate using measures of association for qualitative variables. The second class of methods is multivariate and incorporates the predictor variables correlation structure through the joint categorization of all covariates. To evaluate the performance, we applied the proposed methods and four existing categorization methods in 3 credit scoring databases and in two simulated cenarios. The results in the real databases suggest that the proposed univariate class of categorization methods performs better than the existing methods when we compare the predictive power of the logistic regression model. The results in the simulated databases suggest that both proposed classes perform better than the existing methods. Regarding computational performance, the multivariate method is inferior and the univariate method is superior to the existing methods.
publishDate 2017
dc.date.issued.fl_str_mv 2017-06-13
dc.date.accessioned.fl_str_mv 2018-01-29T18:14:39Z
dc.date.available.fl_str_mv 2018-01-29T18:14:39Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SILVA, Diego Mattozo Bernardes da. Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias. 2017. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2017. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/9322.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/9322
identifier_str_mv SILVA, Diego Mattozo Bernardes da. Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias. 2017. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2017. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/9322.
url https://repositorio.ufscar.br/handle/20.500.14289/9322
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
dc.relation.authority.fl_str_mv c46df921-489b-4fcd-b981-2bd7f0512e1a
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/3b57e6e8-4cac-4e33-b5e6-4015f527e14b/download
https://repositorio.ufscar.br/bitstreams/89614487-22b5-444e-9af0-6861b1ec0133/download
https://repositorio.ufscar.br/bitstreams/d11efba3-7db7-461e-94e8-ce249c59f845/download
https://repositorio.ufscar.br/bitstreams/facb1b18-b510-4bc0-a6af-2759b5e77da1/download
bitstream.checksum.fl_str_mv 497fc9b102478d03042a1c3d10a45c19
ae0398b6f8b235e40ad82cba6c50031d
e603a70297d125f0c9483725a47d0555
004aaf02696c27d354a6b114dc84abfd
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688870547030016