Uma abordagem de aprendizagem profunda que usa funções assimétricas para modelagem de pontuação de crédito no varejo

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Piedade, Márcio Palheta
Outros Autores: http://lattes.cnpq.br/0439841352475973, https://orcid.org/0000-0002-4307-4937
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Amazonas
Instituto de Computação
Brasil
UFAM
Programa de Pós-graduação em Informática
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://tede.ufam.edu.br/handle/tede/7944
Resumo: Instituições credoras precisam lidar com as incertezas do negócio, criando estratégias que diminuam os riscos associados à concessão de crédito de seus clientes. Para lidar com este problema, foram desenvolvidos modelos quantitativos de previsão de risco baseados em dados cadastrais e comportamentais dos clientes. Nos últimos anos, novas gerações destes modelos, baseadas em aprendizagem de máquina, têm sido comumente usadas por instituições financeiras e de varejo. De forma geral, este problema é formulado como um problema de classificação binária onde se deseja discriminar bons de maus pagadores. Por este ser um problema de natureza desbalanceada (normalmente, há mais bons que maus pagadores), é comum a adoção de estratégias que levam à sub-representação ou extrapolação de dados e, consequentemente, com alteração da distribuição real das amostras, o que pode influenciar negativamente no desempenho dos modelos. Além disso, muitas vezes estes modelos não tiram proveito de particularidades das políticas de crédito nas quais eles serão empregados. Estas podem dar diferente valor para diferentes tipos de erro, aplicando diferentes critérios para diferentes partes das listas ordenadas de escores de crédito. Uma forma de lidar com tais problemas é criar modelos que aprendam diretamente o ranking de crédito (ou seja, qual a ordem esperada entre dois clientes, dado os seus riscos) em lugar da distinção entre bons e maus. Um inconveniente desta abordagem é que ela tem custo de aprendizado maior, uma vez que o modelo deve analisar pares de instâncias. Contudo, a literatura recente de aprendizagem de máquina tem produzido muitas técnicas de equivalência de problemas capazes de otimizar tarefas de ranking de forma robusta a desbalanceamento, com custos de treino comuns aos da tarefa de classificação. Além disso, com grandes massas de dados e complexos padrões típicos de modelos de comportamento usados no varejo, é possível adotar modelos baseados em aprendizagem profunda, que têm sido usados com sucesso em uma grande variedade de aplicações. Neste trabalho, apresentamos modelos de aprendizagem profunda para o problema de modelagem de crédito para varejo que envolve dados comportamentais na entrada. Para tanto, tratamos o problema com uma solução de equivalência entre classificação binária e ranking bipartido, utilizando para isso uma função de perda assimétrica, com hiper-parâmetros aprendidos durante o treino. Desta forma, associamos as vantagens das soluções de classificação binária com as de um modelo de ranking bipartido, ou seja, baixo custo de treinamento, possibilidade de calibrar o grau de tolerância a erros em partes específicas do ranking e robustez a desbalanceamento. Por meio da avaliação em dois conjuntos de dados de grande escala, um público e outro privado, observamos que o modelo proposto é capaz de superar vários outros modelos baseados em aprendizagem superficial e profunda.
id UFAM_e2094ea6bcc93d997e99d1c4a4aa1378
oai_identifier_str oai:https://tede.ufam.edu.br/handle/:tede/7944
network_acronym_str UFAM
network_name_str Biblioteca Digital de Teses e Dissertações da UFAM
repository_id_str
spelling Uma abordagem de aprendizagem profunda que usa funções assimétricas para modelagem de pontuação de crédito no varejoAprendizado do computadorSistemas de avaliação de risco de crédito (Finanças)Ranking bipartidoAprendizagem profunda - ComputaçãoPolíticas de créditoCIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃOFunções assimétricas de perdaAprendizagem profundaPontuação de créditoRisco de crédito no varejoOtimizaçãoInstituições credoras precisam lidar com as incertezas do negócio, criando estratégias que diminuam os riscos associados à concessão de crédito de seus clientes. Para lidar com este problema, foram desenvolvidos modelos quantitativos de previsão de risco baseados em dados cadastrais e comportamentais dos clientes. Nos últimos anos, novas gerações destes modelos, baseadas em aprendizagem de máquina, têm sido comumente usadas por instituições financeiras e de varejo. De forma geral, este problema é formulado como um problema de classificação binária onde se deseja discriminar bons de maus pagadores. Por este ser um problema de natureza desbalanceada (normalmente, há mais bons que maus pagadores), é comum a adoção de estratégias que levam à sub-representação ou extrapolação de dados e, consequentemente, com alteração da distribuição real das amostras, o que pode influenciar negativamente no desempenho dos modelos. Além disso, muitas vezes estes modelos não tiram proveito de particularidades das políticas de crédito nas quais eles serão empregados. Estas podem dar diferente valor para diferentes tipos de erro, aplicando diferentes critérios para diferentes partes das listas ordenadas de escores de crédito. Uma forma de lidar com tais problemas é criar modelos que aprendam diretamente o ranking de crédito (ou seja, qual a ordem esperada entre dois clientes, dado os seus riscos) em lugar da distinção entre bons e maus. Um inconveniente desta abordagem é que ela tem custo de aprendizado maior, uma vez que o modelo deve analisar pares de instâncias. Contudo, a literatura recente de aprendizagem de máquina tem produzido muitas técnicas de equivalência de problemas capazes de otimizar tarefas de ranking de forma robusta a desbalanceamento, com custos de treino comuns aos da tarefa de classificação. Além disso, com grandes massas de dados e complexos padrões típicos de modelos de comportamento usados no varejo, é possível adotar modelos baseados em aprendizagem profunda, que têm sido usados com sucesso em uma grande variedade de aplicações. Neste trabalho, apresentamos modelos de aprendizagem profunda para o problema de modelagem de crédito para varejo que envolve dados comportamentais na entrada. Para tanto, tratamos o problema com uma solução de equivalência entre classificação binária e ranking bipartido, utilizando para isso uma função de perda assimétrica, com hiper-parâmetros aprendidos durante o treino. Desta forma, associamos as vantagens das soluções de classificação binária com as de um modelo de ranking bipartido, ou seja, baixo custo de treinamento, possibilidade de calibrar o grau de tolerância a erros em partes específicas do ranking e robustez a desbalanceamento. Por meio da avaliação em dois conjuntos de dados de grande escala, um público e outro privado, observamos que o modelo proposto é capaz de superar vários outros modelos baseados em aprendizagem superficial e profunda.Credit institutions need to deal with the uncertainties of the business by creating strategies that reduce the risks associated with granting credit to their customers. To address this problem, quantitative risk prediction models based on application and behavioral customer data have been developed. In recent years, new generations of these models, based on machine learning, have been commonly used by financial and retail institutions. In general, this problem is formulated as a binary classification problem in which we want to discriminate between good and bad payers. As it is a problem of an unbalanced nature (there are generally more good than bad payers), it is common to adopt strategies that lead to underrepresentation or extrapolation of data and, consequently, to a distribution of samples other than the actual one, which affects the performance of the models. Moreover, these models usually do not take advantage of the particular credit policies adopted where they will be deployed. Such policies can weight differently different types of error by applying different criteria to different parts of the ordered lists of credit scores. An approach to deal with such problems is to create models that directly learn the credit ranking (ie, what is the expected order between two customers, given their risks) rather than the distinction between good and bad payers. A drawback of this approach is that it has a higher learning cost, since the model must analyze pairs of instances. However, the recent literature on machine learning has produced many techniques, based on problem equivalence, capable of optimizing ranking tasks in a robust way to imbalance, with the same training costs of binary classification tasks. In addition, with large datasets and the complexity of retail customer behavior, it is possible to adopt models based on deep learning that have been used successfully in a wide range of applications. In this paper, we present deep learning models for the retail credit modeling problem where the customer representation includes their behavior. For this, we cope with the problem with a solution of equivalence between binary classification and bipartite ranking, using an asymmetric loss function with hyperparameters learned during the training. By doing so, we associate the advantages of binary classification solutions with those of a bipartite ranking model, that is, low training costs, the possibility to calibrate the degree of tolerance to errors in specific parts of the ranking and robustness to imbalance. By evaluating our technique in two large-scale datasets, a public and a private one, we observed that it is able to outperform several other shallow and deep learning strategies.FAPEAM - Fundação de Amparo à Pesquisa do Estado do AmazonasO fruto desse trabalho deu origem a uma fintech que oferece serviços financeiros para pessoas das classes C, D e E, sem acesso ao atual sistema bancário brasileiro.Universidade Federal do AmazonasInstituto de ComputaçãoBrasilUFAMPrograma de Pós-graduação em InformáticaCristo, Marco Antônio Pinheiro dehttp://lattes.cnpq.br/6261175351521953Costa, Elloá Barreto Guedes dahttp://lattes.cnpq.br/6466781778573760Onety, Renata da Encarnaçãohttp://lattes.cnpq.br/2342137418158973Rosa, Thierson Coutohttp://lattes.cnpq.br/4414718560764818Piedade, Márcio Palhetahttp://lattes.cnpq.br/0439841352475973https://orcid.org/0000-0002-4307-49372020-09-29T19:30:06Z2020-07-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfPIEDADE, Márcio Palheta. Uma abordagem de aprendizagem profunda que usa funções assimétricas para modelagem de pontuação de crédito no varejo. 2020. 147 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2020.https://tede.ufam.edu.br/handle/tede/7944porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2020-09-30T16:33:36Zoai:https://tede.ufam.edu.br/handle/:tede/7944Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br||ddbc@ufam.edu.bropendoar:65922020-09-30T16:33:36Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false
dc.title.none.fl_str_mv Uma abordagem de aprendizagem profunda que usa funções assimétricas para modelagem de pontuação de crédito no varejo
title Uma abordagem de aprendizagem profunda que usa funções assimétricas para modelagem de pontuação de crédito no varejo
spellingShingle Uma abordagem de aprendizagem profunda que usa funções assimétricas para modelagem de pontuação de crédito no varejo
Piedade, Márcio Palheta
Aprendizado do computador
Sistemas de avaliação de risco de crédito (Finanças)
Ranking bipartido
Aprendizagem profunda - Computação
Políticas de crédito
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Funções assimétricas de perda
Aprendizagem profunda
Pontuação de crédito
Risco de crédito no varejo
Otimização
title_short Uma abordagem de aprendizagem profunda que usa funções assimétricas para modelagem de pontuação de crédito no varejo
title_full Uma abordagem de aprendizagem profunda que usa funções assimétricas para modelagem de pontuação de crédito no varejo
title_fullStr Uma abordagem de aprendizagem profunda que usa funções assimétricas para modelagem de pontuação de crédito no varejo
title_full_unstemmed Uma abordagem de aprendizagem profunda que usa funções assimétricas para modelagem de pontuação de crédito no varejo
title_sort Uma abordagem de aprendizagem profunda que usa funções assimétricas para modelagem de pontuação de crédito no varejo
author Piedade, Márcio Palheta
author_facet Piedade, Márcio Palheta
http://lattes.cnpq.br/0439841352475973
https://orcid.org/0000-0002-4307-4937
author_role author
author2 http://lattes.cnpq.br/0439841352475973
https://orcid.org/0000-0002-4307-4937
author2_role author
author
dc.contributor.none.fl_str_mv Cristo, Marco Antônio Pinheiro de
http://lattes.cnpq.br/6261175351521953
Costa, Elloá Barreto Guedes da
http://lattes.cnpq.br/6466781778573760
Onety, Renata da Encarnação
http://lattes.cnpq.br/2342137418158973
Rosa, Thierson Couto
http://lattes.cnpq.br/4414718560764818
dc.contributor.author.fl_str_mv Piedade, Márcio Palheta
http://lattes.cnpq.br/0439841352475973
https://orcid.org/0000-0002-4307-4937
dc.subject.por.fl_str_mv Aprendizado do computador
Sistemas de avaliação de risco de crédito (Finanças)
Ranking bipartido
Aprendizagem profunda - Computação
Políticas de crédito
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Funções assimétricas de perda
Aprendizagem profunda
Pontuação de crédito
Risco de crédito no varejo
Otimização
topic Aprendizado do computador
Sistemas de avaliação de risco de crédito (Finanças)
Ranking bipartido
Aprendizagem profunda - Computação
Políticas de crédito
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Funções assimétricas de perda
Aprendizagem profunda
Pontuação de crédito
Risco de crédito no varejo
Otimização
description Instituições credoras precisam lidar com as incertezas do negócio, criando estratégias que diminuam os riscos associados à concessão de crédito de seus clientes. Para lidar com este problema, foram desenvolvidos modelos quantitativos de previsão de risco baseados em dados cadastrais e comportamentais dos clientes. Nos últimos anos, novas gerações destes modelos, baseadas em aprendizagem de máquina, têm sido comumente usadas por instituições financeiras e de varejo. De forma geral, este problema é formulado como um problema de classificação binária onde se deseja discriminar bons de maus pagadores. Por este ser um problema de natureza desbalanceada (normalmente, há mais bons que maus pagadores), é comum a adoção de estratégias que levam à sub-representação ou extrapolação de dados e, consequentemente, com alteração da distribuição real das amostras, o que pode influenciar negativamente no desempenho dos modelos. Além disso, muitas vezes estes modelos não tiram proveito de particularidades das políticas de crédito nas quais eles serão empregados. Estas podem dar diferente valor para diferentes tipos de erro, aplicando diferentes critérios para diferentes partes das listas ordenadas de escores de crédito. Uma forma de lidar com tais problemas é criar modelos que aprendam diretamente o ranking de crédito (ou seja, qual a ordem esperada entre dois clientes, dado os seus riscos) em lugar da distinção entre bons e maus. Um inconveniente desta abordagem é que ela tem custo de aprendizado maior, uma vez que o modelo deve analisar pares de instâncias. Contudo, a literatura recente de aprendizagem de máquina tem produzido muitas técnicas de equivalência de problemas capazes de otimizar tarefas de ranking de forma robusta a desbalanceamento, com custos de treino comuns aos da tarefa de classificação. Além disso, com grandes massas de dados e complexos padrões típicos de modelos de comportamento usados no varejo, é possível adotar modelos baseados em aprendizagem profunda, que têm sido usados com sucesso em uma grande variedade de aplicações. Neste trabalho, apresentamos modelos de aprendizagem profunda para o problema de modelagem de crédito para varejo que envolve dados comportamentais na entrada. Para tanto, tratamos o problema com uma solução de equivalência entre classificação binária e ranking bipartido, utilizando para isso uma função de perda assimétrica, com hiper-parâmetros aprendidos durante o treino. Desta forma, associamos as vantagens das soluções de classificação binária com as de um modelo de ranking bipartido, ou seja, baixo custo de treinamento, possibilidade de calibrar o grau de tolerância a erros em partes específicas do ranking e robustez a desbalanceamento. Por meio da avaliação em dois conjuntos de dados de grande escala, um público e outro privado, observamos que o modelo proposto é capaz de superar vários outros modelos baseados em aprendizagem superficial e profunda.
publishDate 2020
dc.date.none.fl_str_mv 2020-09-29T19:30:06Z
2020-07-22
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv PIEDADE, Márcio Palheta. Uma abordagem de aprendizagem profunda que usa funções assimétricas para modelagem de pontuação de crédito no varejo. 2020. 147 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2020.
https://tede.ufam.edu.br/handle/tede/7944
identifier_str_mv PIEDADE, Márcio Palheta. Uma abordagem de aprendizagem profunda que usa funções assimétricas para modelagem de pontuação de crédito no varejo. 2020. 147 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2020.
url https://tede.ufam.edu.br/handle/tede/7944
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Amazonas
Instituto de Computação
Brasil
UFAM
Programa de Pós-graduação em Informática
publisher.none.fl_str_mv Universidade Federal do Amazonas
Instituto de Computação
Brasil
UFAM
Programa de Pós-graduação em Informática
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFAM
instname:Universidade Federal do Amazonas (UFAM)
instacron:UFAM
instname_str Universidade Federal do Amazonas (UFAM)
instacron_str UFAM
institution UFAM
reponame_str Biblioteca Digital de Teses e Dissertações da UFAM
collection Biblioteca Digital de Teses e Dissertações da UFAM
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)
repository.mail.fl_str_mv ddbc@ufam.edu.br||ddbc@ufam.edu.br
_version_ 1797040506504478720