Exportação concluída — 

Detecção de fraudes em transações com cartão de crédito: uma comparação do desempenho de técnicas inteligentes com base na avaliação da função de custo

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Leonardis, Roger Willian Joel lattes
Orientador(a): Sassi, Renato José lattes
Banca de defesa: Sassi, Renato José lattes, Kitani, Edson Caoru lattes, Pereira, Fabio Henrique lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Nove de Julho
Programa de Pós-Graduação: Programa de Pós-Graduação em Informática e Gestão do Conhecimento
Departamento: Informática
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://bibliotecatede.uninove.br/handle/tede/3242
Resumo: Credit card fraud detection faces an issue with the number of the fraud transactions being lower than non-fraud, making it difficult for machine learning models to effectively detect them. There are different types of solution to fix this imbalance, Oversampling and Undersampling can be used to deal with it. To evaluate and compare the performance of the machine learning models, metrics like the Confusion Matrix (CM), the Matthew Correlation Coefficient (MCC), the Area under the Curve (AUC) and the Cost Function (FC) can be applied. The FC result quantifies the financial impact caused by a real fraud misclassification and, because it is cost related, the lower its value the better its performance. The objective of this experiment was to compare the performance of machine learning models using the FC to detect fraud in credit card transactions in an unbalanced dataset. The dataset contains information about European credit cards transactions collected in 2013. The following models were applied: Logistic Regression (RL), Decision Trees (DT), Random Forest (RF), Support Vector Machine (SVM), Deep Learning (DL) and XGBoost (XG), over the unbalanced and balanced databases with Oversampling and Undersampling. To evaluate and compare the results, CM, MCC, AUC and FC were used. The best performance for AUC was RL with Oversampling, for MCC was for RF applied to the unbalanced base and for FC also RL with Oversampling presented the best performance. The reasons why RL with Oversampling outperformed the other models in two out of the three metrics may be connected to the common use of this model in fraud detection problems, therefore presented more adherence to the database used. As stated in the principle of Occam's Razor the recommendation for Machine Learning models use is to adopt the simplest one: RL with Oversampling. When considering the cost of an incorrect prediction, it is not enough to evaluate only the results obtained with the AUC and MCC metrics, one should also consider the results of the FC to support of a machine learning model definition.
id NOVE_dfe99bf7fa345f508ea97ff6504023d4
oai_identifier_str oai:localhost:tede/3242
network_acronym_str NOVE
network_name_str Biblioteca Digital de Teses e Dissertações da Uninove
repository_id_str
spelling Sassi, Renato Joséhttp://lattes.cnpq.br/8750334661789610Sassi, Renato Joséhttp://lattes.cnpq.br/8750334661789610Kitani, Edson Caoruhttp://lattes.cnpq.br/6731656353508097Pereira, Fabio Henriquehttp://lattes.cnpq.br/0382304490753424http://lattes.cnpq.br/8686118656991273Leonardis, Roger Willian Joel2023-12-04T15:38:10Z2023-06-26Leonardis, Roger Willian Joel. Detecção de fraudes em transações com cartão de crédito: uma comparação do desempenho de técnicas inteligentes com base na avaliação da função de custo. 2023. 75 f. Dissertação( Programa de Pós-Graduação em Informática e Gestão do Conhecimento) - Universidade Nove de Julho, São Paulo.http://bibliotecatede.uninove.br/handle/tede/3242Credit card fraud detection faces an issue with the number of the fraud transactions being lower than non-fraud, making it difficult for machine learning models to effectively detect them. There are different types of solution to fix this imbalance, Oversampling and Undersampling can be used to deal with it. To evaluate and compare the performance of the machine learning models, metrics like the Confusion Matrix (CM), the Matthew Correlation Coefficient (MCC), the Area under the Curve (AUC) and the Cost Function (FC) can be applied. The FC result quantifies the financial impact caused by a real fraud misclassification and, because it is cost related, the lower its value the better its performance. The objective of this experiment was to compare the performance of machine learning models using the FC to detect fraud in credit card transactions in an unbalanced dataset. The dataset contains information about European credit cards transactions collected in 2013. The following models were applied: Logistic Regression (RL), Decision Trees (DT), Random Forest (RF), Support Vector Machine (SVM), Deep Learning (DL) and XGBoost (XG), over the unbalanced and balanced databases with Oversampling and Undersampling. To evaluate and compare the results, CM, MCC, AUC and FC were used. The best performance for AUC was RL with Oversampling, for MCC was for RF applied to the unbalanced base and for FC also RL with Oversampling presented the best performance. The reasons why RL with Oversampling outperformed the other models in two out of the three metrics may be connected to the common use of this model in fraud detection problems, therefore presented more adherence to the database used. As stated in the principle of Occam's Razor the recommendation for Machine Learning models use is to adopt the simplest one: RL with Oversampling. When considering the cost of an incorrect prediction, it is not enough to evaluate only the results obtained with the AUC and MCC metrics, one should also consider the results of the FC to support of a machine learning model definition.A detecção de fraudes em cartões de crédito enfrenta um problema relativo ao número de casos de fraudes ser menor do que o de não fraudes, dificultando a detecção por parte de técnicas inteligentes. A solução passa pela aplicação de dois métodos que tratam este desbalanceamento, o Oversampling e o Undersampling. Para avaliar e comparar o desempenho das técnicas, utiliza-se a Matriz de Confusão (MC), o Coeficiente de Correlação de Matthew (MCC), a Área sob a Curva (AUC) e a Função de Custo (FC). O resultado da FC quantifica o impacto financeiro causado por uma classificação incorreta e, por se tratar de custo, quanto menor o seu valor, melhor o desempenho da técnica. O objetivo geral deste trabalho foi comparar o desempenho de técnicas inteligentes com base na avaliação da Função de Custo para detectar fraudes em transações com cartões de crédito em base de dados desbalanceada. A base de dados utilizada contém informações sobre transações realizadas com cartões de crédito europeus coletadas no ano de 2013. Foram aplicadas as seguintes técnicas: Regressão Logística (RL), Decision Trees (DT), Random Forest (RF), Support Vector Machine (SVM), Deep Learning (DL) e XGBoost (XG), sobre as bases de dados desbalanceada e balanceada com Oversampling e Undersampling. Para avaliar e comparar os resultados foram utilizadas a MC, o MCC, a AUC e a FC. O melhor desempenho para a AUC foi da RL com Oversampling, para o MCC foi da RF aplicada à base desbalanceada e para a FC, novamente a RL com Oversampling foi a melhor. A justificativa para a RL com Oversampling apresentar o melhor desempenho em duas das três métricas avaliadas pode residir no fato de ser uma técnica tradicionalmente aplicada em problemas de detecção de fraudes e, por isto, apresentou mais aderência à base de dados utilizada. No estudo do Aprendizado de Máquina, o princípio da Navalha de Occam recomenda que, diante de vários modelos, o mais simples deve ser escolhido, como ocorreu com a RL com Oversampling. Ao considerar o custo de uma predição incorreta, não basta avaliar somente os resultados obtidos com as métricas AUC e MCC, deve-se considerar também a aplicação da FC para apoiar a escolha de uma técnica inteligente.Submitted by Nadir Basilio (nadirsb@uninove.br) on 2023-12-04T15:38:10Z No. of bitstreams: 1 Roger Willian Joel Leonardis.pdf: 4095369 bytes, checksum: 153cc45250d81ba40bb0177d2934efea (MD5)Made available in DSpace on 2023-12-04T15:38:10Z (GMT). No. of bitstreams: 1 Roger Willian Joel Leonardis.pdf: 4095369 bytes, checksum: 153cc45250d81ba40bb0177d2934efea (MD5) Previous issue date: 2023-06-26application/pdfporUniversidade Nove de JulhoPrograma de Pós-Graduação em Informática e Gestão do ConhecimentoUNINOVEBrasilInformáticafraudes em cartão de créditofunção de custocusto de classificaçãointeligência artificialbase de dados desbalanceadacredit card fraudcost functionclassification costartificial intelligenceimbalanced datasetCIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAODetecção de fraudes em transações com cartão de crédito: uma comparação do desempenho de técnicas inteligentes com base na avaliação da função de custoFraud detection in credit card transactions: comparing machine learning models using the cost functioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis8930092515683771531600info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da Uninoveinstname:Universidade Nove de Julho (UNINOVE)instacron:UNINOVEORIGINALRoger Willian Joel Leonardis.pdfRoger Willian Joel Leonardis.pdfapplication/pdf4095369http://localhost:8080/tede/bitstream/tede/3242/2/Roger+Willian+Joel+Leonardis.pdf153cc45250d81ba40bb0177d2934efeaMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82165http://localhost:8080/tede/bitstream/tede/3242/1/license.txtbd3efa91386c1718a7f26a329fdcb468MD51tede/32422023-12-04 12:38:10.96oai:localhost:tede/3242Tk9UQTogQ09MT1FVRSBBUVVJIEEgU1VBIFBSw5NQUklBIExJQ0VOw4dBCkVzdGEgbGljZW7Dp2EgZGUgZXhlbXBsbyDDqSBmb3JuZWNpZGEgYXBlbmFzIHBhcmEgZmlucyBpbmZvcm1hdGl2b3MuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgClhYWCAoU2lnbGEgZGEgVW5pdmVyc2lkYWRlKSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IApkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIAplbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhbnNwb3IgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIApwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgU2lnbGEgZGUgVW5pdmVyc2lkYWRlIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBhIHN1YSB0ZXNlIG91IApkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyAKbmVzdGEgbGljZW7Dp2EuIFZvY8OqIHRhbWLDqW0gZGVjbGFyYSBxdWUgbyBkZXDDs3NpdG8gZGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBuw6NvLCBxdWUgc2VqYSBkZSBzZXUgCmNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiAKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSAKb3MgZGlyZWl0b3MgYXByZXNlbnRhZG9zIG5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIAppZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250ZcO6ZG8gZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFRFU0UgT1UgRElTU0VSVEHDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSAKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBTSUdMQSBERSAKVU5JVkVSU0lEQURFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyAKVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIEVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpBIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIApjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://bibliotecatede.uninove.br/PRIhttp://bibliotecatede.uninove.br/oai/requestbibliotecatede@uninove.br||bibliotecatede@uninove.bropendoar:2023-12-04T15:38:10Biblioteca Digital de Teses e Dissertações da Uninove - Universidade Nove de Julho (UNINOVE)false
dc.title.por.fl_str_mv Detecção de fraudes em transações com cartão de crédito: uma comparação do desempenho de técnicas inteligentes com base na avaliação da função de custo
dc.title.alternative.eng.fl_str_mv Fraud detection in credit card transactions: comparing machine learning models using the cost function
title Detecção de fraudes em transações com cartão de crédito: uma comparação do desempenho de técnicas inteligentes com base na avaliação da função de custo
spellingShingle Detecção de fraudes em transações com cartão de crédito: uma comparação do desempenho de técnicas inteligentes com base na avaliação da função de custo
Leonardis, Roger Willian Joel
fraudes em cartão de crédito
função de custo
custo de classificação
inteligência artificial
base de dados desbalanceada
credit card fraud
cost function
classification cost
artificial intelligence
imbalanced dataset
CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
title_short Detecção de fraudes em transações com cartão de crédito: uma comparação do desempenho de técnicas inteligentes com base na avaliação da função de custo
title_full Detecção de fraudes em transações com cartão de crédito: uma comparação do desempenho de técnicas inteligentes com base na avaliação da função de custo
title_fullStr Detecção de fraudes em transações com cartão de crédito: uma comparação do desempenho de técnicas inteligentes com base na avaliação da função de custo
title_full_unstemmed Detecção de fraudes em transações com cartão de crédito: uma comparação do desempenho de técnicas inteligentes com base na avaliação da função de custo
title_sort Detecção de fraudes em transações com cartão de crédito: uma comparação do desempenho de técnicas inteligentes com base na avaliação da função de custo
author Leonardis, Roger Willian Joel
author_facet Leonardis, Roger Willian Joel
author_role author
dc.contributor.advisor1.fl_str_mv Sassi, Renato José
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/8750334661789610
dc.contributor.referee1.fl_str_mv Sassi, Renato José
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/8750334661789610
dc.contributor.referee2.fl_str_mv Kitani, Edson Caoru
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/6731656353508097
dc.contributor.referee3.fl_str_mv Pereira, Fabio Henrique
dc.contributor.referee3Lattes.fl_str_mv http://lattes.cnpq.br/0382304490753424
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/8686118656991273
dc.contributor.author.fl_str_mv Leonardis, Roger Willian Joel
contributor_str_mv Sassi, Renato José
Sassi, Renato José
Kitani, Edson Caoru
Pereira, Fabio Henrique
dc.subject.por.fl_str_mv fraudes em cartão de crédito
função de custo
custo de classificação
inteligência artificial
base de dados desbalanceada
topic fraudes em cartão de crédito
função de custo
custo de classificação
inteligência artificial
base de dados desbalanceada
credit card fraud
cost function
classification cost
artificial intelligence
imbalanced dataset
CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
dc.subject.eng.fl_str_mv credit card fraud
cost function
classification cost
artificial intelligence
imbalanced dataset
dc.subject.cnpq.fl_str_mv CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
description Credit card fraud detection faces an issue with the number of the fraud transactions being lower than non-fraud, making it difficult for machine learning models to effectively detect them. There are different types of solution to fix this imbalance, Oversampling and Undersampling can be used to deal with it. To evaluate and compare the performance of the machine learning models, metrics like the Confusion Matrix (CM), the Matthew Correlation Coefficient (MCC), the Area under the Curve (AUC) and the Cost Function (FC) can be applied. The FC result quantifies the financial impact caused by a real fraud misclassification and, because it is cost related, the lower its value the better its performance. The objective of this experiment was to compare the performance of machine learning models using the FC to detect fraud in credit card transactions in an unbalanced dataset. The dataset contains information about European credit cards transactions collected in 2013. The following models were applied: Logistic Regression (RL), Decision Trees (DT), Random Forest (RF), Support Vector Machine (SVM), Deep Learning (DL) and XGBoost (XG), over the unbalanced and balanced databases with Oversampling and Undersampling. To evaluate and compare the results, CM, MCC, AUC and FC were used. The best performance for AUC was RL with Oversampling, for MCC was for RF applied to the unbalanced base and for FC also RL with Oversampling presented the best performance. The reasons why RL with Oversampling outperformed the other models in two out of the three metrics may be connected to the common use of this model in fraud detection problems, therefore presented more adherence to the database used. As stated in the principle of Occam's Razor the recommendation for Machine Learning models use is to adopt the simplest one: RL with Oversampling. When considering the cost of an incorrect prediction, it is not enough to evaluate only the results obtained with the AUC and MCC metrics, one should also consider the results of the FC to support of a machine learning model definition.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-12-04T15:38:10Z
dc.date.issued.fl_str_mv 2023-06-26
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv Leonardis, Roger Willian Joel. Detecção de fraudes em transações com cartão de crédito: uma comparação do desempenho de técnicas inteligentes com base na avaliação da função de custo. 2023. 75 f. Dissertação( Programa de Pós-Graduação em Informática e Gestão do Conhecimento) - Universidade Nove de Julho, São Paulo.
dc.identifier.uri.fl_str_mv http://bibliotecatede.uninove.br/handle/tede/3242
identifier_str_mv Leonardis, Roger Willian Joel. Detecção de fraudes em transações com cartão de crédito: uma comparação do desempenho de técnicas inteligentes com base na avaliação da função de custo. 2023. 75 f. Dissertação( Programa de Pós-Graduação em Informática e Gestão do Conhecimento) - Universidade Nove de Julho, São Paulo.
url http://bibliotecatede.uninove.br/handle/tede/3242
dc.language.iso.fl_str_mv por
language por
dc.relation.cnpq.fl_str_mv 8930092515683771531
dc.relation.confidence.fl_str_mv 600
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Nove de Julho
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Informática e Gestão do Conhecimento
dc.publisher.initials.fl_str_mv UNINOVE
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Informática
publisher.none.fl_str_mv Universidade Nove de Julho
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da Uninove
instname:Universidade Nove de Julho (UNINOVE)
instacron:UNINOVE
instname_str Universidade Nove de Julho (UNINOVE)
instacron_str UNINOVE
institution UNINOVE
reponame_str Biblioteca Digital de Teses e Dissertações da Uninove
collection Biblioteca Digital de Teses e Dissertações da Uninove
bitstream.url.fl_str_mv http://localhost:8080/tede/bitstream/tede/3242/2/Roger+Willian+Joel+Leonardis.pdf
http://localhost:8080/tede/bitstream/tede/3242/1/license.txt
bitstream.checksum.fl_str_mv 153cc45250d81ba40bb0177d2934efea
bd3efa91386c1718a7f26a329fdcb468
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da Uninove - Universidade Nove de Julho (UNINOVE)
repository.mail.fl_str_mv bibliotecatede@uninove.br||bibliotecatede@uninove.br
_version_ 1845552672659210240