Amostragem aleatória e extensões para predição de eventos raros

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Santos, Richard Guilherme dos
Orientador(a): Diniz, Carlos Alberto Ribeiro lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Câmpus São Carlos
Programa de Pós-Graduação: Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://hdl.handle.net/20.500.14289/21499
Resumo: In classification problems, the prediction of rare events, that is, when the class of interest is underrepresented„ is often a difficult issue to solve. Classical versions of algorithms suffer several problems when being trained when the response variable is unbalanced, and certain metrics, such as accuracy, lose value when comparing different models. In this dissertation, we present different random sampling techniques and their applications in extensions of ensemble techniques that aim to solve this dilemma. Although extensions exist for most methods used in multi-class problems, we focus on their use for dichotomous problems. In addition, we performed simulations on databases seeking to observe advantages and shortcomings of the methods used, with emphasis on a credit concession database, where the imbalance is severe (below 5%)
id SCAR_b3728682e226686835cf66242f9d1791
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/21499
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Santos, Richard Guilherme dosDiniz, Carlos Alberto Ribeirohttp://lattes.cnpq.br/3277371897783194http://lattes.cnpq.br/81504182563030192025-03-05T20:28:11Z2024-12-23SANTOS, Richard Guilherme dos. Amostragem aleatória e extensões para predição de eventos raros. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21499.https://hdl.handle.net/20.500.14289/21499In classification problems, the prediction of rare events, that is, when the class of interest is underrepresented„ is often a difficult issue to solve. Classical versions of algorithms suffer several problems when being trained when the response variable is unbalanced, and certain metrics, such as accuracy, lose value when comparing different models. In this dissertation, we present different random sampling techniques and their applications in extensions of ensemble techniques that aim to solve this dilemma. Although extensions exist for most methods used in multi-class problems, we focus on their use for dichotomous problems. In addition, we performed simulations on databases seeking to observe advantages and shortcomings of the methods used, with emphasis on a credit concession database, where the imbalance is severe (below 5%)Em problemas de classificação, a predição de eventos raros, isto é, quando a classe de interesse está sub-representada, costuma ser uma questão de difícil resolução. Versões clássicas de algoritmos sofrem diversos problemas ao serem treinados quando a variável resposta é desbalanceada, além de certas métricas, como a acurácia, perderem valor na comparação de diferentes modelos. Nesta dissertação, apresentamos diferentes técnicas de random sampling e suas utilizações em extensões de técnicas ensemble que propõem resolver tal dilema. Embora existam extensões para a maioria dos métodos utilizados em problemas de multiclasse, focamos na sua utilização para problemas dicotômicos. Além disso, realizamos simulações em bases de dados buscando observar vantagens e lacunas dos métodos utilizados, com destaque em uma base de dados de concessão de crédito, onde o desbalanceamento é severo (abaixo de 5%)Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)porUniversidade Federal de São CarlosCâmpus São CarlosPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessMachine learningRandom samplingCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOSClassificaçãoAlto desbalanceamentoAmostragem aleatória e extensões para predição de eventos rarosRandom sampling and extensions for rare event predictioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDissertação de Mestrado - PIPGEs.pdfDissertação de Mestrado - PIPGEs.pdfapplication/pdf1017554https://repositorio.ufscar.br/bitstreams/146113ca-c378-4dca-878f-7972002dc590/downloadcb476724c7066dcb4a2ab155fa6bec4fMD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8905https://repositorio.ufscar.br/bitstreams/52387e5d-3cce-4670-b3dd-836c641927dc/download57e258e544f104f04afb1d5e5b4e53c0MD52falseAnonymousREADTEXTDissertação de Mestrado - PIPGEs.pdf.txtDissertação de Mestrado - PIPGEs.pdf.txtExtracted texttext/plain88315https://repositorio.ufscar.br/bitstreams/b9b1fb0e-f836-4c71-a4a8-c4c8a25806b6/download23d1c45aec2adf8a7b5a4a028d658432MD53falseAnonymousREADTHUMBNAILDissertação de Mestrado - PIPGEs.pdf.jpgDissertação de Mestrado - PIPGEs.pdf.jpgGenerated Thumbnailimage/jpeg6458https://repositorio.ufscar.br/bitstreams/f2fa4434-9f48-4324-a7d6-4447d4fb1a4b/download25974c821fdf7c6c606603bf101bc80fMD54falseAnonymousREAD20.500.14289/214992025-03-06 00:09:42.509http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/21499https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-03-06T03:09:42Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.none.fl_str_mv Amostragem aleatória e extensões para predição de eventos raros
dc.title.alternative.eng.fl_str_mv Random sampling and extensions for rare event prediction
title Amostragem aleatória e extensões para predição de eventos raros
spellingShingle Amostragem aleatória e extensões para predição de eventos raros
Santos, Richard Guilherme dos
Machine learning
Random sampling
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
Classificação
Alto desbalanceamento
title_short Amostragem aleatória e extensões para predição de eventos raros
title_full Amostragem aleatória e extensões para predição de eventos raros
title_fullStr Amostragem aleatória e extensões para predição de eventos raros
title_full_unstemmed Amostragem aleatória e extensões para predição de eventos raros
title_sort Amostragem aleatória e extensões para predição de eventos raros
author Santos, Richard Guilherme dos
author_facet Santos, Richard Guilherme dos
author_role author
dc.contributor.authorlattes.none.fl_str_mv http://lattes.cnpq.br/8150418256303019
dc.contributor.author.fl_str_mv Santos, Richard Guilherme dos
dc.contributor.advisor1.fl_str_mv Diniz, Carlos Alberto Ribeiro
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/3277371897783194
contributor_str_mv Diniz, Carlos Alberto Ribeiro
dc.subject.eng.fl_str_mv Machine learning
Random sampling
topic Machine learning
Random sampling
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
Classificação
Alto desbalanceamento
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
dc.subject.por.fl_str_mv Classificação
Alto desbalanceamento
description In classification problems, the prediction of rare events, that is, when the class of interest is underrepresented„ is often a difficult issue to solve. Classical versions of algorithms suffer several problems when being trained when the response variable is unbalanced, and certain metrics, such as accuracy, lose value when comparing different models. In this dissertation, we present different random sampling techniques and their applications in extensions of ensemble techniques that aim to solve this dilemma. Although extensions exist for most methods used in multi-class problems, we focus on their use for dichotomous problems. In addition, we performed simulations on databases seeking to observe advantages and shortcomings of the methods used, with emphasis on a credit concession database, where the imbalance is severe (below 5%)
publishDate 2024
dc.date.issued.fl_str_mv 2024-12-23
dc.date.accessioned.fl_str_mv 2025-03-05T20:28:11Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SANTOS, Richard Guilherme dos. Amostragem aleatória e extensões para predição de eventos raros. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21499.
dc.identifier.uri.fl_str_mv https://hdl.handle.net/20.500.14289/21499
identifier_str_mv SANTOS, Richard Guilherme dos. Amostragem aleatória e extensões para predição de eventos raros. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21499.
url https://hdl.handle.net/20.500.14289/21499
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/146113ca-c378-4dca-878f-7972002dc590/download
https://repositorio.ufscar.br/bitstreams/52387e5d-3cce-4670-b3dd-836c641927dc/download
https://repositorio.ufscar.br/bitstreams/b9b1fb0e-f836-4c71-a4a8-c4c8a25806b6/download
https://repositorio.ufscar.br/bitstreams/f2fa4434-9f48-4324-a7d6-4447d4fb1a4b/download
bitstream.checksum.fl_str_mv cb476724c7066dcb4a2ab155fa6bec4f
57e258e544f104f04afb1d5e5b4e53c0
23d1c45aec2adf8a7b5a4a028d658432
25974c821fdf7c6c606603bf101bc80f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688830583701504