Amostragem aleatória e extensões para predição de eventos raros
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de São Carlos
Câmpus São Carlos |
| Programa de Pós-Graduação: |
Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://hdl.handle.net/20.500.14289/21499 |
Resumo: | In classification problems, the prediction of rare events, that is, when the class of interest is underrepresented„ is often a difficult issue to solve. Classical versions of algorithms suffer several problems when being trained when the response variable is unbalanced, and certain metrics, such as accuracy, lose value when comparing different models. In this dissertation, we present different random sampling techniques and their applications in extensions of ensemble techniques that aim to solve this dilemma. Although extensions exist for most methods used in multi-class problems, we focus on their use for dichotomous problems. In addition, we performed simulations on databases seeking to observe advantages and shortcomings of the methods used, with emphasis on a credit concession database, where the imbalance is severe (below 5%) |
| id |
SCAR_b3728682e226686835cf66242f9d1791 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/21499 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Santos, Richard Guilherme dosDiniz, Carlos Alberto Ribeirohttp://lattes.cnpq.br/3277371897783194http://lattes.cnpq.br/81504182563030192025-03-05T20:28:11Z2024-12-23SANTOS, Richard Guilherme dos. Amostragem aleatória e extensões para predição de eventos raros. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21499.https://hdl.handle.net/20.500.14289/21499In classification problems, the prediction of rare events, that is, when the class of interest is underrepresented„ is often a difficult issue to solve. Classical versions of algorithms suffer several problems when being trained when the response variable is unbalanced, and certain metrics, such as accuracy, lose value when comparing different models. In this dissertation, we present different random sampling techniques and their applications in extensions of ensemble techniques that aim to solve this dilemma. Although extensions exist for most methods used in multi-class problems, we focus on their use for dichotomous problems. In addition, we performed simulations on databases seeking to observe advantages and shortcomings of the methods used, with emphasis on a credit concession database, where the imbalance is severe (below 5%)Em problemas de classificação, a predição de eventos raros, isto é, quando a classe de interesse está sub-representada, costuma ser uma questão de difícil resolução. Versões clássicas de algoritmos sofrem diversos problemas ao serem treinados quando a variável resposta é desbalanceada, além de certas métricas, como a acurácia, perderem valor na comparação de diferentes modelos. Nesta dissertação, apresentamos diferentes técnicas de random sampling e suas utilizações em extensões de técnicas ensemble que propõem resolver tal dilema. Embora existam extensões para a maioria dos métodos utilizados em problemas de multiclasse, focamos na sua utilização para problemas dicotômicos. Além disso, realizamos simulações em bases de dados buscando observar vantagens e lacunas dos métodos utilizados, com destaque em uma base de dados de concessão de crédito, onde o desbalanceamento é severo (abaixo de 5%)Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)porUniversidade Federal de São CarlosCâmpus São CarlosPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessMachine learningRandom samplingCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOSClassificaçãoAlto desbalanceamentoAmostragem aleatória e extensões para predição de eventos rarosRandom sampling and extensions for rare event predictioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDissertação de Mestrado - PIPGEs.pdfDissertação de Mestrado - PIPGEs.pdfapplication/pdf1017554https://repositorio.ufscar.br/bitstreams/146113ca-c378-4dca-878f-7972002dc590/downloadcb476724c7066dcb4a2ab155fa6bec4fMD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8905https://repositorio.ufscar.br/bitstreams/52387e5d-3cce-4670-b3dd-836c641927dc/download57e258e544f104f04afb1d5e5b4e53c0MD52falseAnonymousREADTEXTDissertação de Mestrado - PIPGEs.pdf.txtDissertação de Mestrado - PIPGEs.pdf.txtExtracted texttext/plain88315https://repositorio.ufscar.br/bitstreams/b9b1fb0e-f836-4c71-a4a8-c4c8a25806b6/download23d1c45aec2adf8a7b5a4a028d658432MD53falseAnonymousREADTHUMBNAILDissertação de Mestrado - PIPGEs.pdf.jpgDissertação de Mestrado - PIPGEs.pdf.jpgGenerated Thumbnailimage/jpeg6458https://repositorio.ufscar.br/bitstreams/f2fa4434-9f48-4324-a7d6-4447d4fb1a4b/download25974c821fdf7c6c606603bf101bc80fMD54falseAnonymousREAD20.500.14289/214992025-03-06 00:09:42.509http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/21499https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-03-06T03:09:42Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.none.fl_str_mv |
Amostragem aleatória e extensões para predição de eventos raros |
| dc.title.alternative.eng.fl_str_mv |
Random sampling and extensions for rare event prediction |
| title |
Amostragem aleatória e extensões para predição de eventos raros |
| spellingShingle |
Amostragem aleatória e extensões para predição de eventos raros Santos, Richard Guilherme dos Machine learning Random sampling CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS Classificação Alto desbalanceamento |
| title_short |
Amostragem aleatória e extensões para predição de eventos raros |
| title_full |
Amostragem aleatória e extensões para predição de eventos raros |
| title_fullStr |
Amostragem aleatória e extensões para predição de eventos raros |
| title_full_unstemmed |
Amostragem aleatória e extensões para predição de eventos raros |
| title_sort |
Amostragem aleatória e extensões para predição de eventos raros |
| author |
Santos, Richard Guilherme dos |
| author_facet |
Santos, Richard Guilherme dos |
| author_role |
author |
| dc.contributor.authorlattes.none.fl_str_mv |
http://lattes.cnpq.br/8150418256303019 |
| dc.contributor.author.fl_str_mv |
Santos, Richard Guilherme dos |
| dc.contributor.advisor1.fl_str_mv |
Diniz, Carlos Alberto Ribeiro |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/3277371897783194 |
| contributor_str_mv |
Diniz, Carlos Alberto Ribeiro |
| dc.subject.eng.fl_str_mv |
Machine learning Random sampling |
| topic |
Machine learning Random sampling CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS Classificação Alto desbalanceamento |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS |
| dc.subject.por.fl_str_mv |
Classificação Alto desbalanceamento |
| description |
In classification problems, the prediction of rare events, that is, when the class of interest is underrepresented„ is often a difficult issue to solve. Classical versions of algorithms suffer several problems when being trained when the response variable is unbalanced, and certain metrics, such as accuracy, lose value when comparing different models. In this dissertation, we present different random sampling techniques and their applications in extensions of ensemble techniques that aim to solve this dilemma. Although extensions exist for most methods used in multi-class problems, we focus on their use for dichotomous problems. In addition, we performed simulations on databases seeking to observe advantages and shortcomings of the methods used, with emphasis on a credit concession database, where the imbalance is severe (below 5%) |
| publishDate |
2024 |
| dc.date.issued.fl_str_mv |
2024-12-23 |
| dc.date.accessioned.fl_str_mv |
2025-03-05T20:28:11Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
SANTOS, Richard Guilherme dos. Amostragem aleatória e extensões para predição de eventos raros. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21499. |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/20.500.14289/21499 |
| identifier_str_mv |
SANTOS, Richard Guilherme dos. Amostragem aleatória e extensões para predição de eventos raros. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21499. |
| url |
https://hdl.handle.net/20.500.14289/21499 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.publisher.program.fl_str_mv |
Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/146113ca-c378-4dca-878f-7972002dc590/download https://repositorio.ufscar.br/bitstreams/52387e5d-3cce-4670-b3dd-836c641927dc/download https://repositorio.ufscar.br/bitstreams/b9b1fb0e-f836-4c71-a4a8-c4c8a25806b6/download https://repositorio.ufscar.br/bitstreams/f2fa4434-9f48-4324-a7d6-4447d4fb1a4b/download |
| bitstream.checksum.fl_str_mv |
cb476724c7066dcb4a2ab155fa6bec4f 57e258e544f104f04afb1d5e5b4e53c0 23d1c45aec2adf8a7b5a4a028d658432 25974c821fdf7c6c606603bf101bc80f |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1851688830583701504 |