Amostragem aleatória e extensões para predição de eventos raros
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/104/104131/tde-05122025-203313/ |
Resumo: | Em problemas de classificação, a predição de eventos raros, isto é, quando a classe de interesse está sub-representada, costuma ser uma questão de difícil resolução. Versões clássicas de algoritmos sofrem diversos problemas ao serem treinados quando a variável resposta é desbalanceada, além de certas métricas, como a acurácia, perderem valor na comparação de diferentes modelos. Nesta dissertação, apresentamos diferentes técnicas de random sampling e suas utilizações em extensões de técnicas ensemble que propõem resolver tal dilema. Embora existam extensões para a maioria dos métodos utilizados em problemas de multiclasse, focamos na sua utilização para problemas dicotômicos. Além disso, realizamos simulações em bases de dados buscando observar vantagens e lacunas dos métodos utilizados, com destaque em uma base de dados de concessão de crédito, onde o desbalanceamento é severo (abaixo de 5%). |
| id |
USP_6a4930a1745f64792d90219cbd75060b |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-05122025-203313 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Amostragem aleatória e extensões para predição de eventos rarosRandom sampling and extensions for rare event predictionClassificaçãoClassificationEventos rarosMachine learningMachine learningRandom samplingRandom samplingRare eventsEm problemas de classificação, a predição de eventos raros, isto é, quando a classe de interesse está sub-representada, costuma ser uma questão de difícil resolução. Versões clássicas de algoritmos sofrem diversos problemas ao serem treinados quando a variável resposta é desbalanceada, além de certas métricas, como a acurácia, perderem valor na comparação de diferentes modelos. Nesta dissertação, apresentamos diferentes técnicas de random sampling e suas utilizações em extensões de técnicas ensemble que propõem resolver tal dilema. Embora existam extensões para a maioria dos métodos utilizados em problemas de multiclasse, focamos na sua utilização para problemas dicotômicos. Além disso, realizamos simulações em bases de dados buscando observar vantagens e lacunas dos métodos utilizados, com destaque em uma base de dados de concessão de crédito, onde o desbalanceamento é severo (abaixo de 5%).In classification problems, the prediction of rare events, that is, when the class of interest is underrepresented is often a difficult issue to solve. Classical versions of algorithms suffer several problems when being trained when the response variable is unbalanced, and certain metrics, such as accuracy, lose value when comparing different models. In this dissertation, we present different random sampling techniques and their applications in extensions of ensemble techniques that aim to solve this dilemma. Although extensions exist for most methods used in multi-class problems, we focus on their use for dichotomous problems. In addition, we performed simulations on databases seeking to observe advantages and shortcomings of the methods used, with emphasis on a credit concession database, where the imbalance is severe (below 5%).Biblioteca Digitais de Teses e Dissertações da USPDiniz, Carlos Alberto RibeiroSantos, Richard Guilherme dos2024-12-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/104/104131/tde-05122025-203313/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-12-08T09:12:01Zoai:teses.usp.br:tde-05122025-203313Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-12-08T09:12:01Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Amostragem aleatória e extensões para predição de eventos raros Random sampling and extensions for rare event prediction |
| title |
Amostragem aleatória e extensões para predição de eventos raros |
| spellingShingle |
Amostragem aleatória e extensões para predição de eventos raros Santos, Richard Guilherme dos Classificação Classification Eventos raros Machine learning Machine learning Random sampling Random sampling Rare events |
| title_short |
Amostragem aleatória e extensões para predição de eventos raros |
| title_full |
Amostragem aleatória e extensões para predição de eventos raros |
| title_fullStr |
Amostragem aleatória e extensões para predição de eventos raros |
| title_full_unstemmed |
Amostragem aleatória e extensões para predição de eventos raros |
| title_sort |
Amostragem aleatória e extensões para predição de eventos raros |
| author |
Santos, Richard Guilherme dos |
| author_facet |
Santos, Richard Guilherme dos |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Diniz, Carlos Alberto Ribeiro |
| dc.contributor.author.fl_str_mv |
Santos, Richard Guilherme dos |
| dc.subject.por.fl_str_mv |
Classificação Classification Eventos raros Machine learning Machine learning Random sampling Random sampling Rare events |
| topic |
Classificação Classification Eventos raros Machine learning Machine learning Random sampling Random sampling Rare events |
| description |
Em problemas de classificação, a predição de eventos raros, isto é, quando a classe de interesse está sub-representada, costuma ser uma questão de difícil resolução. Versões clássicas de algoritmos sofrem diversos problemas ao serem treinados quando a variável resposta é desbalanceada, além de certas métricas, como a acurácia, perderem valor na comparação de diferentes modelos. Nesta dissertação, apresentamos diferentes técnicas de random sampling e suas utilizações em extensões de técnicas ensemble que propõem resolver tal dilema. Embora existam extensões para a maioria dos métodos utilizados em problemas de multiclasse, focamos na sua utilização para problemas dicotômicos. Além disso, realizamos simulações em bases de dados buscando observar vantagens e lacunas dos métodos utilizados, com destaque em uma base de dados de concessão de crédito, onde o desbalanceamento é severo (abaixo de 5%). |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-12-23 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/104/104131/tde-05122025-203313/ |
| url |
https://www.teses.usp.br/teses/disponiveis/104/104131/tde-05122025-203313/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1865492188956196864 |