Testes de hipóteses para a seleção de modelos de aprendizado de máquina
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/55/55137/tde-28052025-150709/ |
Resumo: | O processo de criação de um modelo de aprendizado de máquina é um estudo estatístico por natureza. As diferentes etapas do processo como o teste de diferentes modelos, a seleção de hiperparâmetros e de caractéristicas (traduzido do inglês features) produzem medidas de avaliação que quantificam a qualidade dos modelos auxiliando o cientista de dados a tomar decisões sobre o desenvolvimento do seu projeto. Embora esse processo esteja ligado à estatística, o que se observa tanto na indústria como na academia é esses experimentos utilizarem pouco das ferramentas dessa área da ciência. Isso é especialmente relevante considerando que a estatística, sendo a ciência da tomada de decisão sob incerteza, oferece métodos que incorporam a incerteza das medidas utilizadas na tomada de decisão, essa geralmente medida pela variância. Um exemplo desses métodos é o teste de hipóteses que no contexto de aprendizado de máquina visam aplicar a incerteza ao redor dos dados e dos próprios modelos no processo de seleção dos mesmos. Dito isso, o trabalho tem o objetivo de revisitar os principais testes de hipóteses já apresentados na literatura que possuem o objetivo de selecionar modelos de aprendizado de máquina, assim como explorar abordagens mais modernas, baseadas em Bootstrap e permutação. Após apresentados os testes, realizamos estudos de simulação para aferir a qualidade dos testes em retornar a decisão correta, ou seja, a de evitar erros do tipo I e do tipo II respectivamente. |
| id |
USP_b55a9c355582a2c166a2484389ca5c5f |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-28052025-150709 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Testes de hipóteses para a seleção de modelos de aprendizado de máquinaHypothesis tests for selecting machine learning modelsAprendizado de máquinaBootstrapBootstrapEstatísticaHypothesis TestsMachine LearningPermutaçãoPermutationStatisticsTeste de hipótesesO processo de criação de um modelo de aprendizado de máquina é um estudo estatístico por natureza. As diferentes etapas do processo como o teste de diferentes modelos, a seleção de hiperparâmetros e de caractéristicas (traduzido do inglês features) produzem medidas de avaliação que quantificam a qualidade dos modelos auxiliando o cientista de dados a tomar decisões sobre o desenvolvimento do seu projeto. Embora esse processo esteja ligado à estatística, o que se observa tanto na indústria como na academia é esses experimentos utilizarem pouco das ferramentas dessa área da ciência. Isso é especialmente relevante considerando que a estatística, sendo a ciência da tomada de decisão sob incerteza, oferece métodos que incorporam a incerteza das medidas utilizadas na tomada de decisão, essa geralmente medida pela variância. Um exemplo desses métodos é o teste de hipóteses que no contexto de aprendizado de máquina visam aplicar a incerteza ao redor dos dados e dos próprios modelos no processo de seleção dos mesmos. Dito isso, o trabalho tem o objetivo de revisitar os principais testes de hipóteses já apresentados na literatura que possuem o objetivo de selecionar modelos de aprendizado de máquina, assim como explorar abordagens mais modernas, baseadas em Bootstrap e permutação. Após apresentados os testes, realizamos estudos de simulação para aferir a qualidade dos testes em retornar a decisão correta, ou seja, a de evitar erros do tipo I e do tipo II respectivamente.A machine learning project is by nature a statistical analysis. The different stages of the project, such as, testing different models, the tuning of hyperparameters and the feature selection produce evaluation metrics that quantify the quality of the different models. Nevertheless, while this process is linked with statistics, what we observe both in scientific publications and in the industry is very few of these experiments using methods from statistics. However, it is well described in the literature methods from statistics that help in decision making under uncertainty, this usually measured by the variance. One of these methods are hypothesis tests, which for machine learning helps by measuring the uncertainty around the data and the model choice. Granted, we aim to revisit the principal hypothesis tests that help in the process of selecting a machine learning models. At the same time, we also explore more modern solutions based on the Bootstrap and permutation tests. After we introduce the tests, we perform simulation studies to assess their quality. Namely their capacity to return the correct decision, or in other words, avoid type I and type II errors.Biblioteca Digitais de Teses e Dissertações da USPPaiva Neto, AfonsoGiordani, Luiz Guilherme2025-03-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55137/tde-28052025-150709/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-05-28T18:14:02Zoai:teses.usp.br:tde-28052025-150709Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-05-28T18:14:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Testes de hipóteses para a seleção de modelos de aprendizado de máquina Hypothesis tests for selecting machine learning models |
| title |
Testes de hipóteses para a seleção de modelos de aprendizado de máquina |
| spellingShingle |
Testes de hipóteses para a seleção de modelos de aprendizado de máquina Giordani, Luiz Guilherme Aprendizado de máquina Bootstrap Bootstrap Estatística Hypothesis Tests Machine Learning Permutação Permutation Statistics Teste de hipóteses |
| title_short |
Testes de hipóteses para a seleção de modelos de aprendizado de máquina |
| title_full |
Testes de hipóteses para a seleção de modelos de aprendizado de máquina |
| title_fullStr |
Testes de hipóteses para a seleção de modelos de aprendizado de máquina |
| title_full_unstemmed |
Testes de hipóteses para a seleção de modelos de aprendizado de máquina |
| title_sort |
Testes de hipóteses para a seleção de modelos de aprendizado de máquina |
| author |
Giordani, Luiz Guilherme |
| author_facet |
Giordani, Luiz Guilherme |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Paiva Neto, Afonso |
| dc.contributor.author.fl_str_mv |
Giordani, Luiz Guilherme |
| dc.subject.por.fl_str_mv |
Aprendizado de máquina Bootstrap Bootstrap Estatística Hypothesis Tests Machine Learning Permutação Permutation Statistics Teste de hipóteses |
| topic |
Aprendizado de máquina Bootstrap Bootstrap Estatística Hypothesis Tests Machine Learning Permutação Permutation Statistics Teste de hipóteses |
| description |
O processo de criação de um modelo de aprendizado de máquina é um estudo estatístico por natureza. As diferentes etapas do processo como o teste de diferentes modelos, a seleção de hiperparâmetros e de caractéristicas (traduzido do inglês features) produzem medidas de avaliação que quantificam a qualidade dos modelos auxiliando o cientista de dados a tomar decisões sobre o desenvolvimento do seu projeto. Embora esse processo esteja ligado à estatística, o que se observa tanto na indústria como na academia é esses experimentos utilizarem pouco das ferramentas dessa área da ciência. Isso é especialmente relevante considerando que a estatística, sendo a ciência da tomada de decisão sob incerteza, oferece métodos que incorporam a incerteza das medidas utilizadas na tomada de decisão, essa geralmente medida pela variância. Um exemplo desses métodos é o teste de hipóteses que no contexto de aprendizado de máquina visam aplicar a incerteza ao redor dos dados e dos próprios modelos no processo de seleção dos mesmos. Dito isso, o trabalho tem o objetivo de revisitar os principais testes de hipóteses já apresentados na literatura que possuem o objetivo de selecionar modelos de aprendizado de máquina, assim como explorar abordagens mais modernas, baseadas em Bootstrap e permutação. Após apresentados os testes, realizamos estudos de simulação para aferir a qualidade dos testes em retornar a decisão correta, ou seja, a de evitar erros do tipo I e do tipo II respectivamente. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-03-13 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55137/tde-28052025-150709/ |
| url |
https://www.teses.usp.br/teses/disponiveis/55/55137/tde-28052025-150709/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1844786350091403264 |