Testes de hipóteses para a seleção de modelos de aprendizado de máquina

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Giordani, Luiz Guilherme
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/55/55137/tde-28052025-150709/
Resumo: O processo de criação de um modelo de aprendizado de máquina é um estudo estatístico por natureza. As diferentes etapas do processo como o teste de diferentes modelos, a seleção de hiperparâmetros e de caractéristicas (traduzido do inglês features) produzem medidas de avaliação que quantificam a qualidade dos modelos auxiliando o cientista de dados a tomar decisões sobre o desenvolvimento do seu projeto. Embora esse processo esteja ligado à estatística, o que se observa tanto na indústria como na academia é esses experimentos utilizarem pouco das ferramentas dessa área da ciência. Isso é especialmente relevante considerando que a estatística, sendo a ciência da tomada de decisão sob incerteza, oferece métodos que incorporam a incerteza das medidas utilizadas na tomada de decisão, essa geralmente medida pela variância. Um exemplo desses métodos é o teste de hipóteses que no contexto de aprendizado de máquina visam aplicar a incerteza ao redor dos dados e dos próprios modelos no processo de seleção dos mesmos. Dito isso, o trabalho tem o objetivo de revisitar os principais testes de hipóteses já apresentados na literatura que possuem o objetivo de selecionar modelos de aprendizado de máquina, assim como explorar abordagens mais modernas, baseadas em Bootstrap e permutação. Após apresentados os testes, realizamos estudos de simulação para aferir a qualidade dos testes em retornar a decisão correta, ou seja, a de evitar erros do tipo I e do tipo II respectivamente.
id USP_b55a9c355582a2c166a2484389ca5c5f
oai_identifier_str oai:teses.usp.br:tde-28052025-150709
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Testes de hipóteses para a seleção de modelos de aprendizado de máquinaHypothesis tests for selecting machine learning modelsAprendizado de máquinaBootstrapBootstrapEstatísticaHypothesis TestsMachine LearningPermutaçãoPermutationStatisticsTeste de hipótesesO processo de criação de um modelo de aprendizado de máquina é um estudo estatístico por natureza. As diferentes etapas do processo como o teste de diferentes modelos, a seleção de hiperparâmetros e de caractéristicas (traduzido do inglês features) produzem medidas de avaliação que quantificam a qualidade dos modelos auxiliando o cientista de dados a tomar decisões sobre o desenvolvimento do seu projeto. Embora esse processo esteja ligado à estatística, o que se observa tanto na indústria como na academia é esses experimentos utilizarem pouco das ferramentas dessa área da ciência. Isso é especialmente relevante considerando que a estatística, sendo a ciência da tomada de decisão sob incerteza, oferece métodos que incorporam a incerteza das medidas utilizadas na tomada de decisão, essa geralmente medida pela variância. Um exemplo desses métodos é o teste de hipóteses que no contexto de aprendizado de máquina visam aplicar a incerteza ao redor dos dados e dos próprios modelos no processo de seleção dos mesmos. Dito isso, o trabalho tem o objetivo de revisitar os principais testes de hipóteses já apresentados na literatura que possuem o objetivo de selecionar modelos de aprendizado de máquina, assim como explorar abordagens mais modernas, baseadas em Bootstrap e permutação. Após apresentados os testes, realizamos estudos de simulação para aferir a qualidade dos testes em retornar a decisão correta, ou seja, a de evitar erros do tipo I e do tipo II respectivamente.A machine learning project is by nature a statistical analysis. The different stages of the project, such as, testing different models, the tuning of hyperparameters and the feature selection produce evaluation metrics that quantify the quality of the different models. Nevertheless, while this process is linked with statistics, what we observe both in scientific publications and in the industry is very few of these experiments using methods from statistics. However, it is well described in the literature methods from statistics that help in decision making under uncertainty, this usually measured by the variance. One of these methods are hypothesis tests, which for machine learning helps by measuring the uncertainty around the data and the model choice. Granted, we aim to revisit the principal hypothesis tests that help in the process of selecting a machine learning models. At the same time, we also explore more modern solutions based on the Bootstrap and permutation tests. After we introduce the tests, we perform simulation studies to assess their quality. Namely their capacity to return the correct decision, or in other words, avoid type I and type II errors.Biblioteca Digitais de Teses e Dissertações da USPPaiva Neto, AfonsoGiordani, Luiz Guilherme2025-03-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55137/tde-28052025-150709/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-05-28T18:14:02Zoai:teses.usp.br:tde-28052025-150709Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-05-28T18:14:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Testes de hipóteses para a seleção de modelos de aprendizado de máquina
Hypothesis tests for selecting machine learning models
title Testes de hipóteses para a seleção de modelos de aprendizado de máquina
spellingShingle Testes de hipóteses para a seleção de modelos de aprendizado de máquina
Giordani, Luiz Guilherme
Aprendizado de máquina
Bootstrap
Bootstrap
Estatística
Hypothesis Tests
Machine Learning
Permutação
Permutation
Statistics
Teste de hipóteses
title_short Testes de hipóteses para a seleção de modelos de aprendizado de máquina
title_full Testes de hipóteses para a seleção de modelos de aprendizado de máquina
title_fullStr Testes de hipóteses para a seleção de modelos de aprendizado de máquina
title_full_unstemmed Testes de hipóteses para a seleção de modelos de aprendizado de máquina
title_sort Testes de hipóteses para a seleção de modelos de aprendizado de máquina
author Giordani, Luiz Guilherme
author_facet Giordani, Luiz Guilherme
author_role author
dc.contributor.none.fl_str_mv Paiva Neto, Afonso
dc.contributor.author.fl_str_mv Giordani, Luiz Guilherme
dc.subject.por.fl_str_mv Aprendizado de máquina
Bootstrap
Bootstrap
Estatística
Hypothesis Tests
Machine Learning
Permutação
Permutation
Statistics
Teste de hipóteses
topic Aprendizado de máquina
Bootstrap
Bootstrap
Estatística
Hypothesis Tests
Machine Learning
Permutação
Permutation
Statistics
Teste de hipóteses
description O processo de criação de um modelo de aprendizado de máquina é um estudo estatístico por natureza. As diferentes etapas do processo como o teste de diferentes modelos, a seleção de hiperparâmetros e de caractéristicas (traduzido do inglês features) produzem medidas de avaliação que quantificam a qualidade dos modelos auxiliando o cientista de dados a tomar decisões sobre o desenvolvimento do seu projeto. Embora esse processo esteja ligado à estatística, o que se observa tanto na indústria como na academia é esses experimentos utilizarem pouco das ferramentas dessa área da ciência. Isso é especialmente relevante considerando que a estatística, sendo a ciência da tomada de decisão sob incerteza, oferece métodos que incorporam a incerteza das medidas utilizadas na tomada de decisão, essa geralmente medida pela variância. Um exemplo desses métodos é o teste de hipóteses que no contexto de aprendizado de máquina visam aplicar a incerteza ao redor dos dados e dos próprios modelos no processo de seleção dos mesmos. Dito isso, o trabalho tem o objetivo de revisitar os principais testes de hipóteses já apresentados na literatura que possuem o objetivo de selecionar modelos de aprendizado de máquina, assim como explorar abordagens mais modernas, baseadas em Bootstrap e permutação. Após apresentados os testes, realizamos estudos de simulação para aferir a qualidade dos testes em retornar a decisão correta, ou seja, a de evitar erros do tipo I e do tipo II respectivamente.
publishDate 2025
dc.date.none.fl_str_mv 2025-03-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55137/tde-28052025-150709/
url https://www.teses.usp.br/teses/disponiveis/55/55137/tde-28052025-150709/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1844786350091403264