Aplicações de métodos de seleção de variáveis em modelos de regressão

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Duarte, Alice Silva lattes
Orientador(a): Oliveira, Izabela Regina Cardoso de
Banca de defesa: Ferreira, Daniel Furtado, Pereira, Gustavo Henrique de Araujo
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Lavras
Programa de Pós-Graduação: Programa de Pós-graduação em Estatística e Experimentação Agropecuária
Departamento: Departamento de Estatística
País: brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufla.br/handle/1/55736
Resumo: Modelos de regressão são técnicas utilizadas para estabelecer relação entre uma variável resposta e uma ou mais variáveis explicativas. Com o avanço tecnológico, o volume e a dimensão dos dados analisados pode ser cada vez maior. Enquanto, por um lado, o grande número de variáveis pode aumentar a capacidade preditiva do modelo, por outro muitas dessas variáveis podem contribuir pouco e gerar um alto custo computacional, fazendo-se necessário a seleção de variáveis e busca por aquelas que têm maior impacto no modelo. O objetivo deste trabalho foi avaliar o uso de métodos de seleção de variáveis em dois estudos de caso. O primeiro trata-se de um estudo de avaliação de frequência e segurança alimentar de pré-escolares do município de Lavras, MG. As respostas analisadas nessa primeira etapa são dadosde categorias da Escala Brasileira de Insegurança Alimentar (EBIA) e do Questionário de Frequência Alimentar (QFA), analisados por modelos logísticos. A amostra utilizada envolve dados de 581 pré-escolares caracterizados por cerca de 50 variáveis, de diferentes tipos. Foram considerados os métodos Stepwise, Lasso, o Purposeful Selection of Covariates (PSV) e Random Forest para seleção de variáveis. Posteriormente foram obtidos os modelos logísticos com as variáveis selecionadas por estes métodos. Os modelos foram avaliados em termos de AIC. Dentre os métodos avaliados o que produziu o modelo com melhor desempenho foi oStepwise. A segunda aplicação envolveu um cenário de dados de alta dimensão, obtidos com a utilização de NIRS (Near InfraredSpectroscopy) em um problema de predição de consumo alimentar, a partir de fezes de vacas leiteiras. Foram considerados os métodos Stepwise, lasso eRandom Forest para seleção de variáveis. O lasso apresentou bom desempenho no estudo de validação cruzada. No entanto, esse estudo se limita a utilização dos métodos de forma independente, já que outros autores obtiveram bons resultados aplicando mais de um método simultaneamente. As contribuições deste estudo de caso estão na comparação entre lasso e Random Forest, usados separadamente para seleção de variáveis em NIRS e a comparação entre diferentes tipos de validações para os modelos obtidos com o uso do lasso.
id UFLA_8be4e76f58a2d57c9bb417a092fa9b59
oai_identifier_str oai:repositorio.ufla.br:1/55736
network_acronym_str UFLA
network_name_str Repositório Institucional da UFLA
repository_id_str
spelling 2023-01-06T12:03:31Z2023-01-06T12:03:31Z2023-01-052022-09-22DUARTE, A. S. Aplicações de métodos de seleção de variáveis em modelos de regressão. 2022. 70 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária)–Universidade Federal de Lavras, Lavras, 2022.https://repositorio.ufla.br/handle/1/55736Modelos de regressão são técnicas utilizadas para estabelecer relação entre uma variável resposta e uma ou mais variáveis explicativas. Com o avanço tecnológico, o volume e a dimensão dos dados analisados pode ser cada vez maior. Enquanto, por um lado, o grande número de variáveis pode aumentar a capacidade preditiva do modelo, por outro muitas dessas variáveis podem contribuir pouco e gerar um alto custo computacional, fazendo-se necessário a seleção de variáveis e busca por aquelas que têm maior impacto no modelo. O objetivo deste trabalho foi avaliar o uso de métodos de seleção de variáveis em dois estudos de caso. O primeiro trata-se de um estudo de avaliação de frequência e segurança alimentar de pré-escolares do município de Lavras, MG. As respostas analisadas nessa primeira etapa são dadosde categorias da Escala Brasileira de Insegurança Alimentar (EBIA) e do Questionário de Frequência Alimentar (QFA), analisados por modelos logísticos. A amostra utilizada envolve dados de 581 pré-escolares caracterizados por cerca de 50 variáveis, de diferentes tipos. Foram considerados os métodos Stepwise, Lasso, o Purposeful Selection of Covariates (PSV) e Random Forest para seleção de variáveis. Posteriormente foram obtidos os modelos logísticos com as variáveis selecionadas por estes métodos. Os modelos foram avaliados em termos de AIC. Dentre os métodos avaliados o que produziu o modelo com melhor desempenho foi oStepwise. A segunda aplicação envolveu um cenário de dados de alta dimensão, obtidos com a utilização de NIRS (Near InfraredSpectroscopy) em um problema de predição de consumo alimentar, a partir de fezes de vacas leiteiras. Foram considerados os métodos Stepwise, lasso eRandom Forest para seleção de variáveis. O lasso apresentou bom desempenho no estudo de validação cruzada. No entanto, esse estudo se limita a utilização dos métodos de forma independente, já que outros autores obtiveram bons resultados aplicando mais de um método simultaneamente. As contribuições deste estudo de caso estão na comparação entre lasso e Random Forest, usados separadamente para seleção de variáveis em NIRS e a comparação entre diferentes tipos de validações para os modelos obtidos com o uso do lasso.Regression models are appliedtostudy a cause/effectrelationshipbetween a response variable and oneor more explanatory variables. Withtechnologicaladvances, the volume and dimension of theanalyzed data canbeincreasing. Whilethelargenumber of variables canincreasethepredictivecapacity of the model many of them variables cancontributelittle and generate a high computational cost. Then it maybenecessarytoselect variables and search for thosethathavethegreatestimpact in the model. In thisworkweevaluatethe use of variable selection methods in two case studies. The firstonewascarried out toevaluatethefrequency and food security of preschoolers in thecity of Lavras, MG. The responses analyzed in thisfirststage are data fromcategories of theBrazilianScale of Food Insecurity (EBIA) and the Food Frequency Questionnaire (FFQ), analyzedthroughlogistic models. Data werecollectedfrom 581 preschoolers and refertoabout 50 variables of differenttypes. The methods Stepwise, Lasso, the Purposeful Selection of Covariates (PSV) and Random Forest wereconsidered for the selection of variables. Subsequently, thelogistic models wereobtainedwiththe variables selectedbythesemethods. The models wereevaluated in terms of AIC. Amongtheevaluatedmethods, theonethatproducedthebestperforming model was Stepwise. The secondapplicationinvolved a high-dimensional data scenario, obtainedwiththe use of NIRS (Near infraredspectroscopy) in a problem of predicting food consumption, fromfeces of dairycows. The methods Stepwise, lasso and Random Forest wereconsidered for the selection of variables. Lasso performedwell in thecross-validationstudy. However, thisstudyislimitedtothe use of themethodsindependently. Other authorsobtainedgoodresultsapplying more thanonemethodsimultaneously. The contributions of this case study are thecomparisonamong lasso and Random Forest, usedseparately for the selection of variables in NIRS and thecomparisonbetweendifferenttypes of validations for the models obtainedusing lasso.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Universidade Federal de LavrasPrograma de Pós-graduação em Estatística e Experimentação AgropecuáriaUFLAbrasilDepartamento de EstatísticaRegressão e CorrelaçãoAlta dimensionalidadeImportância de variáveisLassoFloresta aleatóriaRegressão logísticaHigh dimensionalityVariables importanceRandom forestLogistic regressionStepwiseAplicações de métodos de seleção de variáveis em modelos de regressãoApplications of variable selection methods in regression modelsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisOliveira, Izabela Regina Cardoso deLima, Renato Ribeiro deFerreira, Daniel FurtadoPereira, Gustavo Henrique de Araujohttps://lattes.cnpq.br/4313284650448866Duarte, Alice Silvainfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFLAinstname:Universidade Federal de Lavras (UFLA)instacron:UFLAORIGINALDISSERTAÇÃO_Aplicações de métodos de seleção de variáveis em modelos de regressão.pdfDISSERTAÇÃO_Aplicações de métodos de seleção de variáveis em modelos de regressão.pdfapplication/pdf1045961https://repositorio.ufla.br/bitstreams/a093b2e9-d253-4918-9bb3-51cb532741f5/download36db4032de87516f665f31bd995faac5MD51trueAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-8953https://repositorio.ufla.br/bitstreams/49fb478c-a424-4350-8d4e-9bd941090ffa/download760884c1e72224de569e74f79eb87ce3MD52falseAnonymousREADTEXTDISSERTAÇÃO_Aplicações de métodos de seleção de variáveis em modelos de regressão.pdf.txtDISSERTAÇÃO_Aplicações de métodos de seleção de variáveis em modelos de regressão.pdf.txtExtracted texttext/plain103499https://repositorio.ufla.br/bitstreams/fdf30665-71c3-427b-89fd-08228a33e2a2/downloadecbaa2fbc1c8c28f3356afaea2c1caadMD53falseAnonymousREADTHUMBNAILDISSERTAÇÃO_Aplicações de métodos de seleção de variáveis em modelos de regressão.pdf.jpgDISSERTAÇÃO_Aplicações de métodos de seleção de variáveis em modelos de regressão.pdf.jpgGenerated Thumbnailimage/jpeg2913https://repositorio.ufla.br/bitstreams/0289c3e9-ddfb-45e9-a72d-3ff434d39c91/downloadae0f41f6a84da7f3a234501852f6aa38MD54falseAnonymousREAD1/557362025-08-05 17:12:33.7open.accessoai:repositorio.ufla.br:1/55736https://repositorio.ufla.brRepositório InstitucionalPUBhttps://repositorio.ufla.br/server/oai/requestnivaldo@ufla.br || repositorio.biblioteca@ufla.bropendoar:2025-08-05T20:12:33Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)falseREVDTEFSQcOHw4NPIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCk8gcmVmZXJpZG8gYXV0b3I6CmEpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUKZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4KRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50bwpsaGUgw6kgcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UKZW50aWRhZGUuCmIpIFNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCBuw6NvIGRldMOpbSBvcwpkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGF1dG9yaXphw6fDo28gZG8gZGV0ZW50b3IgZG9zCmRpcmVpdG9zIGRlIGF1dG9yIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgTGF2cmFzIG9zCmRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MKZGlyZWl0b3Mgc8OjbyBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbwpubyB0ZXh0byBvdSBjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLiBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqQpiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbyBwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUKbsOjbyBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIExhdnJhcywgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIKb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgo=
dc.title.pt_BR.fl_str_mv Aplicações de métodos de seleção de variáveis em modelos de regressão
dc.title.alternative.pt_BR.fl_str_mv Applications of variable selection methods in regression models
title Aplicações de métodos de seleção de variáveis em modelos de regressão
spellingShingle Aplicações de métodos de seleção de variáveis em modelos de regressão
Duarte, Alice Silva
Regressão e Correlação
Alta dimensionalidade
Importância de variáveis
Lasso
Floresta aleatória
Regressão logística
High dimensionality
Variables importance
Random forest
Logistic regression
Stepwise
title_short Aplicações de métodos de seleção de variáveis em modelos de regressão
title_full Aplicações de métodos de seleção de variáveis em modelos de regressão
title_fullStr Aplicações de métodos de seleção de variáveis em modelos de regressão
title_full_unstemmed Aplicações de métodos de seleção de variáveis em modelos de regressão
title_sort Aplicações de métodos de seleção de variáveis em modelos de regressão
author Duarte, Alice Silva
author_facet Duarte, Alice Silva
author_role author
dc.contributor.advisor1.fl_str_mv Oliveira, Izabela Regina Cardoso de
dc.contributor.advisor-co1.fl_str_mv Lima, Renato Ribeiro de
dc.contributor.referee1.fl_str_mv Ferreira, Daniel Furtado
dc.contributor.referee2.fl_str_mv Pereira, Gustavo Henrique de Araujo
dc.contributor.authorLattes.fl_str_mv https://lattes.cnpq.br/4313284650448866
dc.contributor.author.fl_str_mv Duarte, Alice Silva
contributor_str_mv Oliveira, Izabela Regina Cardoso de
Lima, Renato Ribeiro de
Ferreira, Daniel Furtado
Pereira, Gustavo Henrique de Araujo
dc.subject.cnpq.fl_str_mv Regressão e Correlação
topic Regressão e Correlação
Alta dimensionalidade
Importância de variáveis
Lasso
Floresta aleatória
Regressão logística
High dimensionality
Variables importance
Random forest
Logistic regression
Stepwise
dc.subject.por.fl_str_mv Alta dimensionalidade
Importância de variáveis
Lasso
Floresta aleatória
Regressão logística
High dimensionality
Variables importance
Random forest
Logistic regression
Stepwise
description Modelos de regressão são técnicas utilizadas para estabelecer relação entre uma variável resposta e uma ou mais variáveis explicativas. Com o avanço tecnológico, o volume e a dimensão dos dados analisados pode ser cada vez maior. Enquanto, por um lado, o grande número de variáveis pode aumentar a capacidade preditiva do modelo, por outro muitas dessas variáveis podem contribuir pouco e gerar um alto custo computacional, fazendo-se necessário a seleção de variáveis e busca por aquelas que têm maior impacto no modelo. O objetivo deste trabalho foi avaliar o uso de métodos de seleção de variáveis em dois estudos de caso. O primeiro trata-se de um estudo de avaliação de frequência e segurança alimentar de pré-escolares do município de Lavras, MG. As respostas analisadas nessa primeira etapa são dadosde categorias da Escala Brasileira de Insegurança Alimentar (EBIA) e do Questionário de Frequência Alimentar (QFA), analisados por modelos logísticos. A amostra utilizada envolve dados de 581 pré-escolares caracterizados por cerca de 50 variáveis, de diferentes tipos. Foram considerados os métodos Stepwise, Lasso, o Purposeful Selection of Covariates (PSV) e Random Forest para seleção de variáveis. Posteriormente foram obtidos os modelos logísticos com as variáveis selecionadas por estes métodos. Os modelos foram avaliados em termos de AIC. Dentre os métodos avaliados o que produziu o modelo com melhor desempenho foi oStepwise. A segunda aplicação envolveu um cenário de dados de alta dimensão, obtidos com a utilização de NIRS (Near InfraredSpectroscopy) em um problema de predição de consumo alimentar, a partir de fezes de vacas leiteiras. Foram considerados os métodos Stepwise, lasso eRandom Forest para seleção de variáveis. O lasso apresentou bom desempenho no estudo de validação cruzada. No entanto, esse estudo se limita a utilização dos métodos de forma independente, já que outros autores obtiveram bons resultados aplicando mais de um método simultaneamente. As contribuições deste estudo de caso estão na comparação entre lasso e Random Forest, usados separadamente para seleção de variáveis em NIRS e a comparação entre diferentes tipos de validações para os modelos obtidos com o uso do lasso.
publishDate 2022
dc.date.submitted.none.fl_str_mv 2022-09-22
dc.date.accessioned.fl_str_mv 2023-01-06T12:03:31Z
dc.date.available.fl_str_mv 2023-01-06T12:03:31Z
dc.date.issued.fl_str_mv 2023-01-05
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv DUARTE, A. S. Aplicações de métodos de seleção de variáveis em modelos de regressão. 2022. 70 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária)–Universidade Federal de Lavras, Lavras, 2022.
dc.identifier.uri.fl_str_mv https://repositorio.ufla.br/handle/1/55736
identifier_str_mv DUARTE, A. S. Aplicações de métodos de seleção de variáveis em modelos de regressão. 2022. 70 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária)–Universidade Federal de Lavras, Lavras, 2022.
url https://repositorio.ufla.br/handle/1/55736
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Lavras
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Estatística e Experimentação Agropecuária
dc.publisher.initials.fl_str_mv UFLA
dc.publisher.country.fl_str_mv brasil
dc.publisher.department.fl_str_mv Departamento de Estatística
publisher.none.fl_str_mv Universidade Federal de Lavras
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFLA
instname:Universidade Federal de Lavras (UFLA)
instacron:UFLA
instname_str Universidade Federal de Lavras (UFLA)
instacron_str UFLA
institution UFLA
reponame_str Repositório Institucional da UFLA
collection Repositório Institucional da UFLA
bitstream.url.fl_str_mv https://repositorio.ufla.br/bitstreams/a093b2e9-d253-4918-9bb3-51cb532741f5/download
https://repositorio.ufla.br/bitstreams/49fb478c-a424-4350-8d4e-9bd941090ffa/download
https://repositorio.ufla.br/bitstreams/fdf30665-71c3-427b-89fd-08228a33e2a2/download
https://repositorio.ufla.br/bitstreams/0289c3e9-ddfb-45e9-a72d-3ff434d39c91/download
bitstream.checksum.fl_str_mv 36db4032de87516f665f31bd995faac5
760884c1e72224de569e74f79eb87ce3
ecbaa2fbc1c8c28f3356afaea2c1caad
ae0f41f6a84da7f3a234501852f6aa38
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)
repository.mail.fl_str_mv nivaldo@ufla.br || repositorio.biblioteca@ufla.br
_version_ 1854947745575469056