Aplicações de métodos de seleção de variáveis em modelos de regressão
| Ano de defesa: | 2022 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | , |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de Lavras
|
| Programa de Pós-Graduação: |
Programa de Pós-graduação em Estatística e Experimentação Agropecuária
|
| Departamento: |
Departamento de Estatística
|
| País: |
brasil
|
| Palavras-chave em Português: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://repositorio.ufla.br/handle/1/55736 |
Resumo: | Modelos de regressão são técnicas utilizadas para estabelecer relação entre uma variável resposta e uma ou mais variáveis explicativas. Com o avanço tecnológico, o volume e a dimensão dos dados analisados pode ser cada vez maior. Enquanto, por um lado, o grande número de variáveis pode aumentar a capacidade preditiva do modelo, por outro muitas dessas variáveis podem contribuir pouco e gerar um alto custo computacional, fazendo-se necessário a seleção de variáveis e busca por aquelas que têm maior impacto no modelo. O objetivo deste trabalho foi avaliar o uso de métodos de seleção de variáveis em dois estudos de caso. O primeiro trata-se de um estudo de avaliação de frequência e segurança alimentar de pré-escolares do município de Lavras, MG. As respostas analisadas nessa primeira etapa são dadosde categorias da Escala Brasileira de Insegurança Alimentar (EBIA) e do Questionário de Frequência Alimentar (QFA), analisados por modelos logísticos. A amostra utilizada envolve dados de 581 pré-escolares caracterizados por cerca de 50 variáveis, de diferentes tipos. Foram considerados os métodos Stepwise, Lasso, o Purposeful Selection of Covariates (PSV) e Random Forest para seleção de variáveis. Posteriormente foram obtidos os modelos logísticos com as variáveis selecionadas por estes métodos. Os modelos foram avaliados em termos de AIC. Dentre os métodos avaliados o que produziu o modelo com melhor desempenho foi oStepwise. A segunda aplicação envolveu um cenário de dados de alta dimensão, obtidos com a utilização de NIRS (Near InfraredSpectroscopy) em um problema de predição de consumo alimentar, a partir de fezes de vacas leiteiras. Foram considerados os métodos Stepwise, lasso eRandom Forest para seleção de variáveis. O lasso apresentou bom desempenho no estudo de validação cruzada. No entanto, esse estudo se limita a utilização dos métodos de forma independente, já que outros autores obtiveram bons resultados aplicando mais de um método simultaneamente. As contribuições deste estudo de caso estão na comparação entre lasso e Random Forest, usados separadamente para seleção de variáveis em NIRS e a comparação entre diferentes tipos de validações para os modelos obtidos com o uso do lasso. |
| id |
UFLA_8be4e76f58a2d57c9bb417a092fa9b59 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufla.br:1/55736 |
| network_acronym_str |
UFLA |
| network_name_str |
Repositório Institucional da UFLA |
| repository_id_str |
|
| spelling |
2023-01-06T12:03:31Z2023-01-06T12:03:31Z2023-01-052022-09-22DUARTE, A. S. Aplicações de métodos de seleção de variáveis em modelos de regressão. 2022. 70 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária)–Universidade Federal de Lavras, Lavras, 2022.https://repositorio.ufla.br/handle/1/55736Modelos de regressão são técnicas utilizadas para estabelecer relação entre uma variável resposta e uma ou mais variáveis explicativas. Com o avanço tecnológico, o volume e a dimensão dos dados analisados pode ser cada vez maior. Enquanto, por um lado, o grande número de variáveis pode aumentar a capacidade preditiva do modelo, por outro muitas dessas variáveis podem contribuir pouco e gerar um alto custo computacional, fazendo-se necessário a seleção de variáveis e busca por aquelas que têm maior impacto no modelo. O objetivo deste trabalho foi avaliar o uso de métodos de seleção de variáveis em dois estudos de caso. O primeiro trata-se de um estudo de avaliação de frequência e segurança alimentar de pré-escolares do município de Lavras, MG. As respostas analisadas nessa primeira etapa são dadosde categorias da Escala Brasileira de Insegurança Alimentar (EBIA) e do Questionário de Frequência Alimentar (QFA), analisados por modelos logísticos. A amostra utilizada envolve dados de 581 pré-escolares caracterizados por cerca de 50 variáveis, de diferentes tipos. Foram considerados os métodos Stepwise, Lasso, o Purposeful Selection of Covariates (PSV) e Random Forest para seleção de variáveis. Posteriormente foram obtidos os modelos logísticos com as variáveis selecionadas por estes métodos. Os modelos foram avaliados em termos de AIC. Dentre os métodos avaliados o que produziu o modelo com melhor desempenho foi oStepwise. A segunda aplicação envolveu um cenário de dados de alta dimensão, obtidos com a utilização de NIRS (Near InfraredSpectroscopy) em um problema de predição de consumo alimentar, a partir de fezes de vacas leiteiras. Foram considerados os métodos Stepwise, lasso eRandom Forest para seleção de variáveis. O lasso apresentou bom desempenho no estudo de validação cruzada. No entanto, esse estudo se limita a utilização dos métodos de forma independente, já que outros autores obtiveram bons resultados aplicando mais de um método simultaneamente. As contribuições deste estudo de caso estão na comparação entre lasso e Random Forest, usados separadamente para seleção de variáveis em NIRS e a comparação entre diferentes tipos de validações para os modelos obtidos com o uso do lasso.Regression models are appliedtostudy a cause/effectrelationshipbetween a response variable and oneor more explanatory variables. Withtechnologicaladvances, the volume and dimension of theanalyzed data canbeincreasing. Whilethelargenumber of variables canincreasethepredictivecapacity of the model many of them variables cancontributelittle and generate a high computational cost. Then it maybenecessarytoselect variables and search for thosethathavethegreatestimpact in the model. In thisworkweevaluatethe use of variable selection methods in two case studies. The firstonewascarried out toevaluatethefrequency and food security of preschoolers in thecity of Lavras, MG. The responses analyzed in thisfirststage are data fromcategories of theBrazilianScale of Food Insecurity (EBIA) and the Food Frequency Questionnaire (FFQ), analyzedthroughlogistic models. Data werecollectedfrom 581 preschoolers and refertoabout 50 variables of differenttypes. The methods Stepwise, Lasso, the Purposeful Selection of Covariates (PSV) and Random Forest wereconsidered for the selection of variables. Subsequently, thelogistic models wereobtainedwiththe variables selectedbythesemethods. The models wereevaluated in terms of AIC. Amongtheevaluatedmethods, theonethatproducedthebestperforming model was Stepwise. The secondapplicationinvolved a high-dimensional data scenario, obtainedwiththe use of NIRS (Near infraredspectroscopy) in a problem of predicting food consumption, fromfeces of dairycows. The methods Stepwise, lasso and Random Forest wereconsidered for the selection of variables. Lasso performedwell in thecross-validationstudy. However, thisstudyislimitedtothe use of themethodsindependently. Other authorsobtainedgoodresultsapplying more thanonemethodsimultaneously. The contributions of this case study are thecomparisonamong lasso and Random Forest, usedseparately for the selection of variables in NIRS and thecomparisonbetweendifferenttypes of validations for the models obtainedusing lasso.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Universidade Federal de LavrasPrograma de Pós-graduação em Estatística e Experimentação AgropecuáriaUFLAbrasilDepartamento de EstatísticaRegressão e CorrelaçãoAlta dimensionalidadeImportância de variáveisLassoFloresta aleatóriaRegressão logísticaHigh dimensionalityVariables importanceRandom forestLogistic regressionStepwiseAplicações de métodos de seleção de variáveis em modelos de regressãoApplications of variable selection methods in regression modelsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisOliveira, Izabela Regina Cardoso deLima, Renato Ribeiro deFerreira, Daniel FurtadoPereira, Gustavo Henrique de Araujohttps://lattes.cnpq.br/4313284650448866Duarte, Alice Silvainfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFLAinstname:Universidade Federal de Lavras (UFLA)instacron:UFLAORIGINALDISSERTAÇÃO_Aplicações de métodos de seleção de variáveis em modelos de regressão.pdfDISSERTAÇÃO_Aplicações de métodos de seleção de variáveis em modelos de regressão.pdfapplication/pdf1045961https://repositorio.ufla.br/bitstreams/a093b2e9-d253-4918-9bb3-51cb532741f5/download36db4032de87516f665f31bd995faac5MD51trueAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-8953https://repositorio.ufla.br/bitstreams/49fb478c-a424-4350-8d4e-9bd941090ffa/download760884c1e72224de569e74f79eb87ce3MD52falseAnonymousREADTEXTDISSERTAÇÃO_Aplicações de métodos de seleção de variáveis em modelos de regressão.pdf.txtDISSERTAÇÃO_Aplicações de métodos de seleção de variáveis em modelos de regressão.pdf.txtExtracted texttext/plain103499https://repositorio.ufla.br/bitstreams/fdf30665-71c3-427b-89fd-08228a33e2a2/downloadecbaa2fbc1c8c28f3356afaea2c1caadMD53falseAnonymousREADTHUMBNAILDISSERTAÇÃO_Aplicações de métodos de seleção de variáveis em modelos de regressão.pdf.jpgDISSERTAÇÃO_Aplicações de métodos de seleção de variáveis em modelos de regressão.pdf.jpgGenerated Thumbnailimage/jpeg2913https://repositorio.ufla.br/bitstreams/0289c3e9-ddfb-45e9-a72d-3ff434d39c91/downloadae0f41f6a84da7f3a234501852f6aa38MD54falseAnonymousREAD1/557362025-08-05 17:12:33.7open.accessoai:repositorio.ufla.br:1/55736https://repositorio.ufla.brRepositório InstitucionalPUBhttps://repositorio.ufla.br/server/oai/requestnivaldo@ufla.br || repositorio.biblioteca@ufla.bropendoar:2025-08-05T20:12:33Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)falseREVDTEFSQcOHw4NPIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCk8gcmVmZXJpZG8gYXV0b3I6CmEpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUKZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4KRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50bwpsaGUgw6kgcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UKZW50aWRhZGUuCmIpIFNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCBuw6NvIGRldMOpbSBvcwpkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGF1dG9yaXphw6fDo28gZG8gZGV0ZW50b3IgZG9zCmRpcmVpdG9zIGRlIGF1dG9yIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgTGF2cmFzIG9zCmRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MKZGlyZWl0b3Mgc8OjbyBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbwpubyB0ZXh0byBvdSBjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLiBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqQpiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbyBwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUKbsOjbyBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIExhdnJhcywgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIKb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgo= |
| dc.title.pt_BR.fl_str_mv |
Aplicações de métodos de seleção de variáveis em modelos de regressão |
| dc.title.alternative.pt_BR.fl_str_mv |
Applications of variable selection methods in regression models |
| title |
Aplicações de métodos de seleção de variáveis em modelos de regressão |
| spellingShingle |
Aplicações de métodos de seleção de variáveis em modelos de regressão Duarte, Alice Silva Regressão e Correlação Alta dimensionalidade Importância de variáveis Lasso Floresta aleatória Regressão logística High dimensionality Variables importance Random forest Logistic regression Stepwise |
| title_short |
Aplicações de métodos de seleção de variáveis em modelos de regressão |
| title_full |
Aplicações de métodos de seleção de variáveis em modelos de regressão |
| title_fullStr |
Aplicações de métodos de seleção de variáveis em modelos de regressão |
| title_full_unstemmed |
Aplicações de métodos de seleção de variáveis em modelos de regressão |
| title_sort |
Aplicações de métodos de seleção de variáveis em modelos de regressão |
| author |
Duarte, Alice Silva |
| author_facet |
Duarte, Alice Silva |
| author_role |
author |
| dc.contributor.advisor1.fl_str_mv |
Oliveira, Izabela Regina Cardoso de |
| dc.contributor.advisor-co1.fl_str_mv |
Lima, Renato Ribeiro de |
| dc.contributor.referee1.fl_str_mv |
Ferreira, Daniel Furtado |
| dc.contributor.referee2.fl_str_mv |
Pereira, Gustavo Henrique de Araujo |
| dc.contributor.authorLattes.fl_str_mv |
https://lattes.cnpq.br/4313284650448866 |
| dc.contributor.author.fl_str_mv |
Duarte, Alice Silva |
| contributor_str_mv |
Oliveira, Izabela Regina Cardoso de Lima, Renato Ribeiro de Ferreira, Daniel Furtado Pereira, Gustavo Henrique de Araujo |
| dc.subject.cnpq.fl_str_mv |
Regressão e Correlação |
| topic |
Regressão e Correlação Alta dimensionalidade Importância de variáveis Lasso Floresta aleatória Regressão logística High dimensionality Variables importance Random forest Logistic regression Stepwise |
| dc.subject.por.fl_str_mv |
Alta dimensionalidade Importância de variáveis Lasso Floresta aleatória Regressão logística High dimensionality Variables importance Random forest Logistic regression Stepwise |
| description |
Modelos de regressão são técnicas utilizadas para estabelecer relação entre uma variável resposta e uma ou mais variáveis explicativas. Com o avanço tecnológico, o volume e a dimensão dos dados analisados pode ser cada vez maior. Enquanto, por um lado, o grande número de variáveis pode aumentar a capacidade preditiva do modelo, por outro muitas dessas variáveis podem contribuir pouco e gerar um alto custo computacional, fazendo-se necessário a seleção de variáveis e busca por aquelas que têm maior impacto no modelo. O objetivo deste trabalho foi avaliar o uso de métodos de seleção de variáveis em dois estudos de caso. O primeiro trata-se de um estudo de avaliação de frequência e segurança alimentar de pré-escolares do município de Lavras, MG. As respostas analisadas nessa primeira etapa são dadosde categorias da Escala Brasileira de Insegurança Alimentar (EBIA) e do Questionário de Frequência Alimentar (QFA), analisados por modelos logísticos. A amostra utilizada envolve dados de 581 pré-escolares caracterizados por cerca de 50 variáveis, de diferentes tipos. Foram considerados os métodos Stepwise, Lasso, o Purposeful Selection of Covariates (PSV) e Random Forest para seleção de variáveis. Posteriormente foram obtidos os modelos logísticos com as variáveis selecionadas por estes métodos. Os modelos foram avaliados em termos de AIC. Dentre os métodos avaliados o que produziu o modelo com melhor desempenho foi oStepwise. A segunda aplicação envolveu um cenário de dados de alta dimensão, obtidos com a utilização de NIRS (Near InfraredSpectroscopy) em um problema de predição de consumo alimentar, a partir de fezes de vacas leiteiras. Foram considerados os métodos Stepwise, lasso eRandom Forest para seleção de variáveis. O lasso apresentou bom desempenho no estudo de validação cruzada. No entanto, esse estudo se limita a utilização dos métodos de forma independente, já que outros autores obtiveram bons resultados aplicando mais de um método simultaneamente. As contribuições deste estudo de caso estão na comparação entre lasso e Random Forest, usados separadamente para seleção de variáveis em NIRS e a comparação entre diferentes tipos de validações para os modelos obtidos com o uso do lasso. |
| publishDate |
2022 |
| dc.date.submitted.none.fl_str_mv |
2022-09-22 |
| dc.date.accessioned.fl_str_mv |
2023-01-06T12:03:31Z |
| dc.date.available.fl_str_mv |
2023-01-06T12:03:31Z |
| dc.date.issued.fl_str_mv |
2023-01-05 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
DUARTE, A. S. Aplicações de métodos de seleção de variáveis em modelos de regressão. 2022. 70 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária)–Universidade Federal de Lavras, Lavras, 2022. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufla.br/handle/1/55736 |
| identifier_str_mv |
DUARTE, A. S. Aplicações de métodos de seleção de variáveis em modelos de regressão. 2022. 70 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária)–Universidade Federal de Lavras, Lavras, 2022. |
| url |
https://repositorio.ufla.br/handle/1/55736 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Lavras |
| dc.publisher.program.fl_str_mv |
Programa de Pós-graduação em Estatística e Experimentação Agropecuária |
| dc.publisher.initials.fl_str_mv |
UFLA |
| dc.publisher.country.fl_str_mv |
brasil |
| dc.publisher.department.fl_str_mv |
Departamento de Estatística |
| publisher.none.fl_str_mv |
Universidade Federal de Lavras |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFLA instname:Universidade Federal de Lavras (UFLA) instacron:UFLA |
| instname_str |
Universidade Federal de Lavras (UFLA) |
| instacron_str |
UFLA |
| institution |
UFLA |
| reponame_str |
Repositório Institucional da UFLA |
| collection |
Repositório Institucional da UFLA |
| bitstream.url.fl_str_mv |
https://repositorio.ufla.br/bitstreams/a093b2e9-d253-4918-9bb3-51cb532741f5/download https://repositorio.ufla.br/bitstreams/49fb478c-a424-4350-8d4e-9bd941090ffa/download https://repositorio.ufla.br/bitstreams/fdf30665-71c3-427b-89fd-08228a33e2a2/download https://repositorio.ufla.br/bitstreams/0289c3e9-ddfb-45e9-a72d-3ff434d39c91/download |
| bitstream.checksum.fl_str_mv |
36db4032de87516f665f31bd995faac5 760884c1e72224de569e74f79eb87ce3 ecbaa2fbc1c8c28f3356afaea2c1caad ae0f41f6a84da7f3a234501852f6aa38 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA) |
| repository.mail.fl_str_mv |
nivaldo@ufla.br || repositorio.biblioteca@ufla.br |
| _version_ |
1854947745575469056 |