Exportação concluída — 

Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Santos, Paula Ribeiro lattes
Orientador(a): Oliveira, Izabela Regina Cardoso de
Banca de defesa: Bueno Filho, Júlio Sílvio de Sousa, Petrini, Juliana, Barroso, Camilla Marques
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Lavras
Programa de Pós-Graduação: Programa de Pós-graduação em Estatística e Experimentação Agropecuária
Departamento: Departamento de Estatística
País: brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufla.br/handle/1/39129
Resumo: A análise de regressão linear surgiu no século XIX e, ainda hoje, é uma das técnicas estatísticas mais utilizadas em pesquisas aplicadas quando se deseja relacionar uma variável resposta, Y , com uma ou mais variáveis explicativas, X . Entretanto, quando a variável resposta não segue uma distribuição normal a utilização de modelos lineares generalizados pode ser mais apropriada. Um exemplo com grande aplicação é o modelo logístico para respostas binárias. Nessas análises, quando se tem várias variáveis explicativas faz-se necessário selecionar as que resultariam em um modelo útil e parcimonioso. Uma solução para isso pode ser utilizar a técnica de regularização Lasso, método pelo qual as estimativas dos coeficientes tendem a zero, o que implica que apenas as variáveis que afetam significativamente a variação em Y sejam consideradas no modelo. No entanto, com o aumento do número de variáveis explicativas e da complexidade dos dados, alternativas vêm surgindo, como as técnicas de Machine Learning. O objetivo deste trabalho foi utilizar Lasso e árvores de classificação para seleção de variáveis em modelos logísticos, utilizando um exemplo de segurança e frequência alimentar infantil. Os dados foram coletados em 581 crianças de Centros Municipais de Educação Infantil de Lavras, MG. Inicialmente, para a variável resposta frequência alimentar foram consideradas como potenciais preditoras 37 variáveis. Quando aplicadas as técnicas Lasso e árvore de classificação estas foram reduzidas para 3 e 7, respectivamente. Para a variável resposta segurança alimentar foram consideradas 19 variáveis como potenciais preditoras e após aplicação do Lasso e árvore de classificação esse número foi reduzido para 5 e 9, respectivamente. Os modelos obtidos com as variáveis selecionadas foram reduzidos por stepwise. Os modelos finais para cada variável resposta foram comparados pelo AIC (Critério de Informação de Akaike) e pela deviance residual. Para a variável resposta frequência alimentar, o modelo obtido a partir do Lasso apresentou menores valores de AIC e deviance residual (AIC= 107,95 e deviance = 101,95) do que aquele obtido a partir da árvore de classificação (AIC = 509,68 e deviance = 489, 68). Esse padrão também ocorreu para a variável resposta segurança alimentar. O AIC do modelo considerando Lasso foi de 273,20 e sua deviance foi 255,20, enquanto que para árvore de classificação o AIC foi 307,37 e a deviance residual foi igual a 283,37. Para esse banco de dados, os modelos que consideraram as variáveis selecionadas pela técnica Lasso apresentaram melhores resultados segundo os critérios estatísticos, mas as árvores de classificação também podem ser consideradas, uma vez que as variáveis selecionadas são de interesse do ponto de vista prático, além de gerarem resultados gráficos intuitivos e de fácil interpretação.
id UFLA_6b0a09db9f3d383fcb106e0b2a691d4c
oai_identifier_str oai:repositorio.ufla.br:1/39129
network_acronym_str UFLA
network_name_str Repositório Institucional da UFLA
repository_id_str
spelling 2020-03-04T16:56:15Z2020-03-04T16:56:15Z2020-02-042020-01-24SANTOS, P. R. Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar. 2020. 59 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária )–Universidade Federal de Lavras, Lavras, 2020.https://repositorio.ufla.br/handle/1/39129A análise de regressão linear surgiu no século XIX e, ainda hoje, é uma das técnicas estatísticas mais utilizadas em pesquisas aplicadas quando se deseja relacionar uma variável resposta, Y , com uma ou mais variáveis explicativas, X . Entretanto, quando a variável resposta não segue uma distribuição normal a utilização de modelos lineares generalizados pode ser mais apropriada. Um exemplo com grande aplicação é o modelo logístico para respostas binárias. Nessas análises, quando se tem várias variáveis explicativas faz-se necessário selecionar as que resultariam em um modelo útil e parcimonioso. Uma solução para isso pode ser utilizar a técnica de regularização Lasso, método pelo qual as estimativas dos coeficientes tendem a zero, o que implica que apenas as variáveis que afetam significativamente a variação em Y sejam consideradas no modelo. No entanto, com o aumento do número de variáveis explicativas e da complexidade dos dados, alternativas vêm surgindo, como as técnicas de Machine Learning. O objetivo deste trabalho foi utilizar Lasso e árvores de classificação para seleção de variáveis em modelos logísticos, utilizando um exemplo de segurança e frequência alimentar infantil. Os dados foram coletados em 581 crianças de Centros Municipais de Educação Infantil de Lavras, MG. Inicialmente, para a variável resposta frequência alimentar foram consideradas como potenciais preditoras 37 variáveis. Quando aplicadas as técnicas Lasso e árvore de classificação estas foram reduzidas para 3 e 7, respectivamente. Para a variável resposta segurança alimentar foram consideradas 19 variáveis como potenciais preditoras e após aplicação do Lasso e árvore de classificação esse número foi reduzido para 5 e 9, respectivamente. Os modelos obtidos com as variáveis selecionadas foram reduzidos por stepwise. Os modelos finais para cada variável resposta foram comparados pelo AIC (Critério de Informação de Akaike) e pela deviance residual. Para a variável resposta frequência alimentar, o modelo obtido a partir do Lasso apresentou menores valores de AIC e deviance residual (AIC= 107,95 e deviance = 101,95) do que aquele obtido a partir da árvore de classificação (AIC = 509,68 e deviance = 489, 68). Esse padrão também ocorreu para a variável resposta segurança alimentar. O AIC do modelo considerando Lasso foi de 273,20 e sua deviance foi 255,20, enquanto que para árvore de classificação o AIC foi 307,37 e a deviance residual foi igual a 283,37. Para esse banco de dados, os modelos que consideraram as variáveis selecionadas pela técnica Lasso apresentaram melhores resultados segundo os critérios estatísticos, mas as árvores de classificação também podem ser consideradas, uma vez que as variáveis selecionadas são de interesse do ponto de vista prático, além de gerarem resultados gráficos intuitivos e de fácil interpretação.Linear regression emerged in the nineteenth century and it is one of the most commonly used statistical techniques in applied research when the interest lies on explain a response, Y , based on one or more explanatory variables, X . However, when the response does not follow a normal distribution, generalized linear models may be more appropriate. An example which has broad application is the logistic model for binary responses. In regression analysis, when there are several explanatory variables, it is necessary to select those that would result in a useful and parsimonious model. One solution is the Lasso regularization method, where coefficient estimates shrink to zero, implying that only variables that significantly affect the variation in Y are considered in the model. However, as the number of explanatory variables and data complexity increase, alternatives have emerged, such as Machine Learning techniques. The aim of this study is to use Lasso and Classification Trees for variable selection in logistic models, using an example of food safety and frequency in children. Data were collected from 581 children attending Centros Municipais de Educação Infantil (Municipal Centers of Early Childhood Education), in Lavras, MG, Brazil. The 37 potential predictors of food frequency were reduced to 3 and 7 when Lasso and classification tree, respectively, were applied. For the response food security, the 19 predictors were reduced to 5 and 9 after applying Lasso and classification tree, respectively. The models obtained with the selected variables through both methods were reduced using stepwise. The chosen models for each response variable were compared by AIC (Akaike Information Criterion) and residual deviance. For food frequency, the model obtained from Lasso showed lower values of AIC and residual deviance (AIC = 107.95 and deviance = 101.95) than that obtained from the classification tree (AIC = 509, 68 and deviance = 489, 68). This pattern also occurred for food security. In this case, the AIC of the model considering Lasso was 273.20 and its deviance was 255.20, while for the classification tree the AIC was 307.37 and the residual deviance was 283.37. For this dataset, the models obtained using the variables selected by Lasso presented better results according to the statistical criteria. But classification trees can also be considered, since the selected variables have practical importance and they provide intuitive and easy-to-interpret graphical results.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Universidade Federal de LavrasPrograma de Pós-graduação em Estatística e Experimentação AgropecuáriaUFLAbrasilDepartamento de EstatísticaEstatísticaLASSOCARTÁrvores de classificaçãoStepwiseLeast Absolute Shrinkage and Selection Operator (LASSO)Classification and Regression Trees (CART)Classification treesRegressão StepwiseSeleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentarVariables selection for logistic regression in an example of safety and food frequencyinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisOliveira, Izabela Regina Cardoso deLima, Renato Ribeiro deBueno Filho, Júlio Sílvio de SousaPetrini, JulianaBarroso, Camilla Marqueshttp://lattes.cnpq.br/0738039406923480Santos, Paula Ribeiroinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFLAinstname:Universidade Federal de Lavras (UFLA)instacron:UFLALICENSElicense.txtlicense.txttext/plain; charset=utf-8953https://repositorio.ufla.br/bitstreams/e455a14e-19cf-4f33-82fe-58b0fac9604d/download760884c1e72224de569e74f79eb87ce3MD51falseAnonymousREADORIGINALDISSERTAÇÂO_Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar.pdfDISSERTAÇÂO_Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar.pdfapplication/pdf889046https://repositorio.ufla.br/bitstreams/2e6f00c6-4c9c-414c-8804-fbc50738578a/download55f17ab503f453a3f8d5a2371c4c8ee4MD52trueAnonymousREADTEXTDISSERTAÇÂO_Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar.pdf.txtDISSERTAÇÂO_Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar.pdf.txtExtracted texttext/plain103596https://repositorio.ufla.br/bitstreams/ed778190-2816-461d-ab7d-dbcc1e74bd9d/download70e9c8339b6dffbbff12412a3d2e95fcMD53falseAnonymousREADTHUMBNAILDISSERTAÇÂO_Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar.pdf.jpgDISSERTAÇÂO_Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar.pdf.jpgGenerated Thumbnailimage/jpeg3248https://repositorio.ufla.br/bitstreams/804768c2-70de-402d-b77b-b914c01cc21e/download3533e4d2bc35fccc0b3747f8465d913bMD54falseAnonymousREAD1/391292025-08-06 11:09:08.464open.accessoai:repositorio.ufla.br:1/39129https://repositorio.ufla.brRepositório InstitucionalPUBhttps://repositorio.ufla.br/server/oai/requestnivaldo@ufla.br || repositorio.biblioteca@ufla.bropendoar:2025-08-06T14:09:08Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)falseREVDTEFSQcOHw4NPIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCk8gcmVmZXJpZG8gYXV0b3I6CmEpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUKZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4KRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50bwpsaGUgw6kgcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UKZW50aWRhZGUuCmIpIFNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCBuw6NvIGRldMOpbSBvcwpkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGF1dG9yaXphw6fDo28gZG8gZGV0ZW50b3IgZG9zCmRpcmVpdG9zIGRlIGF1dG9yIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgTGF2cmFzIG9zCmRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MKZGlyZWl0b3Mgc8OjbyBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbwpubyB0ZXh0byBvdSBjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLiBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqQpiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbyBwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUKbsOjbyBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIExhdnJhcywgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIKb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgo=
dc.title.pt_BR.fl_str_mv Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar
dc.title.alternative.pt_BR.fl_str_mv Variables selection for logistic regression in an example of safety and food frequency
title Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar
spellingShingle Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar
Santos, Paula Ribeiro
Estatística
LASSO
CART
Árvores de classificação
Stepwise
Least Absolute Shrinkage and Selection Operator (LASSO)
Classification and Regression Trees (CART)
Classification trees
Regressão Stepwise
title_short Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar
title_full Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar
title_fullStr Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar
title_full_unstemmed Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar
title_sort Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar
author Santos, Paula Ribeiro
author_facet Santos, Paula Ribeiro
author_role author
dc.contributor.advisor1.fl_str_mv Oliveira, Izabela Regina Cardoso de
dc.contributor.advisor-co1.fl_str_mv Lima, Renato Ribeiro de
dc.contributor.referee1.fl_str_mv Bueno Filho, Júlio Sílvio de Sousa
dc.contributor.referee2.fl_str_mv Petrini, Juliana
dc.contributor.referee3.fl_str_mv Barroso, Camilla Marques
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/0738039406923480
dc.contributor.author.fl_str_mv Santos, Paula Ribeiro
contributor_str_mv Oliveira, Izabela Regina Cardoso de
Lima, Renato Ribeiro de
Bueno Filho, Júlio Sílvio de Sousa
Petrini, Juliana
Barroso, Camilla Marques
dc.subject.cnpq.fl_str_mv Estatística
topic Estatística
LASSO
CART
Árvores de classificação
Stepwise
Least Absolute Shrinkage and Selection Operator (LASSO)
Classification and Regression Trees (CART)
Classification trees
Regressão Stepwise
dc.subject.por.fl_str_mv LASSO
CART
Árvores de classificação
Stepwise
Least Absolute Shrinkage and Selection Operator (LASSO)
Classification and Regression Trees (CART)
Classification trees
Regressão Stepwise
description A análise de regressão linear surgiu no século XIX e, ainda hoje, é uma das técnicas estatísticas mais utilizadas em pesquisas aplicadas quando se deseja relacionar uma variável resposta, Y , com uma ou mais variáveis explicativas, X . Entretanto, quando a variável resposta não segue uma distribuição normal a utilização de modelos lineares generalizados pode ser mais apropriada. Um exemplo com grande aplicação é o modelo logístico para respostas binárias. Nessas análises, quando se tem várias variáveis explicativas faz-se necessário selecionar as que resultariam em um modelo útil e parcimonioso. Uma solução para isso pode ser utilizar a técnica de regularização Lasso, método pelo qual as estimativas dos coeficientes tendem a zero, o que implica que apenas as variáveis que afetam significativamente a variação em Y sejam consideradas no modelo. No entanto, com o aumento do número de variáveis explicativas e da complexidade dos dados, alternativas vêm surgindo, como as técnicas de Machine Learning. O objetivo deste trabalho foi utilizar Lasso e árvores de classificação para seleção de variáveis em modelos logísticos, utilizando um exemplo de segurança e frequência alimentar infantil. Os dados foram coletados em 581 crianças de Centros Municipais de Educação Infantil de Lavras, MG. Inicialmente, para a variável resposta frequência alimentar foram consideradas como potenciais preditoras 37 variáveis. Quando aplicadas as técnicas Lasso e árvore de classificação estas foram reduzidas para 3 e 7, respectivamente. Para a variável resposta segurança alimentar foram consideradas 19 variáveis como potenciais preditoras e após aplicação do Lasso e árvore de classificação esse número foi reduzido para 5 e 9, respectivamente. Os modelos obtidos com as variáveis selecionadas foram reduzidos por stepwise. Os modelos finais para cada variável resposta foram comparados pelo AIC (Critério de Informação de Akaike) e pela deviance residual. Para a variável resposta frequência alimentar, o modelo obtido a partir do Lasso apresentou menores valores de AIC e deviance residual (AIC= 107,95 e deviance = 101,95) do que aquele obtido a partir da árvore de classificação (AIC = 509,68 e deviance = 489, 68). Esse padrão também ocorreu para a variável resposta segurança alimentar. O AIC do modelo considerando Lasso foi de 273,20 e sua deviance foi 255,20, enquanto que para árvore de classificação o AIC foi 307,37 e a deviance residual foi igual a 283,37. Para esse banco de dados, os modelos que consideraram as variáveis selecionadas pela técnica Lasso apresentaram melhores resultados segundo os critérios estatísticos, mas as árvores de classificação também podem ser consideradas, uma vez que as variáveis selecionadas são de interesse do ponto de vista prático, além de gerarem resultados gráficos intuitivos e de fácil interpretação.
publishDate 2020
dc.date.submitted.none.fl_str_mv 2020-01-24
dc.date.accessioned.fl_str_mv 2020-03-04T16:56:15Z
dc.date.available.fl_str_mv 2020-03-04T16:56:15Z
dc.date.issued.fl_str_mv 2020-02-04
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SANTOS, P. R. Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar. 2020. 59 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária )–Universidade Federal de Lavras, Lavras, 2020.
dc.identifier.uri.fl_str_mv https://repositorio.ufla.br/handle/1/39129
identifier_str_mv SANTOS, P. R. Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar. 2020. 59 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária )–Universidade Federal de Lavras, Lavras, 2020.
url https://repositorio.ufla.br/handle/1/39129
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Lavras
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Estatística e Experimentação Agropecuária
dc.publisher.initials.fl_str_mv UFLA
dc.publisher.country.fl_str_mv brasil
dc.publisher.department.fl_str_mv Departamento de Estatística
publisher.none.fl_str_mv Universidade Federal de Lavras
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFLA
instname:Universidade Federal de Lavras (UFLA)
instacron:UFLA
instname_str Universidade Federal de Lavras (UFLA)
instacron_str UFLA
institution UFLA
reponame_str Repositório Institucional da UFLA
collection Repositório Institucional da UFLA
bitstream.url.fl_str_mv https://repositorio.ufla.br/bitstreams/e455a14e-19cf-4f33-82fe-58b0fac9604d/download
https://repositorio.ufla.br/bitstreams/2e6f00c6-4c9c-414c-8804-fbc50738578a/download
https://repositorio.ufla.br/bitstreams/ed778190-2816-461d-ab7d-dbcc1e74bd9d/download
https://repositorio.ufla.br/bitstreams/804768c2-70de-402d-b77b-b914c01cc21e/download
bitstream.checksum.fl_str_mv 760884c1e72224de569e74f79eb87ce3
55f17ab503f453a3f8d5a2371c4c8ee4
70e9c8339b6dffbbff12412a3d2e95fc
3533e4d2bc35fccc0b3747f8465d913b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)
repository.mail.fl_str_mv nivaldo@ufla.br || repositorio.biblioteca@ufla.br
_version_ 1854947808673529856