Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Macário, Noé Osório
Orientador(a): Guimaraes, Paulo Henrique Sales
Banca de defesa: Pereira, Geraldo Magela da Cruz, Oliveira, Anderson Castro Soares de, Paixão, Crysttian Arantes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Lavras
Programa de Pós-Graduação: Programa de Pós-Graduação em Estatística e Experimentação Agropecuária
Departamento: Instituto de Ciências Exatas e Tecnológicas – ICET
País: brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufla.br/handle/1/59902
Resumo: O presente trabalho avalia o desempenho de diferentes modelos de aprendizado de máquina (AM) na predição de Diabetes, uma condição crônica de grande relevância para a saúde pública. Utilizando dados do VIGITEL 2023, que incluem mais de 21 mil observações, foi realizado um processo de pré-processamento completo, que envolveu seleção de variáveis, balanceamento de classes, tratamento de valores ausentes e padronização dos dados. Os algoritmos analisados foram Árvores de Decisão, Florestas Aleatórias, Naive Bayes, Redes Neurais Artificiais e XGBoost. A avaliação do desempenho dos modelos foi conduzida com base em métricas como sensibilidade e área sob a curva ROC, fundamentais para a identificação de casos positivos e para uma discriminação eficiente entre as classes. O modelo XGBoost se destacou como o mais eficaz, apresentando as melhores métricas de sensibilidade, especificidade e área sob a curva ROC em quase todas as abordagens (considerando todas as variáveis, MIC - Maximal Information Coefficient e PCA - Principal Component Analysis), tanto para dados balanceados quanto desbalanceados, o que evidencia sua superior capacidade preditiva. Em contraste, o modelo de Árvore de Decisão obteve o pior desempenho, destacando suas limitações quando aplicado a dados desbalanceados. Os resultados reforçam o potencial do aprendizado de máquina na detecção precoce de doenças crônicas, como o Diabetes, sublinhando sua relevância para aprimorar diagnósticos médicos, otimizar custos e fornecer suporte crucial para intervenções clínicas mais eficazes.
id UFLA_bbc638b9bbf0ebb5c3c884fa0d7d294d
oai_identifier_str oai:repositorio.ufla.br:1/59902
network_acronym_str UFLA
network_name_str Repositório Institucional da UFLA
repository_id_str
spelling 2025-04-10T16:09:12Z2025-04-10T16:09:12Z2025-04-102025-02-20MACÁRIO, Noé Osório. Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus. 2025. 92 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária) - Universidade Federal de Lavras, Lavras, 2025.https://repositorio.ufla.br/handle/1/59902O presente trabalho avalia o desempenho de diferentes modelos de aprendizado de máquina (AM) na predição de Diabetes, uma condição crônica de grande relevância para a saúde pública. Utilizando dados do VIGITEL 2023, que incluem mais de 21 mil observações, foi realizado um processo de pré-processamento completo, que envolveu seleção de variáveis, balanceamento de classes, tratamento de valores ausentes e padronização dos dados. Os algoritmos analisados foram Árvores de Decisão, Florestas Aleatórias, Naive Bayes, Redes Neurais Artificiais e XGBoost. A avaliação do desempenho dos modelos foi conduzida com base em métricas como sensibilidade e área sob a curva ROC, fundamentais para a identificação de casos positivos e para uma discriminação eficiente entre as classes. O modelo XGBoost se destacou como o mais eficaz, apresentando as melhores métricas de sensibilidade, especificidade e área sob a curva ROC em quase todas as abordagens (considerando todas as variáveis, MIC - Maximal Information Coefficient e PCA - Principal Component Analysis), tanto para dados balanceados quanto desbalanceados, o que evidencia sua superior capacidade preditiva. Em contraste, o modelo de Árvore de Decisão obteve o pior desempenho, destacando suas limitações quando aplicado a dados desbalanceados. Os resultados reforçam o potencial do aprendizado de máquina na detecção precoce de doenças crônicas, como o Diabetes, sublinhando sua relevância para aprimorar diagnósticos médicos, otimizar custos e fornecer suporte crucial para intervenções clínicas mais eficazes.The present work evaluates the performance of different models of machine learning (ML) in the prediction of Diabetes, a chronic condition of great relevance for the public health. Using the VIGITEL (2023) data, which include more than 21 thousand observations, a full pre- processing process was carried out, which evolved selection of variables, balancing of groups, treatment of missing values and data standardization. The analyzed programs were Decision Trees, Random Forests, Naive Bayes, Artificial Neural Nets and XGBoost. The evaluation of the performance of the models was held on the basis of metrics such as sensibility and area under the ROC curve, fundamental to identify positive cases and make an efficient discrimination of the groups. The XGBoost model stood out as the most efficient, presenting the better metrics of sensibility, specificity and area under a ROC curve in almost all approaches (considered all the variables, MIC- Maximal Information Coefficient and PCA - Principal Component Analysis), either for balanced data either unbalanced, which shows its predictive superior capacity. Contrarily, the model of Decision Tree had the worst performance, highlighting its limitations when applied to unbalanced data. The results strengthen the potential of learning machine in the earlier detection of chronic diseases, such as Diabetes, underlining its relevance to master medical diagnostics, optimize costs and give crucial support for clinical interventions more efficient.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Universidade Federal de LavrasPrograma de Pós-Graduação em Estatística e Experimentação AgropecuáriaUFLAbrasilInstituto de Ciências Exatas e Tecnológicas – ICETAttribution 4.0 Internationalhttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessEstatísticaVigitelAprendizado de MáquinaMachine learningPredição de DiabetesPrediction of DiabetesAvaliação de modelos de aprendizado de máquina para predição do diabetes mellitusEvaluation of machine learning models for predicting diabetes mellitusinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisGuimaraes, Paulo Henrique SalesPereira, Geraldo Magela da CruzOliveira, Anderson Castro Soares dePaixão, Crysttian ArantesMacário, Noé Osórioporreponame:Repositório Institucional da UFLAinstname:Universidade Federal de Lavras (UFLA)instacron:UFLAORIGINALDISSERTAÇÃO_Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus.pdfDISSERTAÇÃO_Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus.pdfapplication/pdf1886803https://repositorio.ufla.br/bitstreams/2c4da241-3b1f-4505-a3e3-b32a0ae27498/download89b66004a966fbf3cc54e43160843995MD51trueAnonymousREADINDICADORES DA PESQUISA_Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus.pdfINDICADORES DA PESQUISA_Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus.pdfapplication/pdf182698https://repositorio.ufla.br/bitstreams/5d440a7d-a5b7-43d9-b0b2-3b3cfe29bd0e/download39e5e849182c4bea82637c73334df5c4MD52falseAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8907https://repositorio.ufla.br/bitstreams/aedda5a7-afc9-4ca4-a786-8b2a50fd7b42/downloadc07b6daef3dbee864bf87e6aa836cde2MD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-8956https://repositorio.ufla.br/bitstreams/9aba5625-7d65-4225-be0b-8eb6c8b548ed/download5ea4a165b7202cbf475be400d2e16893MD54falseAnonymousREADTEXTDISSERTAÇÃO_Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus.pdf.txtDISSERTAÇÃO_Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus.pdf.txtExtracted texttext/plain103431https://repositorio.ufla.br/bitstreams/f9dda012-1f86-4a57-9f16-706259c9f8da/download22a558ed01d7c21cadb5d8875e4c386eMD55falseAnonymousREADINDICADORES DA PESQUISA_Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus.pdf.txtINDICADORES DA PESQUISA_Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus.pdf.txtExtracted texttext/plain3841https://repositorio.ufla.br/bitstreams/e0f97752-3575-4e84-9e5b-c525bf482bb8/download01f85196674f8b5b9c3a01de9d0d8685MD57falseAnonymousREADTHUMBNAILDISSERTAÇÃO_Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus.pdf.jpgDISSERTAÇÃO_Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus.pdf.jpgGenerated Thumbnailimage/jpeg2758https://repositorio.ufla.br/bitstreams/76fe62fa-d798-49bb-a858-4e4039228771/downloadca9dd8d0ad65eb024781a002b29ca0fdMD56falseAnonymousREADINDICADORES DA PESQUISA_Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus.pdf.jpgINDICADORES DA PESQUISA_Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus.pdf.jpgGenerated Thumbnailimage/jpeg4768https://repositorio.ufla.br/bitstreams/6d6ac6a8-40af-4582-adac-955f11ae7c58/download48b600eff773d042025e528ac2d02d75MD58falseAnonymousREAD1/599022025-08-05 17:11:10.816http://creativecommons.org/licenses/by/4.0/Attribution 4.0 Internationalopen.accessoai:repositorio.ufla.br:1/59902https://repositorio.ufla.brRepositório InstitucionalPUBhttps://repositorio.ufla.br/server/oai/requestnivaldo@ufla.br || repositorio.biblioteca@ufla.bropendoar:2025-08-05T20:11:10Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)falseREVDTEFSQcOHw4NPIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCk8gcmVmZXJpZG8gYXV0b3I6CgphKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBzZXUgdHJhYmFsaG8gb3JpZ2luYWwsIGUgcXVlIGRldMOpbSBvIGRpcmVpdG8gZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIERlY2xhcmEgdGFtYsOpbSBxdWUgYSBlbnRyZWdhIGRvIGRvY3VtZW50byBuw6NvIGluZnJpbmdlLCB0YW50byBxdWFudG8gbGhlIMOpIHBvc3PDrXZlbCBzYWJlciwgb3MgZGlyZWl0b3MgZGUgcXVhbHF1ZXIgb3V0cmEgcGVzc29hIG91ICBlbnRpZGFkZS4KCmIpIFNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCBuw6NvIGRldMOpbSBvcyBkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGF1dG9yaXphw6fDo28gZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgTGF2cmFzIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MgZGlyZWl0b3Mgc8OjbyBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbwpubyB0ZXh0byBvdSBjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLiBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbyBwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUgbsOjbyBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIExhdnJhcywgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgo=
dc.title.pt_BR.fl_str_mv Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus
dc.title.alternative.pt_BR.fl_str_mv Evaluation of machine learning models for predicting diabetes mellitus
title Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus
spellingShingle Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus
Macário, Noé Osório
Estatística
Vigitel
Aprendizado de Máquina
Machine learning
Predição de Diabetes
Prediction of Diabetes
title_short Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus
title_full Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus
title_fullStr Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus
title_full_unstemmed Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus
title_sort Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus
author Macário, Noé Osório
author_facet Macário, Noé Osório
author_role author
dc.contributor.advisor1.fl_str_mv Guimaraes, Paulo Henrique Sales
dc.contributor.referee1.fl_str_mv Pereira, Geraldo Magela da Cruz
dc.contributor.referee2.fl_str_mv Oliveira, Anderson Castro Soares de
dc.contributor.referee3.fl_str_mv Paixão, Crysttian Arantes
dc.contributor.author.fl_str_mv Macário, Noé Osório
contributor_str_mv Guimaraes, Paulo Henrique Sales
Pereira, Geraldo Magela da Cruz
Oliveira, Anderson Castro Soares de
Paixão, Crysttian Arantes
dc.subject.cnpq.fl_str_mv Estatística
topic Estatística
Vigitel
Aprendizado de Máquina
Machine learning
Predição de Diabetes
Prediction of Diabetes
dc.subject.por.fl_str_mv Vigitel
Aprendizado de Máquina
Machine learning
Predição de Diabetes
Prediction of Diabetes
description O presente trabalho avalia o desempenho de diferentes modelos de aprendizado de máquina (AM) na predição de Diabetes, uma condição crônica de grande relevância para a saúde pública. Utilizando dados do VIGITEL 2023, que incluem mais de 21 mil observações, foi realizado um processo de pré-processamento completo, que envolveu seleção de variáveis, balanceamento de classes, tratamento de valores ausentes e padronização dos dados. Os algoritmos analisados foram Árvores de Decisão, Florestas Aleatórias, Naive Bayes, Redes Neurais Artificiais e XGBoost. A avaliação do desempenho dos modelos foi conduzida com base em métricas como sensibilidade e área sob a curva ROC, fundamentais para a identificação de casos positivos e para uma discriminação eficiente entre as classes. O modelo XGBoost se destacou como o mais eficaz, apresentando as melhores métricas de sensibilidade, especificidade e área sob a curva ROC em quase todas as abordagens (considerando todas as variáveis, MIC - Maximal Information Coefficient e PCA - Principal Component Analysis), tanto para dados balanceados quanto desbalanceados, o que evidencia sua superior capacidade preditiva. Em contraste, o modelo de Árvore de Decisão obteve o pior desempenho, destacando suas limitações quando aplicado a dados desbalanceados. Os resultados reforçam o potencial do aprendizado de máquina na detecção precoce de doenças crônicas, como o Diabetes, sublinhando sua relevância para aprimorar diagnósticos médicos, otimizar custos e fornecer suporte crucial para intervenções clínicas mais eficazes.
publishDate 2025
dc.date.submitted.none.fl_str_mv 2025-02-20
dc.date.accessioned.fl_str_mv 2025-04-10T16:09:12Z
dc.date.available.fl_str_mv 2025-04-10T16:09:12Z
dc.date.issued.fl_str_mv 2025-04-10
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MACÁRIO, Noé Osório. Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus. 2025. 92 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária) - Universidade Federal de Lavras, Lavras, 2025.
dc.identifier.uri.fl_str_mv https://repositorio.ufla.br/handle/1/59902
identifier_str_mv MACÁRIO, Noé Osório. Avaliação de modelos de aprendizado de máquina para predição do diabetes mellitus. 2025. 92 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária) - Universidade Federal de Lavras, Lavras, 2025.
url https://repositorio.ufla.br/handle/1/59902
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution 4.0 International
http://creativecommons.org/licenses/by/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution 4.0 International
http://creativecommons.org/licenses/by/4.0/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Lavras
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Estatística e Experimentação Agropecuária
dc.publisher.initials.fl_str_mv UFLA
dc.publisher.country.fl_str_mv brasil
dc.publisher.department.fl_str_mv Instituto de Ciências Exatas e Tecnológicas – ICET
publisher.none.fl_str_mv Universidade Federal de Lavras
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFLA
instname:Universidade Federal de Lavras (UFLA)
instacron:UFLA
instname_str Universidade Federal de Lavras (UFLA)
instacron_str UFLA
institution UFLA
reponame_str Repositório Institucional da UFLA
collection Repositório Institucional da UFLA
bitstream.url.fl_str_mv https://repositorio.ufla.br/bitstreams/2c4da241-3b1f-4505-a3e3-b32a0ae27498/download
https://repositorio.ufla.br/bitstreams/5d440a7d-a5b7-43d9-b0b2-3b3cfe29bd0e/download
https://repositorio.ufla.br/bitstreams/aedda5a7-afc9-4ca4-a786-8b2a50fd7b42/download
https://repositorio.ufla.br/bitstreams/9aba5625-7d65-4225-be0b-8eb6c8b548ed/download
https://repositorio.ufla.br/bitstreams/f9dda012-1f86-4a57-9f16-706259c9f8da/download
https://repositorio.ufla.br/bitstreams/e0f97752-3575-4e84-9e5b-c525bf482bb8/download
https://repositorio.ufla.br/bitstreams/76fe62fa-d798-49bb-a858-4e4039228771/download
https://repositorio.ufla.br/bitstreams/6d6ac6a8-40af-4582-adac-955f11ae7c58/download
bitstream.checksum.fl_str_mv 89b66004a966fbf3cc54e43160843995
39e5e849182c4bea82637c73334df5c4
c07b6daef3dbee864bf87e6aa836cde2
5ea4a165b7202cbf475be400d2e16893
22a558ed01d7c21cadb5d8875e4c386e
01f85196674f8b5b9c3a01de9d0d8685
ca9dd8d0ad65eb024781a002b29ca0fd
48b600eff773d042025e528ac2d02d75
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)
repository.mail.fl_str_mv nivaldo@ufla.br || repositorio.biblioteca@ufla.br
_version_ 1854947687145668608