Aprendizado de Máquina Aplicado à Predição de Doenças Crônicas: Um Estudo de Caso de Hipertensão Arterial

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Dias, Jaqueline Lopes
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/55/55137/tde-27012025-120434/
Resumo: As Doenças Crônicas Não Transmissíveis (DCNT) tornaram-se uma das principais causas de mortalidade global, impulsionadas pela transição demográfica e pelo aumento da longevidade. Entre essas doenças, destacamos neste trabalho a hipertensão arterial, que é preocupante devido aos seus múltiplos fatores de risco como idade, obesidade, inatividade física e dieta inadequada, além dos seus impactos adversos na saúde. Este estudo avalia a aplicação do aprendizado de máquina na predição do risco de hipertensão, utilizando dados da Pesquisa Nacional de Saúde do Instituto Brasileiro de Geografia e Estatística de 2013. Esses dados abrangem variáveis demográficas, sociodemográficas, estilo de vida, saúde, exames laboratoriais e medidas antropométricas, incluindo pressão arterial sistólica e diastólica. Realizamos uma análise detalhada e preparação do conjunto de dados, testando algoritmos preditivos como Regressão Logística, Naive Bayes, k-Nearest Neighbors, Random Forests, XGBoost, LightGBM, CatBoost, SVM e Redes Neurais Artificiais. A avaliação dos modelos mostrou que a Regressão Logística teve o melhor desempenho com AUC de 0,75, seguida por CatBoost e SVM, com AUCs de 0,73 e 0,72, respectivamente. A análise dos coeficientes da Regressão Logística e dos valores SHAP para CatBoost revelou que os principais fatores de risco para hipertensão incluem sexo, nível de atividade física, IMC, idade e região de residência. Os resultados são promissores e demonstram a capacidade dos modelos de aprendizado de máquina em prever hipertensão. Ademais, a inclusão de variáveis históricas pode melhorar significativamente a sensibilidade dos modelos preditivos.
id USP_26501a9a4dd8f0e2fba2320e140d094e
oai_identifier_str oai:teses.usp.br:tde-27012025-120434
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Aprendizado de Máquina Aplicado à Predição de Doenças Crônicas: Um Estudo de Caso de Hipertensão ArterialMachine Learning Applied to the Prediction of Chronic Diseases: A Case Study of HypertensionAlgoritmos de classificaçãoArtificial intelligenceClassification algorithmsDigital healthEpidemiologia matemáticaFatores de riscoInteligência artificialMathematical epidemiologyRisk factorsSaúde digitalAs Doenças Crônicas Não Transmissíveis (DCNT) tornaram-se uma das principais causas de mortalidade global, impulsionadas pela transição demográfica e pelo aumento da longevidade. Entre essas doenças, destacamos neste trabalho a hipertensão arterial, que é preocupante devido aos seus múltiplos fatores de risco como idade, obesidade, inatividade física e dieta inadequada, além dos seus impactos adversos na saúde. Este estudo avalia a aplicação do aprendizado de máquina na predição do risco de hipertensão, utilizando dados da Pesquisa Nacional de Saúde do Instituto Brasileiro de Geografia e Estatística de 2013. Esses dados abrangem variáveis demográficas, sociodemográficas, estilo de vida, saúde, exames laboratoriais e medidas antropométricas, incluindo pressão arterial sistólica e diastólica. Realizamos uma análise detalhada e preparação do conjunto de dados, testando algoritmos preditivos como Regressão Logística, Naive Bayes, k-Nearest Neighbors, Random Forests, XGBoost, LightGBM, CatBoost, SVM e Redes Neurais Artificiais. A avaliação dos modelos mostrou que a Regressão Logística teve o melhor desempenho com AUC de 0,75, seguida por CatBoost e SVM, com AUCs de 0,73 e 0,72, respectivamente. A análise dos coeficientes da Regressão Logística e dos valores SHAP para CatBoost revelou que os principais fatores de risco para hipertensão incluem sexo, nível de atividade física, IMC, idade e região de residência. Os resultados são promissores e demonstram a capacidade dos modelos de aprendizado de máquina em prever hipertensão. Ademais, a inclusão de variáveis históricas pode melhorar significativamente a sensibilidade dos modelos preditivos.Non-communicable chronic diseases (NCDs) have become one of the leading causes of global mortality, driven by demographic transitions and increased longevity. Among these diseases, this study focuses on hypertension, which is particularly worrisome due to its multiple risk factors such as age, obesity, physical inactivity, and inadequate diet, as well as its adverse health impacts. This study evaluates the application of machine learning in predicting hypertension risk, using data from 2013 National Health Survey by the Brazilian Institute of Geography and Statistics. These data encompass demographic, socioeconomic, lifestyle, health, laboratory tests, and anthropometric measurements, including systolic and diastolic blood pressure. We conducted a detailed analysis and dataset preparation, testing predictive algorithms such as Logistic Regression, Naive Bayes, k-Nearest Neighbors, Random Forests, XGBoost, LightGBM, CatBoost, SVM, and Artificial Neural Networks. Models evaluation showed that Logistic Regression had the best performance with AUC of 0.75, followed by CatBoost and SVM, with AUCs of 0.73 and 0.72, respectively. The analysis of the Logistic Regression coefficients and SHAP values for CatBoost revealed that main risk factors for hypertension include sex, physical activity level, BMI, age, and region of residence. The results are promising and demonstrate the capability of machine learning models in predicting hypertension. Moreover, the inclusion of historical variables might significantly improve the sensitivity of predictive models.Biblioteca Digitais de Teses e Dissertações da USPOliveira, Naila Albertina deRabi, Jose AntonioDias, Jaqueline Lopes2024-09-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55137/tde-27012025-120434/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-01-27T14:26:02Zoai:teses.usp.br:tde-27012025-120434Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-01-27T14:26:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Aprendizado de Máquina Aplicado à Predição de Doenças Crônicas: Um Estudo de Caso de Hipertensão Arterial
Machine Learning Applied to the Prediction of Chronic Diseases: A Case Study of Hypertension
title Aprendizado de Máquina Aplicado à Predição de Doenças Crônicas: Um Estudo de Caso de Hipertensão Arterial
spellingShingle Aprendizado de Máquina Aplicado à Predição de Doenças Crônicas: Um Estudo de Caso de Hipertensão Arterial
Dias, Jaqueline Lopes
Algoritmos de classificação
Artificial intelligence
Classification algorithms
Digital health
Epidemiologia matemática
Fatores de risco
Inteligência artificial
Mathematical epidemiology
Risk factors
Saúde digital
title_short Aprendizado de Máquina Aplicado à Predição de Doenças Crônicas: Um Estudo de Caso de Hipertensão Arterial
title_full Aprendizado de Máquina Aplicado à Predição de Doenças Crônicas: Um Estudo de Caso de Hipertensão Arterial
title_fullStr Aprendizado de Máquina Aplicado à Predição de Doenças Crônicas: Um Estudo de Caso de Hipertensão Arterial
title_full_unstemmed Aprendizado de Máquina Aplicado à Predição de Doenças Crônicas: Um Estudo de Caso de Hipertensão Arterial
title_sort Aprendizado de Máquina Aplicado à Predição de Doenças Crônicas: Um Estudo de Caso de Hipertensão Arterial
author Dias, Jaqueline Lopes
author_facet Dias, Jaqueline Lopes
author_role author
dc.contributor.none.fl_str_mv Oliveira, Naila Albertina de
Rabi, Jose Antonio
dc.contributor.author.fl_str_mv Dias, Jaqueline Lopes
dc.subject.por.fl_str_mv Algoritmos de classificação
Artificial intelligence
Classification algorithms
Digital health
Epidemiologia matemática
Fatores de risco
Inteligência artificial
Mathematical epidemiology
Risk factors
Saúde digital
topic Algoritmos de classificação
Artificial intelligence
Classification algorithms
Digital health
Epidemiologia matemática
Fatores de risco
Inteligência artificial
Mathematical epidemiology
Risk factors
Saúde digital
description As Doenças Crônicas Não Transmissíveis (DCNT) tornaram-se uma das principais causas de mortalidade global, impulsionadas pela transição demográfica e pelo aumento da longevidade. Entre essas doenças, destacamos neste trabalho a hipertensão arterial, que é preocupante devido aos seus múltiplos fatores de risco como idade, obesidade, inatividade física e dieta inadequada, além dos seus impactos adversos na saúde. Este estudo avalia a aplicação do aprendizado de máquina na predição do risco de hipertensão, utilizando dados da Pesquisa Nacional de Saúde do Instituto Brasileiro de Geografia e Estatística de 2013. Esses dados abrangem variáveis demográficas, sociodemográficas, estilo de vida, saúde, exames laboratoriais e medidas antropométricas, incluindo pressão arterial sistólica e diastólica. Realizamos uma análise detalhada e preparação do conjunto de dados, testando algoritmos preditivos como Regressão Logística, Naive Bayes, k-Nearest Neighbors, Random Forests, XGBoost, LightGBM, CatBoost, SVM e Redes Neurais Artificiais. A avaliação dos modelos mostrou que a Regressão Logística teve o melhor desempenho com AUC de 0,75, seguida por CatBoost e SVM, com AUCs de 0,73 e 0,72, respectivamente. A análise dos coeficientes da Regressão Logística e dos valores SHAP para CatBoost revelou que os principais fatores de risco para hipertensão incluem sexo, nível de atividade física, IMC, idade e região de residência. Os resultados são promissores e demonstram a capacidade dos modelos de aprendizado de máquina em prever hipertensão. Ademais, a inclusão de variáveis históricas pode melhorar significativamente a sensibilidade dos modelos preditivos.
publishDate 2024
dc.date.none.fl_str_mv 2024-09-25
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55137/tde-27012025-120434/
url https://www.teses.usp.br/teses/disponiveis/55/55137/tde-27012025-120434/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1839839158832463872