Data Science e Machine Learning aplicado na mortalidade infantil na Região Metropolitana do Vale do Paraíba e Litoral Norte

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Rodríguez, Elen Yanina Aguirre [UNESP]
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/11449/310473
Resumo: A mortalidade infantil reflete a saúde pública e a qualidade da assistência oferecida à mãe e ao recém-nascido. Com o objetivo de reduzir essa mortalidade e outros problemas de saúde, tem-se observado um crescente interesse em utilizar ferramentas como Ciência de Dados, Aprendizado de Máquina (ML), Sistemas de Informação Geográfica (SIG) e análise espacial, cuja integração pode aprimorar os processos e apoiar decisões. Este estudo teve como objetivo explorar a aplicabilidade dessas ferramentas para abordar a mortalidade infantil durante o primeiro ano de vida na Região Metropolitana do Vale do Paraíba e Litoral Norte (RMVPLN), no Estado de São Paulo. A metodologia adotada incluiu a utilização de dados do Departamento de Informática do Sistema Único de Saúde (DATASUS) e a aplicação de análise exploratória de dados, análise espacial e desenvolvimento de modelos de previsão e predição, com propostas de soluções para a tomada de decisões em diferentes níveis: estratégico, tático e operacional. No nível tático, utilizou-se os dados de 2010 a 2020, considerando as taxas de mortalidade infantil (TMI), neonatal (TMN) e pós-neonatal, além de determinantes associados. Foi utilizado o índice univariado e bivariado de Moran para medir o grau de associação espacial na RMVPLN. No nível estratégico, foram aplicadas técnicas de regressão de ML para modelos de previsão, treinados com dados de 2010 a 2020, da ocorrência mensal de óbitos neonatais, pós-neonatais e infantis, sendo validados com dados de 2021. No nível operacional, treinaram-se modelos binários e multiclasse, utilizando técnicas de classificação, com dados rotulados de 2010 a 2019, validados com dados de 2020. Em ambos os casos, o desempenho dos modelos foi avaliado por meio de métricas de erro e testes estatísticos específicos para cada abordagem, garantindo a confiabilidade, robustez e aplicabilidade prática dos resultados obtidos. Os resultados mostraram que a redução da TMI foi principalmente atribuída à diminuição dos óbitos pós-neonatais. A análise espacial revelou agrupamentos de alto risco na região Norte Central para a TMI e TMN. Os modelos de ML para previsão de óbitos apresentaram boa precisão, sendo os melhores modelos: RF (lag = 2, RMSE = 6,03) para a mortalidade infantil, GB (lag = 2, RMSE = 4,16) para a neonatal e SVM (lag = 3, RMSE = 3,162) para a pós-neonatal. Para a identificação de risco de óbito, os modelos treinados tiveram acurácia e AUC superior a 90% e 91%, respetivamente, para os modelos binários, e acima de 81% e 82% para os modelos multiclasse. Os melhores modelos foram os treinados com SVM (acurácia = 92,88%, AUC = 0,934) para o modelo binário, e com XGB (acurácia = 88,38%, AUC = 0,876) para o modelo multiclasse. Conclui-se que a utilização de SIG, análise espacial e ML pode melhorar significativamente o cuidado do nascido vivo, alinhando-se aos Objetivos de Desenvolvimento Sustentável. Além disso, as sistemáticas propostas oferecem benefícios substanciais para a tomada de decisões, permitindo otimizar o uso de recursos e intervenções, além de contribuir para a melhoria da qualidade do cuidado ao recém-nascido e garantir sua sobrevivência.
id UNSP_3d9ed402df28e68bf2398d5f9340ac36
oai_identifier_str oai:repositorio.unesp.br:11449/310473
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str
spelling Data Science e Machine Learning aplicado na mortalidade infantil na Região Metropolitana do Vale do Paraíba e Litoral NorteData Science and Machine Learning applied to infant mortality in the Metropolitan Region of Vale do Paraíba and Litoral NorteCiencia de Datos y Aprendizaje Automático aplicados a la mortalidad infantil en la Región Metropolitana del Vale do Paraíba y Litoral NorteCiência de dadosAprendizado do computadorAnálise espacial (Estatística)Mortalidade infantilMortalidade neonatalMortalidade Pós-neonatalArmazenamento de dadosData scienceMachine learningSpatial analysisInfant mortalityNeonatal mortalityPost-neonatal mortalityCiencia de datosAprendizaje automáticoAnálisis espacialMortalidad infantilMortalidad neonatalMortalidad post-neonatalA mortalidade infantil reflete a saúde pública e a qualidade da assistência oferecida à mãe e ao recém-nascido. Com o objetivo de reduzir essa mortalidade e outros problemas de saúde, tem-se observado um crescente interesse em utilizar ferramentas como Ciência de Dados, Aprendizado de Máquina (ML), Sistemas de Informação Geográfica (SIG) e análise espacial, cuja integração pode aprimorar os processos e apoiar decisões. Este estudo teve como objetivo explorar a aplicabilidade dessas ferramentas para abordar a mortalidade infantil durante o primeiro ano de vida na Região Metropolitana do Vale do Paraíba e Litoral Norte (RMVPLN), no Estado de São Paulo. A metodologia adotada incluiu a utilização de dados do Departamento de Informática do Sistema Único de Saúde (DATASUS) e a aplicação de análise exploratória de dados, análise espacial e desenvolvimento de modelos de previsão e predição, com propostas de soluções para a tomada de decisões em diferentes níveis: estratégico, tático e operacional. No nível tático, utilizou-se os dados de 2010 a 2020, considerando as taxas de mortalidade infantil (TMI), neonatal (TMN) e pós-neonatal, além de determinantes associados. Foi utilizado o índice univariado e bivariado de Moran para medir o grau de associação espacial na RMVPLN. No nível estratégico, foram aplicadas técnicas de regressão de ML para modelos de previsão, treinados com dados de 2010 a 2020, da ocorrência mensal de óbitos neonatais, pós-neonatais e infantis, sendo validados com dados de 2021. No nível operacional, treinaram-se modelos binários e multiclasse, utilizando técnicas de classificação, com dados rotulados de 2010 a 2019, validados com dados de 2020. Em ambos os casos, o desempenho dos modelos foi avaliado por meio de métricas de erro e testes estatísticos específicos para cada abordagem, garantindo a confiabilidade, robustez e aplicabilidade prática dos resultados obtidos. Os resultados mostraram que a redução da TMI foi principalmente atribuída à diminuição dos óbitos pós-neonatais. A análise espacial revelou agrupamentos de alto risco na região Norte Central para a TMI e TMN. Os modelos de ML para previsão de óbitos apresentaram boa precisão, sendo os melhores modelos: RF (lag = 2, RMSE = 6,03) para a mortalidade infantil, GB (lag = 2, RMSE = 4,16) para a neonatal e SVM (lag = 3, RMSE = 3,162) para a pós-neonatal. Para a identificação de risco de óbito, os modelos treinados tiveram acurácia e AUC superior a 90% e 91%, respetivamente, para os modelos binários, e acima de 81% e 82% para os modelos multiclasse. Os melhores modelos foram os treinados com SVM (acurácia = 92,88%, AUC = 0,934) para o modelo binário, e com XGB (acurácia = 88,38%, AUC = 0,876) para o modelo multiclasse. Conclui-se que a utilização de SIG, análise espacial e ML pode melhorar significativamente o cuidado do nascido vivo, alinhando-se aos Objetivos de Desenvolvimento Sustentável. Além disso, as sistemáticas propostas oferecem benefícios substanciais para a tomada de decisões, permitindo otimizar o uso de recursos e intervenções, além de contribuir para a melhoria da qualidade do cuidado ao recém-nascido e garantir sua sobrevivência.Infant mortality reflects public health and the quality of care provided to mothers and newborns. To reduce this mortality and other health issues, there has been a growing interest in utilizing tools such as Data Science, Machine Learning (ML), Geographic Information Systems (GIS), and spatial analysis, as their integration can enhance processes and support decision-making. This study aimed to explore the applicability of these tools to address infant mortality during the first year of life in the Metropolitan Region of Vale do Paraíba and Northern Coast (RMVPLN), in the State of São Paulo. The methodology adopted included the use of data from the Department of Informatics of the Unified Health System (DATASUS) and the application of exploratory data analysis, spatial analysis, and the development of prediction and forecasting models, with proposed solutions for decision-making at different levels: strategic, tactical, and operational. At the tactical level, data from 2010 to 2020 were used, considering the infant mortality rate (IMR), neonatal mortality rate (NMR), and post-neonatal mortality rate (PNMR), as well as associated determinants. The univariate and bivariate Moran index were used to measure the degree of spatial association in RMVPLN. At the strategic level, ML regression techniques were applied to forecasting models, trained with data from 2010 to 2020 on the monthly occurrence of neonatal, post-neonatal, and infant deaths, and validated with 2021 data. At the operational level, binary and multiclass models were trained using classification techniques, with labeled data from 2010 to 2019, validated with 2020 data. In both cases, the performance of the models was evaluated using error metrics and specific statistical tests for each approach, ensuring the reliability, robustness, and practical applicability of the obtained results. The results showed that the reduction in IMR was mainly attributed to the decrease in post-neonatal deaths. Spatial analysis revealed high-risk clusters in the Northern Central region for both IMR and NMR. The ML models for death prediction demonstrated good accuracy, with the best models being: RF (lag = 2, RMSE = 6.03) for infant mortality, GB (lag = 2, RMSE = 4.16) for neonatal mortality, and SVM (lag = 3, RMSE = 3.162) for post-neonatal mortality. For the identification of death risk, the trained models achieved accuracy and AUC greater than 90% and 91%, respectively, for binary models, and above 81% and 82% for multiclass models. The best models were those trained with SVM (accuracy = 92.88%, AUC = 0.934) for the binary model, and XGB (accuracy = 88.38%, AUC = 0.876) for the multiclass model. It is concluded that the use of GIS, spatial analysis, and ML can significantly improve live birth care, aligning with the Sustainable Development Goals. Furthermore, the proposed methodologies offer substantial benefits for decision-making, allowing for the optimization of resource use and interventions, as well as contributing to the improvement of newborn care quality and ensuring their survival.La mortalidad infantil refleja la salud pública y la calidad de la atención brindada a la madre y al recién nacido. Con el objetivo de reducir esta mortalidad y otros problemas de salud, se ha observado un creciente interés en utilizar herramientas como Ciencia de Datos, Aprendizaje Automático (ML), Sistemas de Información Geográfica (SIG) y análisis espacial, cuya integración puede mejorar los procesos y apoyar la toma de decisiones. Este estudio tuvo como objetivo explorar la aplicabilidad de estas herramientas para abordar la mortalidad infantil durante el primer año de vida en la Región Metropolitana del Vale do Paraíba y Litoral Norte (RMVPLN), en el Estado de São Paulo. La metodología adoptada incluyó la utilización de datos del Departamento de Informática del Sistema Único de Salud (DATASUS) y la aplicación de análisis exploratorio de datos, análisis espacial y desarrollo de modelos de predicción y pronóstico, con propuestas de soluciones para la toma de decisiones en diferentes niveles: estratégico, táctico y operativo. A nivel táctico, se utilizaron datos de 2010 a 2020, considerando las tasas de mortalidad infantil (TMI), neonatal (TMN) y post-neonatal, además de determinantes asociados. Se empleó el índice univariado y bivariado de Moran para medir el grado de asociación espacial en la RMVPLN. A nivel estratégico, se aplicaron técnicas de regresión de ML para modelos de pronóstico, entrenados con datos de 2010 a 2020, de la ocurrencia mensual de muertes neonatales, post-neonatales e infantiles, siendo validados con datos de 2021. A nivel operativo, se entrenaron modelos binarios y multiclase utilizando técnicas de clasificación, con datos etiquetados de 2010 a 2019, validados con datos de 2020. En ambos casos, el rendimiento de los modelos fue evaluado mediante métricas de error y pruebas estadísticas específicas para cada enfoque, garantizando la confiabilidad, robustez y aplicabilidad práctica de los resultados obtenidos. Los resultados mostraron que la reducción de la TMI fue principalmente atribuida a la disminución de las muertes post-neonatales. El análisis espacial reveló agrupamientos de alto riesgo en la región Norte-Central para la TMI y la TMN. Los modelos de ML para pronóstico de muertes mostraron buena precisión, siendo los mejores modelos: RF (lag = 2, RMSE = 6,03) para la mortalidad infantil, GB (lag = 2, RMSE = 4,16) para la neonatal y SVM (lag = 3, RMSE = 3,162) para la post-neonatal. Para la identificación de riesgo de muerte, los modelos entrenados tuvieron una precisión y AUC superiores al 90% y 91%, respectivamente, para los modelos binarios, y por encima del 81% y 82% para los modelos multiclase. Los mejores modelos fueron los entrenados con SVM (precisión = 92,88%, AUC = 0,934) para el modelo binario, y con XGB (precisión = 88,38%, AUC = 0,876) para el modelo multiclase. Se concluye que la utilización de SIG, análisis espacial y ML puede mejorar significativamente la atención al recién nacido vivo, alineándose con los Objetivos de Desarrollo Sostenible. Además, las metodologías propuestas ofrecen beneficios sustanciales para la toma de decisiones, permitiendo optimizar el uso de recursos e intervenciones, además de contribuir a la mejora de la calidad de la atención al recién nacido y garantizar su supervivencia.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: 001Universidade Estadual Paulista (Unesp)Marins, Fernando Augusto Silva [UNESP]Universidade Estadual Paulista (UNESP)Universidade Estadual Paulista (Unesp)Nascimento, Luiz Fernando Costa [UNESP]Silva, Aneirson Francisco [UNESP]Rodríguez, Elen Yanina Aguirre [UNESP]2025-05-16T18:50:39Z2025-02-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfAGUIRRE RODRÍGUEZ, Elen Yanina A. Data science e machine learning aplicado na mortalidade infantil na região metropolitana do Vale do Paraíba e Litoral Norte. Orientador: Fernando Augusto Silva Marins. 2025. 262f.Tese (Doutorado em Engenharia) - Faculdade de Engenharia e Ciências, Universidade Estadual Paulista, Guaratinguetá, 2025.https://hdl.handle.net/11449/31047333004080027P650844520209999990000-0002-3829-4118porhttp://lattes.cnpq.br/5084452020999999https://orcid.org/0000-0002-3829-4118info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2025-11-12T05:06:06Zoai:repositorio.unesp.br:11449/310473Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462025-11-12T05:06:06Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Data Science e Machine Learning aplicado na mortalidade infantil na Região Metropolitana do Vale do Paraíba e Litoral Norte
Data Science and Machine Learning applied to infant mortality in the Metropolitan Region of Vale do Paraíba and Litoral Norte
Ciencia de Datos y Aprendizaje Automático aplicados a la mortalidad infantil en la Región Metropolitana del Vale do Paraíba y Litoral Norte
title Data Science e Machine Learning aplicado na mortalidade infantil na Região Metropolitana do Vale do Paraíba e Litoral Norte
spellingShingle Data Science e Machine Learning aplicado na mortalidade infantil na Região Metropolitana do Vale do Paraíba e Litoral Norte
Rodríguez, Elen Yanina Aguirre [UNESP]
Ciência de dados
Aprendizado do computador
Análise espacial (Estatística)
Mortalidade infantil
Mortalidade neonatal
Mortalidade Pós-neonatal
Armazenamento de dados
Data science
Machine learning
Spatial analysis
Infant mortality
Neonatal mortality
Post-neonatal mortality
Ciencia de datos
Aprendizaje automático
Análisis espacial
Mortalidad infantil
Mortalidad neonatal
Mortalidad post-neonatal
title_short Data Science e Machine Learning aplicado na mortalidade infantil na Região Metropolitana do Vale do Paraíba e Litoral Norte
title_full Data Science e Machine Learning aplicado na mortalidade infantil na Região Metropolitana do Vale do Paraíba e Litoral Norte
title_fullStr Data Science e Machine Learning aplicado na mortalidade infantil na Região Metropolitana do Vale do Paraíba e Litoral Norte
title_full_unstemmed Data Science e Machine Learning aplicado na mortalidade infantil na Região Metropolitana do Vale do Paraíba e Litoral Norte
title_sort Data Science e Machine Learning aplicado na mortalidade infantil na Região Metropolitana do Vale do Paraíba e Litoral Norte
author Rodríguez, Elen Yanina Aguirre [UNESP]
author_facet Rodríguez, Elen Yanina Aguirre [UNESP]
author_role author
dc.contributor.none.fl_str_mv Marins, Fernando Augusto Silva [UNESP]
Universidade Estadual Paulista (UNESP)
Universidade Estadual Paulista (Unesp)
Nascimento, Luiz Fernando Costa [UNESP]
Silva, Aneirson Francisco [UNESP]
dc.contributor.author.fl_str_mv Rodríguez, Elen Yanina Aguirre [UNESP]
dc.subject.por.fl_str_mv Ciência de dados
Aprendizado do computador
Análise espacial (Estatística)
Mortalidade infantil
Mortalidade neonatal
Mortalidade Pós-neonatal
Armazenamento de dados
Data science
Machine learning
Spatial analysis
Infant mortality
Neonatal mortality
Post-neonatal mortality
Ciencia de datos
Aprendizaje automático
Análisis espacial
Mortalidad infantil
Mortalidad neonatal
Mortalidad post-neonatal
topic Ciência de dados
Aprendizado do computador
Análise espacial (Estatística)
Mortalidade infantil
Mortalidade neonatal
Mortalidade Pós-neonatal
Armazenamento de dados
Data science
Machine learning
Spatial analysis
Infant mortality
Neonatal mortality
Post-neonatal mortality
Ciencia de datos
Aprendizaje automático
Análisis espacial
Mortalidad infantil
Mortalidad neonatal
Mortalidad post-neonatal
description A mortalidade infantil reflete a saúde pública e a qualidade da assistência oferecida à mãe e ao recém-nascido. Com o objetivo de reduzir essa mortalidade e outros problemas de saúde, tem-se observado um crescente interesse em utilizar ferramentas como Ciência de Dados, Aprendizado de Máquina (ML), Sistemas de Informação Geográfica (SIG) e análise espacial, cuja integração pode aprimorar os processos e apoiar decisões. Este estudo teve como objetivo explorar a aplicabilidade dessas ferramentas para abordar a mortalidade infantil durante o primeiro ano de vida na Região Metropolitana do Vale do Paraíba e Litoral Norte (RMVPLN), no Estado de São Paulo. A metodologia adotada incluiu a utilização de dados do Departamento de Informática do Sistema Único de Saúde (DATASUS) e a aplicação de análise exploratória de dados, análise espacial e desenvolvimento de modelos de previsão e predição, com propostas de soluções para a tomada de decisões em diferentes níveis: estratégico, tático e operacional. No nível tático, utilizou-se os dados de 2010 a 2020, considerando as taxas de mortalidade infantil (TMI), neonatal (TMN) e pós-neonatal, além de determinantes associados. Foi utilizado o índice univariado e bivariado de Moran para medir o grau de associação espacial na RMVPLN. No nível estratégico, foram aplicadas técnicas de regressão de ML para modelos de previsão, treinados com dados de 2010 a 2020, da ocorrência mensal de óbitos neonatais, pós-neonatais e infantis, sendo validados com dados de 2021. No nível operacional, treinaram-se modelos binários e multiclasse, utilizando técnicas de classificação, com dados rotulados de 2010 a 2019, validados com dados de 2020. Em ambos os casos, o desempenho dos modelos foi avaliado por meio de métricas de erro e testes estatísticos específicos para cada abordagem, garantindo a confiabilidade, robustez e aplicabilidade prática dos resultados obtidos. Os resultados mostraram que a redução da TMI foi principalmente atribuída à diminuição dos óbitos pós-neonatais. A análise espacial revelou agrupamentos de alto risco na região Norte Central para a TMI e TMN. Os modelos de ML para previsão de óbitos apresentaram boa precisão, sendo os melhores modelos: RF (lag = 2, RMSE = 6,03) para a mortalidade infantil, GB (lag = 2, RMSE = 4,16) para a neonatal e SVM (lag = 3, RMSE = 3,162) para a pós-neonatal. Para a identificação de risco de óbito, os modelos treinados tiveram acurácia e AUC superior a 90% e 91%, respetivamente, para os modelos binários, e acima de 81% e 82% para os modelos multiclasse. Os melhores modelos foram os treinados com SVM (acurácia = 92,88%, AUC = 0,934) para o modelo binário, e com XGB (acurácia = 88,38%, AUC = 0,876) para o modelo multiclasse. Conclui-se que a utilização de SIG, análise espacial e ML pode melhorar significativamente o cuidado do nascido vivo, alinhando-se aos Objetivos de Desenvolvimento Sustentável. Além disso, as sistemáticas propostas oferecem benefícios substanciais para a tomada de decisões, permitindo otimizar o uso de recursos e intervenções, além de contribuir para a melhoria da qualidade do cuidado ao recém-nascido e garantir sua sobrevivência.
publishDate 2025
dc.date.none.fl_str_mv 2025-05-16T18:50:39Z
2025-02-06
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv AGUIRRE RODRÍGUEZ, Elen Yanina A. Data science e machine learning aplicado na mortalidade infantil na região metropolitana do Vale do Paraíba e Litoral Norte. Orientador: Fernando Augusto Silva Marins. 2025. 262f.Tese (Doutorado em Engenharia) - Faculdade de Engenharia e Ciências, Universidade Estadual Paulista, Guaratinguetá, 2025.
https://hdl.handle.net/11449/310473
33004080027P6
5084452020999999
0000-0002-3829-4118
identifier_str_mv AGUIRRE RODRÍGUEZ, Elen Yanina A. Data science e machine learning aplicado na mortalidade infantil na região metropolitana do Vale do Paraíba e Litoral Norte. Orientador: Fernando Augusto Silva Marins. 2025. 262f.Tese (Doutorado em Engenharia) - Faculdade de Engenharia e Ciências, Universidade Estadual Paulista, Guaratinguetá, 2025.
33004080027P6
5084452020999999
0000-0002-3829-4118
url https://hdl.handle.net/11449/310473
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv http://lattes.cnpq.br/5084452020999999
https://orcid.org/0000-0002-3829-4118
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv repositoriounesp@unesp.br
_version_ 1854954443862179840