Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Borba, Mariane Furtado
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/6/6141/tde-05022024-163230/
Resumo: A utilização de algoritmos de inteligência artificial tem crescido rapidamente nos últimos anos, aumentando o seu potencial de aplicação em saúde pública. Algoritmos de machine learning (ML) são capazes de auxiliar na predição de desfechos complexos e na tomada de decisões por parte dos profissionais da área da saúde. Esta tese tem como objetivo analisar a capacidade de generalização dos algoritmos na área da saúde e aplicar modelos de ML para predições utilizando dados tabulares frequentemente coletados nos sistemas de saúde. A tese será defendida sob a forma de três artigos científicos. O primeiro artigo realizou uma revisão sistemática da literatura sobre a capacidade de generalização de modelos de ML em saúde. Os resultados indicaram que, apesar de ainda limitada, a literatura sobre generalização em saúde está crescendo nos últimos anos em parte como uma demanda das próprias revistas científicas. O segundo artigo desenvolveu e avaliou a performance da validação externa de um algoritmo de ML no contexto da predição de risco de mortalidade neonatal. O modelo foi desenvolvido utilizando Extreme Gradient Boosting (XGB) em dados de São Paulo de 2012 a 2015, incluindo 807.932 nascidos vivos e 5.518 óbitos neonatais. Foi realizada a validação externa do algoritmo em 1.161 municípios brasileiros, incluindo todas as capitais de estado para o ano ele 2016, totalizando 2.848.052 nascidos vivos e 23.948 óbitos neonatais. Os resultados mostraram que os municípios que ofertam estruturas de maior complexidade obtiveram uma performance similar ou mesmo superior ao modelo base desenvolvido com dados do município de São Paulo. No terceiro e último artigo desta tese, foi realizada uma análise da aplicação da técnica de generalização conhecida como transfer learning nos dados da Rede IACOV-BR para predizer óbito entre pacientes internados por Covid-19 usando dados de prontuário de 16.236 pacientes de 18 hospitais brasileiros coletados no primeiro trimestre de 2020 durante o início da pandemia de Covid-19 no Brasil. A abordagem desse artigo propôs uma comparação entre uma nova solução capaz de predizer o progresso clínico dos pacientes com Covid- 19 versus a abordagem já aplicada para predições tabulares em saúde. Os resultados indicam que apesar de promissora, a técnica de transfer learning convencional não se mostrou superior aos resultados de performance obtidos localmente com os algoritmos de boosting utilizados para dados tabulares. Os resultados desta tese apontam para a importância da generalização dos algoritmos de ML em saúde, ao mesmo tempo que os desafios técnicos ainda persistem em relação à manutenção da performance preditiva nas diferentes localidades.
id USP_3dad16930cba67785f0eea7d148463bf
oai_identifier_str oai:teses.usp.br:tde-05022024-163230
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúdeGeneralization analysis of machine learning algorithms and their applications in optimizing health decisionsDecisões em SaúdeGeneralizaçãoGeneralizationHealth DecisionsMachine LearningMachine LearningModelos PreditivosPredictive ModelsA utilização de algoritmos de inteligência artificial tem crescido rapidamente nos últimos anos, aumentando o seu potencial de aplicação em saúde pública. Algoritmos de machine learning (ML) são capazes de auxiliar na predição de desfechos complexos e na tomada de decisões por parte dos profissionais da área da saúde. Esta tese tem como objetivo analisar a capacidade de generalização dos algoritmos na área da saúde e aplicar modelos de ML para predições utilizando dados tabulares frequentemente coletados nos sistemas de saúde. A tese será defendida sob a forma de três artigos científicos. O primeiro artigo realizou uma revisão sistemática da literatura sobre a capacidade de generalização de modelos de ML em saúde. Os resultados indicaram que, apesar de ainda limitada, a literatura sobre generalização em saúde está crescendo nos últimos anos em parte como uma demanda das próprias revistas científicas. O segundo artigo desenvolveu e avaliou a performance da validação externa de um algoritmo de ML no contexto da predição de risco de mortalidade neonatal. O modelo foi desenvolvido utilizando Extreme Gradient Boosting (XGB) em dados de São Paulo de 2012 a 2015, incluindo 807.932 nascidos vivos e 5.518 óbitos neonatais. Foi realizada a validação externa do algoritmo em 1.161 municípios brasileiros, incluindo todas as capitais de estado para o ano ele 2016, totalizando 2.848.052 nascidos vivos e 23.948 óbitos neonatais. Os resultados mostraram que os municípios que ofertam estruturas de maior complexidade obtiveram uma performance similar ou mesmo superior ao modelo base desenvolvido com dados do município de São Paulo. No terceiro e último artigo desta tese, foi realizada uma análise da aplicação da técnica de generalização conhecida como transfer learning nos dados da Rede IACOV-BR para predizer óbito entre pacientes internados por Covid-19 usando dados de prontuário de 16.236 pacientes de 18 hospitais brasileiros coletados no primeiro trimestre de 2020 durante o início da pandemia de Covid-19 no Brasil. A abordagem desse artigo propôs uma comparação entre uma nova solução capaz de predizer o progresso clínico dos pacientes com Covid- 19 versus a abordagem já aplicada para predições tabulares em saúde. Os resultados indicam que apesar de promissora, a técnica de transfer learning convencional não se mostrou superior aos resultados de performance obtidos localmente com os algoritmos de boosting utilizados para dados tabulares. Os resultados desta tese apontam para a importância da generalização dos algoritmos de ML em saúde, ao mesmo tempo que os desafios técnicos ainda persistem em relação à manutenção da performance preditiva nas diferentes localidades.The use of artificial intelligence algorithms has significantly increased in recent years, increasing their potential for application in public health. ML algorithms (ML) can assist in the prediction of complex outcomes and in decision-making by healthcare professionals. This thesis aims to analyze the algorithmic generalization capability in healthcare and apply ML models for the prediction of health outcomes from tabular data frequently collected in healthcare systems. The thesis will be defended as three scientific articles. The first article conducted a systematic literature review on the generalization capability of ML models in healthcare. The results indicated that, although still limited, the literature on generalization in healthcare has been growing in recent years, in part as demand from journals themselves. The second article evaluated the performance of external validation of an ML algorithm in the context of predicting neonatal mortality risk. The model was developed using Extreme Gradient Boosting (XGB) on São Paulo data from 2012 to 2015, including 807,932 live births and 5,518 neonatal deaths. External validation of the algorithm was performed in 1,161 Brazilian municipalities, including all state capitals in 2016, totaling 2,848,052 live births and 23,948 neonatal deaths. The results showed that municipalities offering more complex structures obtained similar or even superior performance to the base model developed with data from the municipality of São Paulo. In the third and final article of this thesis, an analysis of the application of the generalization technique known as transfer learning was performed on IACOV-BR Network data to predict death from Covid-19 using medical record data from 16,236 patients from 18 Brazilian hospitals collected in the first quarter of 2020 during the early Covid-19 pandemic in Brazil. The results indicate that, although promising, the conventional transfer learning technique did not prove superior to locally obtained performance results with traditional boosting algorithms. The approach of this article proposed a comparison between a new solution for predicting the clinical progress of Covid-19 patients versus the approach already applied for tabular predictions in healthcare. The results of this thesis point to the importance of the generalization of ML algorithms in healthcare, while technical challenges persist regarding the maintenance of predictive performance in different locations.Biblioteca Digitais de Teses e Dissertações da USPBatista, André Filipe de MoraesChiavegatto Filho, Alexandre Dias PortoBorba, Mariane Furtado2023-05-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/6/6141/tde-05022024-163230/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-02-05T20:41:37Zoai:teses.usp.br:tde-05022024-163230Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-02-05T20:41:37Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde
Generalization analysis of machine learning algorithms and their applications in optimizing health decisions
title Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde
spellingShingle Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde
Borba, Mariane Furtado
Decisões em Saúde
Generalização
Generalization
Health Decisions
Machine Learning
Machine Learning
Modelos Preditivos
Predictive Models
title_short Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde
title_full Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde
title_fullStr Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde
title_full_unstemmed Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde
title_sort Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde
author Borba, Mariane Furtado
author_facet Borba, Mariane Furtado
author_role author
dc.contributor.none.fl_str_mv Batista, André Filipe de Moraes
Chiavegatto Filho, Alexandre Dias Porto
dc.contributor.author.fl_str_mv Borba, Mariane Furtado
dc.subject.por.fl_str_mv Decisões em Saúde
Generalização
Generalization
Health Decisions
Machine Learning
Machine Learning
Modelos Preditivos
Predictive Models
topic Decisões em Saúde
Generalização
Generalization
Health Decisions
Machine Learning
Machine Learning
Modelos Preditivos
Predictive Models
description A utilização de algoritmos de inteligência artificial tem crescido rapidamente nos últimos anos, aumentando o seu potencial de aplicação em saúde pública. Algoritmos de machine learning (ML) são capazes de auxiliar na predição de desfechos complexos e na tomada de decisões por parte dos profissionais da área da saúde. Esta tese tem como objetivo analisar a capacidade de generalização dos algoritmos na área da saúde e aplicar modelos de ML para predições utilizando dados tabulares frequentemente coletados nos sistemas de saúde. A tese será defendida sob a forma de três artigos científicos. O primeiro artigo realizou uma revisão sistemática da literatura sobre a capacidade de generalização de modelos de ML em saúde. Os resultados indicaram que, apesar de ainda limitada, a literatura sobre generalização em saúde está crescendo nos últimos anos em parte como uma demanda das próprias revistas científicas. O segundo artigo desenvolveu e avaliou a performance da validação externa de um algoritmo de ML no contexto da predição de risco de mortalidade neonatal. O modelo foi desenvolvido utilizando Extreme Gradient Boosting (XGB) em dados de São Paulo de 2012 a 2015, incluindo 807.932 nascidos vivos e 5.518 óbitos neonatais. Foi realizada a validação externa do algoritmo em 1.161 municípios brasileiros, incluindo todas as capitais de estado para o ano ele 2016, totalizando 2.848.052 nascidos vivos e 23.948 óbitos neonatais. Os resultados mostraram que os municípios que ofertam estruturas de maior complexidade obtiveram uma performance similar ou mesmo superior ao modelo base desenvolvido com dados do município de São Paulo. No terceiro e último artigo desta tese, foi realizada uma análise da aplicação da técnica de generalização conhecida como transfer learning nos dados da Rede IACOV-BR para predizer óbito entre pacientes internados por Covid-19 usando dados de prontuário de 16.236 pacientes de 18 hospitais brasileiros coletados no primeiro trimestre de 2020 durante o início da pandemia de Covid-19 no Brasil. A abordagem desse artigo propôs uma comparação entre uma nova solução capaz de predizer o progresso clínico dos pacientes com Covid- 19 versus a abordagem já aplicada para predições tabulares em saúde. Os resultados indicam que apesar de promissora, a técnica de transfer learning convencional não se mostrou superior aos resultados de performance obtidos localmente com os algoritmos de boosting utilizados para dados tabulares. Os resultados desta tese apontam para a importância da generalização dos algoritmos de ML em saúde, ao mesmo tempo que os desafios técnicos ainda persistem em relação à manutenção da performance preditiva nas diferentes localidades.
publishDate 2023
dc.date.none.fl_str_mv 2023-05-19
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/6/6141/tde-05022024-163230/
url https://www.teses.usp.br/teses/disponiveis/6/6141/tde-05022024-163230/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257874787467264