Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde
| Ano de defesa: | 2023 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/6/6141/tde-05022024-163230/ |
Resumo: | A utilização de algoritmos de inteligência artificial tem crescido rapidamente nos últimos anos, aumentando o seu potencial de aplicação em saúde pública. Algoritmos de machine learning (ML) são capazes de auxiliar na predição de desfechos complexos e na tomada de decisões por parte dos profissionais da área da saúde. Esta tese tem como objetivo analisar a capacidade de generalização dos algoritmos na área da saúde e aplicar modelos de ML para predições utilizando dados tabulares frequentemente coletados nos sistemas de saúde. A tese será defendida sob a forma de três artigos científicos. O primeiro artigo realizou uma revisão sistemática da literatura sobre a capacidade de generalização de modelos de ML em saúde. Os resultados indicaram que, apesar de ainda limitada, a literatura sobre generalização em saúde está crescendo nos últimos anos em parte como uma demanda das próprias revistas científicas. O segundo artigo desenvolveu e avaliou a performance da validação externa de um algoritmo de ML no contexto da predição de risco de mortalidade neonatal. O modelo foi desenvolvido utilizando Extreme Gradient Boosting (XGB) em dados de São Paulo de 2012 a 2015, incluindo 807.932 nascidos vivos e 5.518 óbitos neonatais. Foi realizada a validação externa do algoritmo em 1.161 municípios brasileiros, incluindo todas as capitais de estado para o ano ele 2016, totalizando 2.848.052 nascidos vivos e 23.948 óbitos neonatais. Os resultados mostraram que os municípios que ofertam estruturas de maior complexidade obtiveram uma performance similar ou mesmo superior ao modelo base desenvolvido com dados do município de São Paulo. No terceiro e último artigo desta tese, foi realizada uma análise da aplicação da técnica de generalização conhecida como transfer learning nos dados da Rede IACOV-BR para predizer óbito entre pacientes internados por Covid-19 usando dados de prontuário de 16.236 pacientes de 18 hospitais brasileiros coletados no primeiro trimestre de 2020 durante o início da pandemia de Covid-19 no Brasil. A abordagem desse artigo propôs uma comparação entre uma nova solução capaz de predizer o progresso clínico dos pacientes com Covid- 19 versus a abordagem já aplicada para predições tabulares em saúde. Os resultados indicam que apesar de promissora, a técnica de transfer learning convencional não se mostrou superior aos resultados de performance obtidos localmente com os algoritmos de boosting utilizados para dados tabulares. Os resultados desta tese apontam para a importância da generalização dos algoritmos de ML em saúde, ao mesmo tempo que os desafios técnicos ainda persistem em relação à manutenção da performance preditiva nas diferentes localidades. |
| id |
USP_3dad16930cba67785f0eea7d148463bf |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-05022024-163230 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúdeGeneralization analysis of machine learning algorithms and their applications in optimizing health decisionsDecisões em SaúdeGeneralizaçãoGeneralizationHealth DecisionsMachine LearningMachine LearningModelos PreditivosPredictive ModelsA utilização de algoritmos de inteligência artificial tem crescido rapidamente nos últimos anos, aumentando o seu potencial de aplicação em saúde pública. Algoritmos de machine learning (ML) são capazes de auxiliar na predição de desfechos complexos e na tomada de decisões por parte dos profissionais da área da saúde. Esta tese tem como objetivo analisar a capacidade de generalização dos algoritmos na área da saúde e aplicar modelos de ML para predições utilizando dados tabulares frequentemente coletados nos sistemas de saúde. A tese será defendida sob a forma de três artigos científicos. O primeiro artigo realizou uma revisão sistemática da literatura sobre a capacidade de generalização de modelos de ML em saúde. Os resultados indicaram que, apesar de ainda limitada, a literatura sobre generalização em saúde está crescendo nos últimos anos em parte como uma demanda das próprias revistas científicas. O segundo artigo desenvolveu e avaliou a performance da validação externa de um algoritmo de ML no contexto da predição de risco de mortalidade neonatal. O modelo foi desenvolvido utilizando Extreme Gradient Boosting (XGB) em dados de São Paulo de 2012 a 2015, incluindo 807.932 nascidos vivos e 5.518 óbitos neonatais. Foi realizada a validação externa do algoritmo em 1.161 municípios brasileiros, incluindo todas as capitais de estado para o ano ele 2016, totalizando 2.848.052 nascidos vivos e 23.948 óbitos neonatais. Os resultados mostraram que os municípios que ofertam estruturas de maior complexidade obtiveram uma performance similar ou mesmo superior ao modelo base desenvolvido com dados do município de São Paulo. No terceiro e último artigo desta tese, foi realizada uma análise da aplicação da técnica de generalização conhecida como transfer learning nos dados da Rede IACOV-BR para predizer óbito entre pacientes internados por Covid-19 usando dados de prontuário de 16.236 pacientes de 18 hospitais brasileiros coletados no primeiro trimestre de 2020 durante o início da pandemia de Covid-19 no Brasil. A abordagem desse artigo propôs uma comparação entre uma nova solução capaz de predizer o progresso clínico dos pacientes com Covid- 19 versus a abordagem já aplicada para predições tabulares em saúde. Os resultados indicam que apesar de promissora, a técnica de transfer learning convencional não se mostrou superior aos resultados de performance obtidos localmente com os algoritmos de boosting utilizados para dados tabulares. Os resultados desta tese apontam para a importância da generalização dos algoritmos de ML em saúde, ao mesmo tempo que os desafios técnicos ainda persistem em relação à manutenção da performance preditiva nas diferentes localidades.The use of artificial intelligence algorithms has significantly increased in recent years, increasing their potential for application in public health. ML algorithms (ML) can assist in the prediction of complex outcomes and in decision-making by healthcare professionals. This thesis aims to analyze the algorithmic generalization capability in healthcare and apply ML models for the prediction of health outcomes from tabular data frequently collected in healthcare systems. The thesis will be defended as three scientific articles. The first article conducted a systematic literature review on the generalization capability of ML models in healthcare. The results indicated that, although still limited, the literature on generalization in healthcare has been growing in recent years, in part as demand from journals themselves. The second article evaluated the performance of external validation of an ML algorithm in the context of predicting neonatal mortality risk. The model was developed using Extreme Gradient Boosting (XGB) on São Paulo data from 2012 to 2015, including 807,932 live births and 5,518 neonatal deaths. External validation of the algorithm was performed in 1,161 Brazilian municipalities, including all state capitals in 2016, totaling 2,848,052 live births and 23,948 neonatal deaths. The results showed that municipalities offering more complex structures obtained similar or even superior performance to the base model developed with data from the municipality of São Paulo. In the third and final article of this thesis, an analysis of the application of the generalization technique known as transfer learning was performed on IACOV-BR Network data to predict death from Covid-19 using medical record data from 16,236 patients from 18 Brazilian hospitals collected in the first quarter of 2020 during the early Covid-19 pandemic in Brazil. The results indicate that, although promising, the conventional transfer learning technique did not prove superior to locally obtained performance results with traditional boosting algorithms. The approach of this article proposed a comparison between a new solution for predicting the clinical progress of Covid-19 patients versus the approach already applied for tabular predictions in healthcare. The results of this thesis point to the importance of the generalization of ML algorithms in healthcare, while technical challenges persist regarding the maintenance of predictive performance in different locations.Biblioteca Digitais de Teses e Dissertações da USPBatista, André Filipe de MoraesChiavegatto Filho, Alexandre Dias PortoBorba, Mariane Furtado2023-05-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/6/6141/tde-05022024-163230/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-02-05T20:41:37Zoai:teses.usp.br:tde-05022024-163230Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-02-05T20:41:37Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde Generalization analysis of machine learning algorithms and their applications in optimizing health decisions |
| title |
Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde |
| spellingShingle |
Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde Borba, Mariane Furtado Decisões em Saúde Generalização Generalization Health Decisions Machine Learning Machine Learning Modelos Preditivos Predictive Models |
| title_short |
Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde |
| title_full |
Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde |
| title_fullStr |
Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde |
| title_full_unstemmed |
Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde |
| title_sort |
Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde |
| author |
Borba, Mariane Furtado |
| author_facet |
Borba, Mariane Furtado |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Batista, André Filipe de Moraes Chiavegatto Filho, Alexandre Dias Porto |
| dc.contributor.author.fl_str_mv |
Borba, Mariane Furtado |
| dc.subject.por.fl_str_mv |
Decisões em Saúde Generalização Generalization Health Decisions Machine Learning Machine Learning Modelos Preditivos Predictive Models |
| topic |
Decisões em Saúde Generalização Generalization Health Decisions Machine Learning Machine Learning Modelos Preditivos Predictive Models |
| description |
A utilização de algoritmos de inteligência artificial tem crescido rapidamente nos últimos anos, aumentando o seu potencial de aplicação em saúde pública. Algoritmos de machine learning (ML) são capazes de auxiliar na predição de desfechos complexos e na tomada de decisões por parte dos profissionais da área da saúde. Esta tese tem como objetivo analisar a capacidade de generalização dos algoritmos na área da saúde e aplicar modelos de ML para predições utilizando dados tabulares frequentemente coletados nos sistemas de saúde. A tese será defendida sob a forma de três artigos científicos. O primeiro artigo realizou uma revisão sistemática da literatura sobre a capacidade de generalização de modelos de ML em saúde. Os resultados indicaram que, apesar de ainda limitada, a literatura sobre generalização em saúde está crescendo nos últimos anos em parte como uma demanda das próprias revistas científicas. O segundo artigo desenvolveu e avaliou a performance da validação externa de um algoritmo de ML no contexto da predição de risco de mortalidade neonatal. O modelo foi desenvolvido utilizando Extreme Gradient Boosting (XGB) em dados de São Paulo de 2012 a 2015, incluindo 807.932 nascidos vivos e 5.518 óbitos neonatais. Foi realizada a validação externa do algoritmo em 1.161 municípios brasileiros, incluindo todas as capitais de estado para o ano ele 2016, totalizando 2.848.052 nascidos vivos e 23.948 óbitos neonatais. Os resultados mostraram que os municípios que ofertam estruturas de maior complexidade obtiveram uma performance similar ou mesmo superior ao modelo base desenvolvido com dados do município de São Paulo. No terceiro e último artigo desta tese, foi realizada uma análise da aplicação da técnica de generalização conhecida como transfer learning nos dados da Rede IACOV-BR para predizer óbito entre pacientes internados por Covid-19 usando dados de prontuário de 16.236 pacientes de 18 hospitais brasileiros coletados no primeiro trimestre de 2020 durante o início da pandemia de Covid-19 no Brasil. A abordagem desse artigo propôs uma comparação entre uma nova solução capaz de predizer o progresso clínico dos pacientes com Covid- 19 versus a abordagem já aplicada para predições tabulares em saúde. Os resultados indicam que apesar de promissora, a técnica de transfer learning convencional não se mostrou superior aos resultados de performance obtidos localmente com os algoritmos de boosting utilizados para dados tabulares. Os resultados desta tese apontam para a importância da generalização dos algoritmos de ML em saúde, ao mesmo tempo que os desafios técnicos ainda persistem em relação à manutenção da performance preditiva nas diferentes localidades. |
| publishDate |
2023 |
| dc.date.none.fl_str_mv |
2023-05-19 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/6/6141/tde-05022024-163230/ |
| url |
https://www.teses.usp.br/teses/disponiveis/6/6141/tde-05022024-163230/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1815257874787467264 |