Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Bigoto, Murilo Afonso Robiati
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/95/95131/tde-22112025-113709/
Resumo: O crescente volume de dados em saúde tem impulsionado o uso de inteligência artificial (IA) para o desenvolvimento de modelos preditivos. Contudo, a natureza sensível e fragmentada dos dados clínicos, protegida por legislações como a Lei Geral de Proteção de Dados Pessoais (LGPD) no Brasil, impõe barreiras significativas à centralização necessária para o treinamento dos algoritmos. Neste contexto, o aprendizado federado emerge como um paradigma que permite a colaboração entre instituições para treinar modelos robustos sem o compartilhamento de dados brutos, preservando a privacidade e a governança local. Esta dissertação teve como objetivo avaliar a viabilidade e a performance de diferentes arquiteturas de aprendizado federado na tarefa de predição de mortalidade por COVID-19 em um cenário real e heterogêneo. A abordagem metodológica foi fundamentada em uma coorte multicêntrica de 17.022 pacientes de 21 hospitais da rede IACOV-BR, abrangendo as cinco regiões do Brasil. Foram desenhados e comparados dois cenários experimentais: o Cenário I, baseado na agregação de parâmetros (FedAvg) de modelos de Regressão Logística (RL) e Perceptron de Múltiplas Camadas (MLP); e o Cenário II, focado na agregação de árvores de decisão, com uma implementação proprietária para Floresta Aleatória (RF) e o uso da estratégia FedXgbBagging para o XGBoost. Os resultados demonstraram relativa superioridade da abordagem federada, com os modelos globais alcançando AUC-ROC médias mais elevadas nos cenários explorados. Para a Floresta Aleatória, a performance média subiu de 0,7626 nos modelos locais para 0,7996 no modelo federado. De forma similar, a Regressão Logística teve sua AUC média elevada de 0,7638 para 0,7935. O MLP, partindo da maior base local (0,8147), alcançou a maior performance federada absoluta (0,8403), enquanto o XGBoost também apresentou um aumento, de 0,7446 para 0,7740. Adicionalmente, a análise revelou que estes benefícios foram mais pronunciados em hospitais com menor volume de dados e que a convergência da rede ocorreu de forma eficiente em poucas rodadas (t ≈ 5). A dissertação traz resultados de como o aprendizado federado pode ajudar hospitais a predizerem contextos de dados externos, no qual os modelos federados exibiram uma performance superior à dos modelos locais, mostrando-se uma abordagem viável e de alto impacto para o desenvolvimento de modelos de IA em um sistema de saúde heterogêneo como o brasileiro. A sua principal contribuição não reside apenas no ganho de performance em dados locais, mas na criação de modelos estáveis e com capacidade de atuar em diversas populações de pacientes, que é uma característica indispensável para a aplicação clínica confiável. Este trabalho, portanto, coloca o aprendizado federado como uma tecnologia importante para o futuro da saúde preditiva, promovendo um avanço que é simultaneamente equitativo e respeitoso à privacidade.
id USP_7cfb6309cd9c28b5cb4149e6fcd0837c
oai_identifier_str oai:teses.usp.br:tde-22112025-113709
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19Use of Federated Learning on Multicenter Hospital Samples for Predicting Mortality of Hospitalized Patients with COVID-19.Aprendizado de máquinaAprendizado federadoArtificial intelligenceBioinformáticaBioinformaticsFederated learningHealth predictionInteligência artificialMachine learningPredição em saúdeO crescente volume de dados em saúde tem impulsionado o uso de inteligência artificial (IA) para o desenvolvimento de modelos preditivos. Contudo, a natureza sensível e fragmentada dos dados clínicos, protegida por legislações como a Lei Geral de Proteção de Dados Pessoais (LGPD) no Brasil, impõe barreiras significativas à centralização necessária para o treinamento dos algoritmos. Neste contexto, o aprendizado federado emerge como um paradigma que permite a colaboração entre instituições para treinar modelos robustos sem o compartilhamento de dados brutos, preservando a privacidade e a governança local. Esta dissertação teve como objetivo avaliar a viabilidade e a performance de diferentes arquiteturas de aprendizado federado na tarefa de predição de mortalidade por COVID-19 em um cenário real e heterogêneo. A abordagem metodológica foi fundamentada em uma coorte multicêntrica de 17.022 pacientes de 21 hospitais da rede IACOV-BR, abrangendo as cinco regiões do Brasil. Foram desenhados e comparados dois cenários experimentais: o Cenário I, baseado na agregação de parâmetros (FedAvg) de modelos de Regressão Logística (RL) e Perceptron de Múltiplas Camadas (MLP); e o Cenário II, focado na agregação de árvores de decisão, com uma implementação proprietária para Floresta Aleatória (RF) e o uso da estratégia FedXgbBagging para o XGBoost. Os resultados demonstraram relativa superioridade da abordagem federada, com os modelos globais alcançando AUC-ROC médias mais elevadas nos cenários explorados. Para a Floresta Aleatória, a performance média subiu de 0,7626 nos modelos locais para 0,7996 no modelo federado. De forma similar, a Regressão Logística teve sua AUC média elevada de 0,7638 para 0,7935. O MLP, partindo da maior base local (0,8147), alcançou a maior performance federada absoluta (0,8403), enquanto o XGBoost também apresentou um aumento, de 0,7446 para 0,7740. Adicionalmente, a análise revelou que estes benefícios foram mais pronunciados em hospitais com menor volume de dados e que a convergência da rede ocorreu de forma eficiente em poucas rodadas (t ≈ 5). A dissertação traz resultados de como o aprendizado federado pode ajudar hospitais a predizerem contextos de dados externos, no qual os modelos federados exibiram uma performance superior à dos modelos locais, mostrando-se uma abordagem viável e de alto impacto para o desenvolvimento de modelos de IA em um sistema de saúde heterogêneo como o brasileiro. A sua principal contribuição não reside apenas no ganho de performance em dados locais, mas na criação de modelos estáveis e com capacidade de atuar em diversas populações de pacientes, que é uma característica indispensável para a aplicação clínica confiável. Este trabalho, portanto, coloca o aprendizado federado como uma tecnologia importante para o futuro da saúde preditiva, promovendo um avanço que é simultaneamente equitativo e respeitoso à privacidade.The increasing volume of healthcare data has driven the use of artificial intelligence for developing predictive models. However, the sensitive and fragmented nature of clinical data, protected by regulatory frameworks such as the General Data Protection Law (LGPD) in Brazil, imposes significant barriers to the data centralization required for algorithm training. In this context, federated learning (FL) emerges as a paradigm that enables inter-institutional collaboration to train robust models without sharing raw data, thus preserving privacy and local governance. This dissertation aimed to evaluate the viability and performance of different federated learning architectures for the task of predicting COVID-19 mortality within a real-world, heterogeneous setting. The methodology was grounded in a multicenter cohort of 17,022 patients from 21 hospitals across all five regions of Brazil, provided by the IACOV-BR network. Two experimental scenarios were designed and compared: Scenario I, based on parameter aggregation (FedAvg) for Logistic Regression (LR) and Multilayer Perceptron (MLP) models; and Scenario II, focused on decision tree aggregation, featuring a proprietary implementation for Random Forest (RF) and the FedXgbBagging strategy for XGBoost. The results consistently demonstrated the superiority of the federated approach, with the global models achieving higher average AUC-ROC scores across all scenarios. The average performance for Random Forest increased from 0.7626 (local) to 0.7996 (federated). Similarly, Logistic Regressions average AUC was elevated from 0.7638 to 0.7935. The MLP, which had the highest local baseline (0.8147), achieved the highest absolute federated performance (0.8403), while XGBoost also exhibited a robust increase from 0.7446 to 0.7740. Furthermore, the analysis revealed that these benefits were more pronounced in hospitals with smaller data volumes and that network convergence was efficiently achieved in a few communication rounds (t ≈ 5). Crucially, the evaluation on external data cohorts demonstrated that federated models exhibited vastly superior performance compared to local models, which proved fragile outside their training domain. In conclusion, Federated Learning is a viable and high-impact approach for developing AI models in a heterogeneous healthcare system such as Brazils. Its primary contribution lies not only in the performance gain on local data but in the creation of stable models with a strong capacity to generalize across diverse patient populations, which is an indispensable characteristic for reliable clinical application. This work, therefore, validates federated learning as a key technology for the future of predictive health, promoting an advancement that is simultaneously accurate, equitable, and privacy-preserving.Biblioteca Digitais de Teses e Dissertações da USPChiavegatto Filho, Alexandre Dias PortoBigoto, Murilo Afonso Robiati2025-11-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/95/95131/tde-22112025-113709/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-11-27T18:23:08Zoai:teses.usp.br:tde-22112025-113709Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-11-27T18:23:08Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19
Use of Federated Learning on Multicenter Hospital Samples for Predicting Mortality of Hospitalized Patients with COVID-19.
title Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19
spellingShingle Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19
Bigoto, Murilo Afonso Robiati
Aprendizado de máquina
Aprendizado federado
Artificial intelligence
Bioinformática
Bioinformatics
Federated learning
Health prediction
Inteligência artificial
Machine learning
Predição em saúde
title_short Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19
title_full Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19
title_fullStr Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19
title_full_unstemmed Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19
title_sort Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19
author Bigoto, Murilo Afonso Robiati
author_facet Bigoto, Murilo Afonso Robiati
author_role author
dc.contributor.none.fl_str_mv Chiavegatto Filho, Alexandre Dias Porto
dc.contributor.author.fl_str_mv Bigoto, Murilo Afonso Robiati
dc.subject.por.fl_str_mv Aprendizado de máquina
Aprendizado federado
Artificial intelligence
Bioinformática
Bioinformatics
Federated learning
Health prediction
Inteligência artificial
Machine learning
Predição em saúde
topic Aprendizado de máquina
Aprendizado federado
Artificial intelligence
Bioinformática
Bioinformatics
Federated learning
Health prediction
Inteligência artificial
Machine learning
Predição em saúde
description O crescente volume de dados em saúde tem impulsionado o uso de inteligência artificial (IA) para o desenvolvimento de modelos preditivos. Contudo, a natureza sensível e fragmentada dos dados clínicos, protegida por legislações como a Lei Geral de Proteção de Dados Pessoais (LGPD) no Brasil, impõe barreiras significativas à centralização necessária para o treinamento dos algoritmos. Neste contexto, o aprendizado federado emerge como um paradigma que permite a colaboração entre instituições para treinar modelos robustos sem o compartilhamento de dados brutos, preservando a privacidade e a governança local. Esta dissertação teve como objetivo avaliar a viabilidade e a performance de diferentes arquiteturas de aprendizado federado na tarefa de predição de mortalidade por COVID-19 em um cenário real e heterogêneo. A abordagem metodológica foi fundamentada em uma coorte multicêntrica de 17.022 pacientes de 21 hospitais da rede IACOV-BR, abrangendo as cinco regiões do Brasil. Foram desenhados e comparados dois cenários experimentais: o Cenário I, baseado na agregação de parâmetros (FedAvg) de modelos de Regressão Logística (RL) e Perceptron de Múltiplas Camadas (MLP); e o Cenário II, focado na agregação de árvores de decisão, com uma implementação proprietária para Floresta Aleatória (RF) e o uso da estratégia FedXgbBagging para o XGBoost. Os resultados demonstraram relativa superioridade da abordagem federada, com os modelos globais alcançando AUC-ROC médias mais elevadas nos cenários explorados. Para a Floresta Aleatória, a performance média subiu de 0,7626 nos modelos locais para 0,7996 no modelo federado. De forma similar, a Regressão Logística teve sua AUC média elevada de 0,7638 para 0,7935. O MLP, partindo da maior base local (0,8147), alcançou a maior performance federada absoluta (0,8403), enquanto o XGBoost também apresentou um aumento, de 0,7446 para 0,7740. Adicionalmente, a análise revelou que estes benefícios foram mais pronunciados em hospitais com menor volume de dados e que a convergência da rede ocorreu de forma eficiente em poucas rodadas (t ≈ 5). A dissertação traz resultados de como o aprendizado federado pode ajudar hospitais a predizerem contextos de dados externos, no qual os modelos federados exibiram uma performance superior à dos modelos locais, mostrando-se uma abordagem viável e de alto impacto para o desenvolvimento de modelos de IA em um sistema de saúde heterogêneo como o brasileiro. A sua principal contribuição não reside apenas no ganho de performance em dados locais, mas na criação de modelos estáveis e com capacidade de atuar em diversas populações de pacientes, que é uma característica indispensável para a aplicação clínica confiável. Este trabalho, portanto, coloca o aprendizado federado como uma tecnologia importante para o futuro da saúde preditiva, promovendo um avanço que é simultaneamente equitativo e respeitoso à privacidade.
publishDate 2025
dc.date.none.fl_str_mv 2025-11-10
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/95/95131/tde-22112025-113709/
url https://www.teses.usp.br/teses/disponiveis/95/95131/tde-22112025-113709/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1865492194311274496