Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19

Bigoto, Murilo Afonso Robiati

Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19

Detalhes bibliográficos
Ano de defesa:	2025
Autor(a) principal:	Bigoto, Murilo Afonso Robiati
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Aprendizado de máquina Aprendizado federado Artificial intelligence Bioinformática Bioinformatics Federated learning Health prediction Inteligência artificial Machine learning Predição em saúde
Link de acesso:	https://www.teses.usp.br/teses/disponiveis/95/95131/tde-22112025-113709/
Resumo:	O crescente volume de dados em saúde tem impulsionado o uso de inteligência artificial (IA) para o desenvolvimento de modelos preditivos. Contudo, a natureza sensível e fragmentada dos dados clínicos, protegida por legislações como a Lei Geral de Proteção de Dados Pessoais (LGPD) no Brasil, impõe barreiras significativas à centralização necessária para o treinamento dos algoritmos. Neste contexto, o aprendizado federado emerge como um paradigma que permite a colaboração entre instituições para treinar modelos robustos sem o compartilhamento de dados brutos, preservando a privacidade e a governança local. Esta dissertação teve como objetivo avaliar a viabilidade e a performance de diferentes arquiteturas de aprendizado federado na tarefa de predição de mortalidade por COVID-19 em um cenário real e heterogêneo. A abordagem metodológica foi fundamentada em uma coorte multicêntrica de 17.022 pacientes de 21 hospitais da rede IACOV-BR, abrangendo as cinco regiões do Brasil. Foram desenhados e comparados dois cenários experimentais: o Cenário I, baseado na agregação de parâmetros (FedAvg) de modelos de Regressão Logística (RL) e Perceptron de Múltiplas Camadas (MLP); e o Cenário II, focado na agregação de árvores de decisão, com uma implementação proprietária para Floresta Aleatória (RF) e o uso da estratégia FedXgbBagging para o XGBoost. Os resultados demonstraram relativa superioridade da abordagem federada, com os modelos globais alcançando AUC-ROC médias mais elevadas nos cenários explorados. Para a Floresta Aleatória, a performance média subiu de 0,7626 nos modelos locais para 0,7996 no modelo federado. De forma similar, a Regressão Logística teve sua AUC média elevada de 0,7638 para 0,7935. O MLP, partindo da maior base local (0,8147), alcançou a maior performance federada absoluta (0,8403), enquanto o XGBoost também apresentou um aumento, de 0,7446 para 0,7740. Adicionalmente, a análise revelou que estes benefícios foram mais pronunciados em hospitais com menor volume de dados e que a convergência da rede ocorreu de forma eficiente em poucas rodadas (t ≈ 5). A dissertação traz resultados de como o aprendizado federado pode ajudar hospitais a predizerem contextos de dados externos, no qual os modelos federados exibiram uma performance superior à dos modelos locais, mostrando-se uma abordagem viável e de alto impacto para o desenvolvimento de modelos de IA em um sistema de saúde heterogêneo como o brasileiro. A sua principal contribuição não reside apenas no ganho de performance em dados locais, mas na criação de modelos estáveis e com capacidade de atuar em diversas populações de pacientes, que é uma característica indispensável para a aplicação clínica confiável. Este trabalho, portanto, coloca o aprendizado federado como uma tecnologia importante para o futuro da saúde preditiva, promovendo um avanço que é simultaneamente equitativo e respeitoso à privacidade.

Metadados do item

id	USP_7cfb6309cd9c28b5cb4149e6fcd0837c
oai_identifier_str	oai:teses.usp.br:tde-22112025-113709
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling	Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19Use of Federated Learning on Multicenter Hospital Samples for Predicting Mortality of Hospitalized Patients with COVID-19.Aprendizado de máquinaAprendizado federadoArtificial intelligenceBioinformáticaBioinformaticsFederated learningHealth predictionInteligência artificialMachine learningPredição em saúdeO crescente volume de dados em saúde tem impulsionado o uso de inteligência artificial (IA) para o desenvolvimento de modelos preditivos. Contudo, a natureza sensível e fragmentada dos dados clínicos, protegida por legislações como a Lei Geral de Proteção de Dados Pessoais (LGPD) no Brasil, impõe barreiras significativas à centralização necessária para o treinamento dos algoritmos. Neste contexto, o aprendizado federado emerge como um paradigma que permite a colaboração entre instituições para treinar modelos robustos sem o compartilhamento de dados brutos, preservando a privacidade e a governança local. Esta dissertação teve como objetivo avaliar a viabilidade e a performance de diferentes arquiteturas de aprendizado federado na tarefa de predição de mortalidade por COVID-19 em um cenário real e heterogêneo. A abordagem metodológica foi fundamentada em uma coorte multicêntrica de 17.022 pacientes de 21 hospitais da rede IACOV-BR, abrangendo as cinco regiões do Brasil. Foram desenhados e comparados dois cenários experimentais: o Cenário I, baseado na agregação de parâmetros (FedAvg) de modelos de Regressão Logística (RL) e Perceptron de Múltiplas Camadas (MLP); e o Cenário II, focado na agregação de árvores de decisão, com uma implementação proprietária para Floresta Aleatória (RF) e o uso da estratégia FedXgbBagging para o XGBoost. Os resultados demonstraram relativa superioridade da abordagem federada, com os modelos globais alcançando AUC-ROC médias mais elevadas nos cenários explorados. Para a Floresta Aleatória, a performance média subiu de 0,7626 nos modelos locais para 0,7996 no modelo federado. De forma similar, a Regressão Logística teve sua AUC média elevada de 0,7638 para 0,7935. O MLP, partindo da maior base local (0,8147), alcançou a maior performance federada absoluta (0,8403), enquanto o XGBoost também apresentou um aumento, de 0,7446 para 0,7740. Adicionalmente, a análise revelou que estes benefícios foram mais pronunciados em hospitais com menor volume de dados e que a convergência da rede ocorreu de forma eficiente em poucas rodadas (t ≈ 5). A dissertação traz resultados de como o aprendizado federado pode ajudar hospitais a predizerem contextos de dados externos, no qual os modelos federados exibiram uma performance superior à dos modelos locais, mostrando-se uma abordagem viável e de alto impacto para o desenvolvimento de modelos de IA em um sistema de saúde heterogêneo como o brasileiro. A sua principal contribuição não reside apenas no ganho de performance em dados locais, mas na criação de modelos estáveis e com capacidade de atuar em diversas populações de pacientes, que é uma característica indispensável para a aplicação clínica confiável. Este trabalho, portanto, coloca o aprendizado federado como uma tecnologia importante para o futuro da saúde preditiva, promovendo um avanço que é simultaneamente equitativo e respeitoso à privacidade.The increasing volume of healthcare data has driven the use of artificial intelligence for developing predictive models. However, the sensitive and fragmented nature of clinical data, protected by regulatory frameworks such as the General Data Protection Law (LGPD) in Brazil, imposes significant barriers to the data centralization required for algorithm training. In this context, federated learning (FL) emerges as a paradigm that enables inter-institutional collaboration to train robust models without sharing raw data, thus preserving privacy and local governance. This dissertation aimed to evaluate the viability and performance of different federated learning architectures for the task of predicting COVID-19 mortality within a real-world, heterogeneous setting. The methodology was grounded in a multicenter cohort of 17,022 patients from 21 hospitals across all five regions of Brazil, provided by the IACOV-BR network. Two experimental scenarios were designed and compared: Scenario I, based on parameter aggregation (FedAvg) for Logistic Regression (LR) and Multilayer Perceptron (MLP) models; and Scenario II, focused on decision tree aggregation, featuring a proprietary implementation for Random Forest (RF) and the FedXgbBagging strategy for XGBoost. The results consistently demonstrated the superiority of the federated approach, with the global models achieving higher average AUC-ROC scores across all scenarios. The average performance for Random Forest increased from 0.7626 (local) to 0.7996 (federated). Similarly, Logistic Regressions average AUC was elevated from 0.7638 to 0.7935. The MLP, which had the highest local baseline (0.8147), achieved the highest absolute federated performance (0.8403), while XGBoost also exhibited a robust increase from 0.7446 to 0.7740. Furthermore, the analysis revealed that these benefits were more pronounced in hospitals with smaller data volumes and that network convergence was efficiently achieved in a few communication rounds (t ≈ 5). Crucially, the evaluation on external data cohorts demonstrated that federated models exhibited vastly superior performance compared to local models, which proved fragile outside their training domain. In conclusion, Federated Learning is a viable and high-impact approach for developing AI models in a heterogeneous healthcare system such as Brazils. Its primary contribution lies not only in the performance gain on local data but in the creation of stable models with a strong capacity to generalize across diverse patient populations, which is an indispensable characteristic for reliable clinical application. This work, therefore, validates federated learning as a key technology for the future of predictive health, promoting an advancement that is simultaneously accurate, equitable, and privacy-preserving.Biblioteca Digitais de Teses e Dissertações da USPChiavegatto Filho, Alexandre Dias PortoBigoto, Murilo Afonso Robiati2025-11-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/95/95131/tde-22112025-113709/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-11-27T18:23:08Zoai:teses.usp.br:tde-22112025-113709Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212025-11-27T18:23:08Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19 Use of Federated Learning on Multicenter Hospital Samples for Predicting Mortality of Hospitalized Patients with COVID-19.
title	Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19
spellingShingle	Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19 Bigoto, Murilo Afonso Robiati Aprendizado de máquina Aprendizado federado Artificial intelligence Bioinformática Bioinformatics Federated learning Health prediction Inteligência artificial Machine learning Predição em saúde
title_short	Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19
title_full	Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19
title_fullStr	Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19
title_full_unstemmed	Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19
title_sort	Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19
author	Bigoto, Murilo Afonso Robiati
author_facet	Bigoto, Murilo Afonso Robiati
author_role	author
dc.contributor.none.fl_str_mv	Chiavegatto Filho, Alexandre Dias Porto
dc.contributor.author.fl_str_mv	Bigoto, Murilo Afonso Robiati
dc.subject.por.fl_str_mv	Aprendizado de máquina Aprendizado federado Artificial intelligence Bioinformática Bioinformatics Federated learning Health prediction Inteligência artificial Machine learning Predição em saúde
topic	Aprendizado de máquina Aprendizado federado Artificial intelligence Bioinformática Bioinformatics Federated learning Health prediction Inteligência artificial Machine learning Predição em saúde
description	O crescente volume de dados em saúde tem impulsionado o uso de inteligência artificial (IA) para o desenvolvimento de modelos preditivos. Contudo, a natureza sensível e fragmentada dos dados clínicos, protegida por legislações como a Lei Geral de Proteção de Dados Pessoais (LGPD) no Brasil, impõe barreiras significativas à centralização necessária para o treinamento dos algoritmos. Neste contexto, o aprendizado federado emerge como um paradigma que permite a colaboração entre instituições para treinar modelos robustos sem o compartilhamento de dados brutos, preservando a privacidade e a governança local. Esta dissertação teve como objetivo avaliar a viabilidade e a performance de diferentes arquiteturas de aprendizado federado na tarefa de predição de mortalidade por COVID-19 em um cenário real e heterogêneo. A abordagem metodológica foi fundamentada em uma coorte multicêntrica de 17.022 pacientes de 21 hospitais da rede IACOV-BR, abrangendo as cinco regiões do Brasil. Foram desenhados e comparados dois cenários experimentais: o Cenário I, baseado na agregação de parâmetros (FedAvg) de modelos de Regressão Logística (RL) e Perceptron de Múltiplas Camadas (MLP); e o Cenário II, focado na agregação de árvores de decisão, com uma implementação proprietária para Floresta Aleatória (RF) e o uso da estratégia FedXgbBagging para o XGBoost. Os resultados demonstraram relativa superioridade da abordagem federada, com os modelos globais alcançando AUC-ROC médias mais elevadas nos cenários explorados. Para a Floresta Aleatória, a performance média subiu de 0,7626 nos modelos locais para 0,7996 no modelo federado. De forma similar, a Regressão Logística teve sua AUC média elevada de 0,7638 para 0,7935. O MLP, partindo da maior base local (0,8147), alcançou a maior performance federada absoluta (0,8403), enquanto o XGBoost também apresentou um aumento, de 0,7446 para 0,7740. Adicionalmente, a análise revelou que estes benefícios foram mais pronunciados em hospitais com menor volume de dados e que a convergência da rede ocorreu de forma eficiente em poucas rodadas (t ≈ 5). A dissertação traz resultados de como o aprendizado federado pode ajudar hospitais a predizerem contextos de dados externos, no qual os modelos federados exibiram uma performance superior à dos modelos locais, mostrando-se uma abordagem viável e de alto impacto para o desenvolvimento de modelos de IA em um sistema de saúde heterogêneo como o brasileiro. A sua principal contribuição não reside apenas no ganho de performance em dados locais, mas na criação de modelos estáveis e com capacidade de atuar em diversas populações de pacientes, que é uma característica indispensável para a aplicação clínica confiável. Este trabalho, portanto, coloca o aprendizado federado como uma tecnologia importante para o futuro da saúde preditiva, promovendo um avanço que é simultaneamente equitativo e respeitoso à privacidade.
publishDate	2025
dc.date.none.fl_str_mv	2025-11-10
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/95/95131/tde-22112025-113709/
url	https://www.teses.usp.br/teses/disponiveis/95/95131/tde-22112025-113709/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1865492194311274496

Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19

Registros relacionados