Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/95/95131/tde-22112025-113709/ |
Resumo: | O crescente volume de dados em saúde tem impulsionado o uso de inteligência artificial (IA) para o desenvolvimento de modelos preditivos. Contudo, a natureza sensível e fragmentada dos dados clínicos, protegida por legislações como a Lei Geral de Proteção de Dados Pessoais (LGPD) no Brasil, impõe barreiras significativas à centralização necessária para o treinamento dos algoritmos. Neste contexto, o aprendizado federado emerge como um paradigma que permite a colaboração entre instituições para treinar modelos robustos sem o compartilhamento de dados brutos, preservando a privacidade e a governança local. Esta dissertação teve como objetivo avaliar a viabilidade e a performance de diferentes arquiteturas de aprendizado federado na tarefa de predição de mortalidade por COVID-19 em um cenário real e heterogêneo. A abordagem metodológica foi fundamentada em uma coorte multicêntrica de 17.022 pacientes de 21 hospitais da rede IACOV-BR, abrangendo as cinco regiões do Brasil. Foram desenhados e comparados dois cenários experimentais: o Cenário I, baseado na agregação de parâmetros (FedAvg) de modelos de Regressão Logística (RL) e Perceptron de Múltiplas Camadas (MLP); e o Cenário II, focado na agregação de árvores de decisão, com uma implementação proprietária para Floresta Aleatória (RF) e o uso da estratégia FedXgbBagging para o XGBoost. Os resultados demonstraram relativa superioridade da abordagem federada, com os modelos globais alcançando AUC-ROC médias mais elevadas nos cenários explorados. Para a Floresta Aleatória, a performance média subiu de 0,7626 nos modelos locais para 0,7996 no modelo federado. De forma similar, a Regressão Logística teve sua AUC média elevada de 0,7638 para 0,7935. O MLP, partindo da maior base local (0,8147), alcançou a maior performance federada absoluta (0,8403), enquanto o XGBoost também apresentou um aumento, de 0,7446 para 0,7740. Adicionalmente, a análise revelou que estes benefícios foram mais pronunciados em hospitais com menor volume de dados e que a convergência da rede ocorreu de forma eficiente em poucas rodadas (t ≈ 5). A dissertação traz resultados de como o aprendizado federado pode ajudar hospitais a predizerem contextos de dados externos, no qual os modelos federados exibiram uma performance superior à dos modelos locais, mostrando-se uma abordagem viável e de alto impacto para o desenvolvimento de modelos de IA em um sistema de saúde heterogêneo como o brasileiro. A sua principal contribuição não reside apenas no ganho de performance em dados locais, mas na criação de modelos estáveis e com capacidade de atuar em diversas populações de pacientes, que é uma característica indispensável para a aplicação clínica confiável. Este trabalho, portanto, coloca o aprendizado federado como uma tecnologia importante para o futuro da saúde preditiva, promovendo um avanço que é simultaneamente equitativo e respeitoso à privacidade. |
| id |
USP_7cfb6309cd9c28b5cb4149e6fcd0837c |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-22112025-113709 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19Use of Federated Learning on Multicenter Hospital Samples for Predicting Mortality of Hospitalized Patients with COVID-19.Aprendizado de máquinaAprendizado federadoArtificial intelligenceBioinformáticaBioinformaticsFederated learningHealth predictionInteligência artificialMachine learningPredição em saúdeO crescente volume de dados em saúde tem impulsionado o uso de inteligência artificial (IA) para o desenvolvimento de modelos preditivos. Contudo, a natureza sensível e fragmentada dos dados clínicos, protegida por legislações como a Lei Geral de Proteção de Dados Pessoais (LGPD) no Brasil, impõe barreiras significativas à centralização necessária para o treinamento dos algoritmos. Neste contexto, o aprendizado federado emerge como um paradigma que permite a colaboração entre instituições para treinar modelos robustos sem o compartilhamento de dados brutos, preservando a privacidade e a governança local. Esta dissertação teve como objetivo avaliar a viabilidade e a performance de diferentes arquiteturas de aprendizado federado na tarefa de predição de mortalidade por COVID-19 em um cenário real e heterogêneo. A abordagem metodológica foi fundamentada em uma coorte multicêntrica de 17.022 pacientes de 21 hospitais da rede IACOV-BR, abrangendo as cinco regiões do Brasil. Foram desenhados e comparados dois cenários experimentais: o Cenário I, baseado na agregação de parâmetros (FedAvg) de modelos de Regressão Logística (RL) e Perceptron de Múltiplas Camadas (MLP); e o Cenário II, focado na agregação de árvores de decisão, com uma implementação proprietária para Floresta Aleatória (RF) e o uso da estratégia FedXgbBagging para o XGBoost. Os resultados demonstraram relativa superioridade da abordagem federada, com os modelos globais alcançando AUC-ROC médias mais elevadas nos cenários explorados. Para a Floresta Aleatória, a performance média subiu de 0,7626 nos modelos locais para 0,7996 no modelo federado. De forma similar, a Regressão Logística teve sua AUC média elevada de 0,7638 para 0,7935. O MLP, partindo da maior base local (0,8147), alcançou a maior performance federada absoluta (0,8403), enquanto o XGBoost também apresentou um aumento, de 0,7446 para 0,7740. Adicionalmente, a análise revelou que estes benefícios foram mais pronunciados em hospitais com menor volume de dados e que a convergência da rede ocorreu de forma eficiente em poucas rodadas (t ≈ 5). A dissertação traz resultados de como o aprendizado federado pode ajudar hospitais a predizerem contextos de dados externos, no qual os modelos federados exibiram uma performance superior à dos modelos locais, mostrando-se uma abordagem viável e de alto impacto para o desenvolvimento de modelos de IA em um sistema de saúde heterogêneo como o brasileiro. A sua principal contribuição não reside apenas no ganho de performance em dados locais, mas na criação de modelos estáveis e com capacidade de atuar em diversas populações de pacientes, que é uma característica indispensável para a aplicação clínica confiável. Este trabalho, portanto, coloca o aprendizado federado como uma tecnologia importante para o futuro da saúde preditiva, promovendo um avanço que é simultaneamente equitativo e respeitoso à privacidade.The increasing volume of healthcare data has driven the use of artificial intelligence for developing predictive models. However, the sensitive and fragmented nature of clinical data, protected by regulatory frameworks such as the General Data Protection Law (LGPD) in Brazil, imposes significant barriers to the data centralization required for algorithm training. In this context, federated learning (FL) emerges as a paradigm that enables inter-institutional collaboration to train robust models without sharing raw data, thus preserving privacy and local governance. This dissertation aimed to evaluate the viability and performance of different federated learning architectures for the task of predicting COVID-19 mortality within a real-world, heterogeneous setting. The methodology was grounded in a multicenter cohort of 17,022 patients from 21 hospitals across all five regions of Brazil, provided by the IACOV-BR network. Two experimental scenarios were designed and compared: Scenario I, based on parameter aggregation (FedAvg) for Logistic Regression (LR) and Multilayer Perceptron (MLP) models; and Scenario II, focused on decision tree aggregation, featuring a proprietary implementation for Random Forest (RF) and the FedXgbBagging strategy for XGBoost. The results consistently demonstrated the superiority of the federated approach, with the global models achieving higher average AUC-ROC scores across all scenarios. The average performance for Random Forest increased from 0.7626 (local) to 0.7996 (federated). Similarly, Logistic Regressions average AUC was elevated from 0.7638 to 0.7935. The MLP, which had the highest local baseline (0.8147), achieved the highest absolute federated performance (0.8403), while XGBoost also exhibited a robust increase from 0.7446 to 0.7740. Furthermore, the analysis revealed that these benefits were more pronounced in hospitals with smaller data volumes and that network convergence was efficiently achieved in a few communication rounds (t ≈ 5). Crucially, the evaluation on external data cohorts demonstrated that federated models exhibited vastly superior performance compared to local models, which proved fragile outside their training domain. In conclusion, Federated Learning is a viable and high-impact approach for developing AI models in a heterogeneous healthcare system such as Brazils. Its primary contribution lies not only in the performance gain on local data but in the creation of stable models with a strong capacity to generalize across diverse patient populations, which is an indispensable characteristic for reliable clinical application. This work, therefore, validates federated learning as a key technology for the future of predictive health, promoting an advancement that is simultaneously accurate, equitable, and privacy-preserving.Biblioteca Digitais de Teses e Dissertações da USPChiavegatto Filho, Alexandre Dias PortoBigoto, Murilo Afonso Robiati2025-11-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/95/95131/tde-22112025-113709/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-11-27T18:23:08Zoai:teses.usp.br:tde-22112025-113709Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-11-27T18:23:08Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19 Use of Federated Learning on Multicenter Hospital Samples for Predicting Mortality of Hospitalized Patients with COVID-19. |
| title |
Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19 |
| spellingShingle |
Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19 Bigoto, Murilo Afonso Robiati Aprendizado de máquina Aprendizado federado Artificial intelligence Bioinformática Bioinformatics Federated learning Health prediction Inteligência artificial Machine learning Predição em saúde |
| title_short |
Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19 |
| title_full |
Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19 |
| title_fullStr |
Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19 |
| title_full_unstemmed |
Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19 |
| title_sort |
Uso de aprendizado federado em amostras multicêntricas de hospitais para a predição de óbitos de pacientes hospitalizados com COVID-19 |
| author |
Bigoto, Murilo Afonso Robiati |
| author_facet |
Bigoto, Murilo Afonso Robiati |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Chiavegatto Filho, Alexandre Dias Porto |
| dc.contributor.author.fl_str_mv |
Bigoto, Murilo Afonso Robiati |
| dc.subject.por.fl_str_mv |
Aprendizado de máquina Aprendizado federado Artificial intelligence Bioinformática Bioinformatics Federated learning Health prediction Inteligência artificial Machine learning Predição em saúde |
| topic |
Aprendizado de máquina Aprendizado federado Artificial intelligence Bioinformática Bioinformatics Federated learning Health prediction Inteligência artificial Machine learning Predição em saúde |
| description |
O crescente volume de dados em saúde tem impulsionado o uso de inteligência artificial (IA) para o desenvolvimento de modelos preditivos. Contudo, a natureza sensível e fragmentada dos dados clínicos, protegida por legislações como a Lei Geral de Proteção de Dados Pessoais (LGPD) no Brasil, impõe barreiras significativas à centralização necessária para o treinamento dos algoritmos. Neste contexto, o aprendizado federado emerge como um paradigma que permite a colaboração entre instituições para treinar modelos robustos sem o compartilhamento de dados brutos, preservando a privacidade e a governança local. Esta dissertação teve como objetivo avaliar a viabilidade e a performance de diferentes arquiteturas de aprendizado federado na tarefa de predição de mortalidade por COVID-19 em um cenário real e heterogêneo. A abordagem metodológica foi fundamentada em uma coorte multicêntrica de 17.022 pacientes de 21 hospitais da rede IACOV-BR, abrangendo as cinco regiões do Brasil. Foram desenhados e comparados dois cenários experimentais: o Cenário I, baseado na agregação de parâmetros (FedAvg) de modelos de Regressão Logística (RL) e Perceptron de Múltiplas Camadas (MLP); e o Cenário II, focado na agregação de árvores de decisão, com uma implementação proprietária para Floresta Aleatória (RF) e o uso da estratégia FedXgbBagging para o XGBoost. Os resultados demonstraram relativa superioridade da abordagem federada, com os modelos globais alcançando AUC-ROC médias mais elevadas nos cenários explorados. Para a Floresta Aleatória, a performance média subiu de 0,7626 nos modelos locais para 0,7996 no modelo federado. De forma similar, a Regressão Logística teve sua AUC média elevada de 0,7638 para 0,7935. O MLP, partindo da maior base local (0,8147), alcançou a maior performance federada absoluta (0,8403), enquanto o XGBoost também apresentou um aumento, de 0,7446 para 0,7740. Adicionalmente, a análise revelou que estes benefícios foram mais pronunciados em hospitais com menor volume de dados e que a convergência da rede ocorreu de forma eficiente em poucas rodadas (t ≈ 5). A dissertação traz resultados de como o aprendizado federado pode ajudar hospitais a predizerem contextos de dados externos, no qual os modelos federados exibiram uma performance superior à dos modelos locais, mostrando-se uma abordagem viável e de alto impacto para o desenvolvimento de modelos de IA em um sistema de saúde heterogêneo como o brasileiro. A sua principal contribuição não reside apenas no ganho de performance em dados locais, mas na criação de modelos estáveis e com capacidade de atuar em diversas populações de pacientes, que é uma característica indispensável para a aplicação clínica confiável. Este trabalho, portanto, coloca o aprendizado federado como uma tecnologia importante para o futuro da saúde preditiva, promovendo um avanço que é simultaneamente equitativo e respeitoso à privacidade. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-11-10 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/95/95131/tde-22112025-113709/ |
| url |
https://www.teses.usp.br/teses/disponiveis/95/95131/tde-22112025-113709/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1865492194311274496 |