Avaliação de modelos preditivos de aprendizado de máquina como suporte na tomada de decisão gerencial: a predição de risco de mortalidade por COVID-19 no estado de São Paulo
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/5/5137/tde-15102025-110217/ |
Resumo: | Introdução: Dados secundários podem ser utilizados para o treinamento de modelos preditivos contribuindo para decisões. Apesar de suas vantagens, como agilidade e baixo custo, o uso de dados secundários exige atenção. O objetivo deste estudo é analisar o uso de dados secundários no treinamento de modelos preditivos, explorando o volume de dados necessário e o impacto de fatores externos no desempenho dos modelos. Métodos: Usados dados do SIVEP-GRIPE de pacientes com SRAG por COVID-19 em hospitais de São Paulo de 2020-2021 o desfecho foi óbito por COVID-19. Testados 6 algoritmos. Treinados modelos com os dados acumulados de cada semana epidemiológica para avaliar o volume de dados necessário, modelos com dados de cada semana epidemiológica para avaliar a variação da relação preditiva e 3 modelos com população específica dos momentos da pandemia. Resultados: Testados 18 modelos com desempenho consistente (AUC 0,737 - 0,755). Com os dados acumulados até 13ª semana (2690 registros) foi atingido o melhor desempenho (AUC 0,824), a partir de ponto houve uma queda progressiva estabilizando em AUC 0,74. Com dados específicos de cada semana epidemiológica manteve uma AUC superior a 0,75 até a vigésima de 2020 com queda progressiva e sempre abaixo de 0,7 a partir da décima de 2021. Discussão: O estudo conclui que dados secundários podem ser eficazes para modelos preditivos rápidos e de baixo custo, com volume de dados pequeno necessário. Contudo, é crucial monitorar continuamente esses modelos, pois fatores externos podem afetá-los, exigindo ajustes constantes para manter sua eficácia em cenários dinâmicos. |
| id |
USP_59e486f4f188d570cc426861d7ee875d |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-15102025-110217 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Avaliação de modelos preditivos de aprendizado de máquina como suporte na tomada de decisão gerencial: a predição de risco de mortalidade por COVID-19 no estado de São PauloEvaluation of predictive machine learning models to support managerial decision-making: predicting the risk of mortality from COVID-19 in the state of São PauloAnálise de dados secundáriosAprendizado de máquina supervisionadoConjuntos de dados como assuntoCoronavírus relacionado à síndrome respiratória aguda graveDatasets as topicHealth information systemsIndicadores de morbimortalidadeIndicators of morbidity and mortalitySecondary data analysisSevere acute respiratory syndrome-related coronavirusSistemas de informação em saúdeSupervised machine learningIntrodução: Dados secundários podem ser utilizados para o treinamento de modelos preditivos contribuindo para decisões. Apesar de suas vantagens, como agilidade e baixo custo, o uso de dados secundários exige atenção. O objetivo deste estudo é analisar o uso de dados secundários no treinamento de modelos preditivos, explorando o volume de dados necessário e o impacto de fatores externos no desempenho dos modelos. Métodos: Usados dados do SIVEP-GRIPE de pacientes com SRAG por COVID-19 em hospitais de São Paulo de 2020-2021 o desfecho foi óbito por COVID-19. Testados 6 algoritmos. Treinados modelos com os dados acumulados de cada semana epidemiológica para avaliar o volume de dados necessário, modelos com dados de cada semana epidemiológica para avaliar a variação da relação preditiva e 3 modelos com população específica dos momentos da pandemia. Resultados: Testados 18 modelos com desempenho consistente (AUC 0,737 - 0,755). Com os dados acumulados até 13ª semana (2690 registros) foi atingido o melhor desempenho (AUC 0,824), a partir de ponto houve uma queda progressiva estabilizando em AUC 0,74. Com dados específicos de cada semana epidemiológica manteve uma AUC superior a 0,75 até a vigésima de 2020 com queda progressiva e sempre abaixo de 0,7 a partir da décima de 2021. Discussão: O estudo conclui que dados secundários podem ser eficazes para modelos preditivos rápidos e de baixo custo, com volume de dados pequeno necessário. Contudo, é crucial monitorar continuamente esses modelos, pois fatores externos podem afetá-los, exigindo ajustes constantes para manter sua eficácia em cenários dinâmicos.Introduction: Secondary data can be used to train predictive models, aiding decisionmaking. Despite advantages such as speed and low cost, using secondary data requires attention. This study aims to analyze the use of secondary data in training predictive models, exploring the necessary data volume and the impact of external factors on model performance. Methods: SIVEP-GRIPE data from patients with SRAG due to COVID-19 in São Paulo hospitals (2020-2021) was used, with the outcome being COVID-19 death. Six algorithms were tested. Models were trained with data accumulated weekly to assess the necessary data volume, weekly data to assess predictive relationship variation, and three models with specific populations from pandemic periods. Results: 18 models were tested with consistent performance (AUC 0.737 - 0.755). The best performance (AUC 0.824) was achieved with data accumulated until the 13th week (2,690 records), after which there was a progressive decline, stabilizing at AUC 0.74. Weekly data maintained an AUC above 0.75 until the 20th week of 2020, with a progressive decline, always below 0.7 from the 10th week of 2021. Discussion: The study concludes that secondary data can be effective for fast, low-cost predictive models, requiring a small data volume. However, continuous monitoring of these models is crucial, as external factors may affect them, necessitating constant adjustments to maintain their effectiveness in dynamic scenarios.Biblioteca Digitais de Teses e Dissertações da USPMenezes, Paulo RossiRocha, Tiago Kietzmann Penalves2025-05-16info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/5/5137/tde-15102025-110217/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-10-15T14:16:02Zoai:teses.usp.br:tde-15102025-110217Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-10-15T14:16:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Avaliação de modelos preditivos de aprendizado de máquina como suporte na tomada de decisão gerencial: a predição de risco de mortalidade por COVID-19 no estado de São Paulo Evaluation of predictive machine learning models to support managerial decision-making: predicting the risk of mortality from COVID-19 in the state of São Paulo |
| title |
Avaliação de modelos preditivos de aprendizado de máquina como suporte na tomada de decisão gerencial: a predição de risco de mortalidade por COVID-19 no estado de São Paulo |
| spellingShingle |
Avaliação de modelos preditivos de aprendizado de máquina como suporte na tomada de decisão gerencial: a predição de risco de mortalidade por COVID-19 no estado de São Paulo Rocha, Tiago Kietzmann Penalves Análise de dados secundários Aprendizado de máquina supervisionado Conjuntos de dados como assunto Coronavírus relacionado à síndrome respiratória aguda grave Datasets as topic Health information systems Indicadores de morbimortalidade Indicators of morbidity and mortality Secondary data analysis Severe acute respiratory syndrome-related coronavirus Sistemas de informação em saúde Supervised machine learning |
| title_short |
Avaliação de modelos preditivos de aprendizado de máquina como suporte na tomada de decisão gerencial: a predição de risco de mortalidade por COVID-19 no estado de São Paulo |
| title_full |
Avaliação de modelos preditivos de aprendizado de máquina como suporte na tomada de decisão gerencial: a predição de risco de mortalidade por COVID-19 no estado de São Paulo |
| title_fullStr |
Avaliação de modelos preditivos de aprendizado de máquina como suporte na tomada de decisão gerencial: a predição de risco de mortalidade por COVID-19 no estado de São Paulo |
| title_full_unstemmed |
Avaliação de modelos preditivos de aprendizado de máquina como suporte na tomada de decisão gerencial: a predição de risco de mortalidade por COVID-19 no estado de São Paulo |
| title_sort |
Avaliação de modelos preditivos de aprendizado de máquina como suporte na tomada de decisão gerencial: a predição de risco de mortalidade por COVID-19 no estado de São Paulo |
| author |
Rocha, Tiago Kietzmann Penalves |
| author_facet |
Rocha, Tiago Kietzmann Penalves |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Menezes, Paulo Rossi |
| dc.contributor.author.fl_str_mv |
Rocha, Tiago Kietzmann Penalves |
| dc.subject.por.fl_str_mv |
Análise de dados secundários Aprendizado de máquina supervisionado Conjuntos de dados como assunto Coronavírus relacionado à síndrome respiratória aguda grave Datasets as topic Health information systems Indicadores de morbimortalidade Indicators of morbidity and mortality Secondary data analysis Severe acute respiratory syndrome-related coronavirus Sistemas de informação em saúde Supervised machine learning |
| topic |
Análise de dados secundários Aprendizado de máquina supervisionado Conjuntos de dados como assunto Coronavírus relacionado à síndrome respiratória aguda grave Datasets as topic Health information systems Indicadores de morbimortalidade Indicators of morbidity and mortality Secondary data analysis Severe acute respiratory syndrome-related coronavirus Sistemas de informação em saúde Supervised machine learning |
| description |
Introdução: Dados secundários podem ser utilizados para o treinamento de modelos preditivos contribuindo para decisões. Apesar de suas vantagens, como agilidade e baixo custo, o uso de dados secundários exige atenção. O objetivo deste estudo é analisar o uso de dados secundários no treinamento de modelos preditivos, explorando o volume de dados necessário e o impacto de fatores externos no desempenho dos modelos. Métodos: Usados dados do SIVEP-GRIPE de pacientes com SRAG por COVID-19 em hospitais de São Paulo de 2020-2021 o desfecho foi óbito por COVID-19. Testados 6 algoritmos. Treinados modelos com os dados acumulados de cada semana epidemiológica para avaliar o volume de dados necessário, modelos com dados de cada semana epidemiológica para avaliar a variação da relação preditiva e 3 modelos com população específica dos momentos da pandemia. Resultados: Testados 18 modelos com desempenho consistente (AUC 0,737 - 0,755). Com os dados acumulados até 13ª semana (2690 registros) foi atingido o melhor desempenho (AUC 0,824), a partir de ponto houve uma queda progressiva estabilizando em AUC 0,74. Com dados específicos de cada semana epidemiológica manteve uma AUC superior a 0,75 até a vigésima de 2020 com queda progressiva e sempre abaixo de 0,7 a partir da décima de 2021. Discussão: O estudo conclui que dados secundários podem ser eficazes para modelos preditivos rápidos e de baixo custo, com volume de dados pequeno necessário. Contudo, é crucial monitorar continuamente esses modelos, pois fatores externos podem afetá-los, exigindo ajustes constantes para manter sua eficácia em cenários dinâmicos. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-05-16 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/5/5137/tde-15102025-110217/ |
| url |
https://www.teses.usp.br/teses/disponiveis/5/5137/tde-15102025-110217/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1848370474342416384 |