Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM)

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Zetum, Aléxia Stefani Siqueira
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Espírito Santo
BR
Mestrado em Biotecnologia
Centro de Ciências da Saúde
UFES
Programa de Pós-Graduação em Biotecnologia
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.ufes.br/handle/10/19167
Resumo: Introduction: SARS-CoV-2 infection presents a wide spectrum of clinical manifestations. Genetic variations may influence the host's response to the virus. The use of Machine Learning (ML) has shown promise in identifying genetic biomarkers and individuals who may develop severe forms of the disease. Objective: To develop an ML model using exome data to predict clinical outcomes in COVID-19 patients and identify genes potentially associated with disease severity. Methodology: The study involved data from 239 COVID-19 patients ("Non-severe" and "Severe"). DNA sequencing was performed, and ancestry analysis was conducted. A Support Vector Machine (SVM) model with a linear kernel was developed to predict COVID-19 severity, utilizing Recursive Feature Elimination (RFE) to select the most influential variants. Metrics such as Area Under the Curve-Receiver Operating Characteristic (AUC-ROC), accuracy, F1 score, sensitivity, and specificity were used. Subsequently, logistic regression (LR) analysis was performed with the variants selected by SVM-RFE and confounding variables. Results and Discussion: The SVM model with a linear kernel achieved an AUC-ROC of 0,81, accuracy of 83%, and an F1 score of 0,78, indicating a good capacity to discriminate between "Severe" and "Non-severe" cases of COVID-19. Fifteen variants were selected by the model, of which seven were significantly associated with disease severity in the LR analysis. Risk variants include WSCD1 (rs2302837 "A/A" or "A/G," 95% CI: 1,32–7,24, OR: 3,09, P < 0,01), PTPRS (rs1143700 "A/A" or "A/G," 95% CI: 1,54–7,07, OR: 3,30, P < 0,01), ARVCF (rs2073744 "A/A" or "A/G," 95% CI: 1,31–6,30, OR: 2,88, P < 0,01), and LVRN (rs10078759 "G/G" or "G/C," 95% CI: 1,07–4,31, OR: 2,08, P = 0,04). Conversely, protective variants include ALDH4A1 (rs6426813 "G/G" or "G/A," 95% CI: 0,23–0,93, OR: 0,48, P = 0,02), ARHGAP22 (rs10776601 "C/C" or "C/T," 95% CI: 0,09–0,56, OR: 0,23, P < 0,01), and C3 (rs423490 "A/A" or "A/G," 95% CI: 0,14–0,70, OR: 0,32, P < 0,01). The results demonstrated that the SVM with a linear kernel is effective in predicting COVID-19 severity using exome data. The protein-protein interaction (PPI) network analysis identified biological pathways associated with the immune system, inflammatory response, and blood coagulation. Genes such as C3, PTPRS, and LVRN stood out in functions related to immune response regulation and inflammation modulation, suggesting these pathways are directly linked to adverse COVID-19 outcomes. The network also revealed the interconnection between cellular signaling processes and stress response mechanisms, which may explain the variability in clinical responses observed among patients. Conclusion: The SVM with a linear kernel using our data proved effective in predicting COVID-19 severity. This study highlights the importance of integrative approaches to better understanding the disease. Identifying genetic biomarkers can aid in treatment and management of future pandemics
id UFES_f8e9fb8c02e25941e23b02cdbba5dc53
oai_identifier_str oai:repositorio.ufes.br:10/19167
network_acronym_str UFES
network_name_str Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
repository_id_str
spelling Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM)BiomarcadoresMachine learningGenéticaBiotecnologiaIntroduction: SARS-CoV-2 infection presents a wide spectrum of clinical manifestations. Genetic variations may influence the host's response to the virus. The use of Machine Learning (ML) has shown promise in identifying genetic biomarkers and individuals who may develop severe forms of the disease. Objective: To develop an ML model using exome data to predict clinical outcomes in COVID-19 patients and identify genes potentially associated with disease severity. Methodology: The study involved data from 239 COVID-19 patients ("Non-severe" and "Severe"). DNA sequencing was performed, and ancestry analysis was conducted. A Support Vector Machine (SVM) model with a linear kernel was developed to predict COVID-19 severity, utilizing Recursive Feature Elimination (RFE) to select the most influential variants. Metrics such as Area Under the Curve-Receiver Operating Characteristic (AUC-ROC), accuracy, F1 score, sensitivity, and specificity were used. Subsequently, logistic regression (LR) analysis was performed with the variants selected by SVM-RFE and confounding variables. Results and Discussion: The SVM model with a linear kernel achieved an AUC-ROC of 0,81, accuracy of 83%, and an F1 score of 0,78, indicating a good capacity to discriminate between "Severe" and "Non-severe" cases of COVID-19. Fifteen variants were selected by the model, of which seven were significantly associated with disease severity in the LR analysis. Risk variants include WSCD1 (rs2302837 "A/A" or "A/G," 95% CI: 1,32–7,24, OR: 3,09, P < 0,01), PTPRS (rs1143700 "A/A" or "A/G," 95% CI: 1,54–7,07, OR: 3,30, P < 0,01), ARVCF (rs2073744 "A/A" or "A/G," 95% CI: 1,31–6,30, OR: 2,88, P < 0,01), and LVRN (rs10078759 "G/G" or "G/C," 95% CI: 1,07–4,31, OR: 2,08, P = 0,04). Conversely, protective variants include ALDH4A1 (rs6426813 "G/G" or "G/A," 95% CI: 0,23–0,93, OR: 0,48, P = 0,02), ARHGAP22 (rs10776601 "C/C" or "C/T," 95% CI: 0,09–0,56, OR: 0,23, P < 0,01), and C3 (rs423490 "A/A" or "A/G," 95% CI: 0,14–0,70, OR: 0,32, P < 0,01). The results demonstrated that the SVM with a linear kernel is effective in predicting COVID-19 severity using exome data. The protein-protein interaction (PPI) network analysis identified biological pathways associated with the immune system, inflammatory response, and blood coagulation. Genes such as C3, PTPRS, and LVRN stood out in functions related to immune response regulation and inflammation modulation, suggesting these pathways are directly linked to adverse COVID-19 outcomes. The network also revealed the interconnection between cellular signaling processes and stress response mechanisms, which may explain the variability in clinical responses observed among patients. Conclusion: The SVM with a linear kernel using our data proved effective in predicting COVID-19 severity. This study highlights the importance of integrative approaches to better understanding the disease. Identifying genetic biomarkers can aid in treatment and management of future pandemicsIntrodução: A infecção por SARS-CoV-2 apresenta um amplo espectro de manifestações clínicas. Variações genéticas podem influenciar a resposta do hospedeiro ao vírus. O uso de Machine learning (ML) tem se mostrado promissor na identificação de biomarcadores genéticos e de indivíduos que possam desenvolver a forma mais grave da doença. Objetivo: Desenvolver um modelo de ML com dados de exoma para prever desfechos clínicos em pacientes com COVID-19 e identificar genes que possam estar associados à gravidade da doença. Metodologia: A pesquisa envolveu dados de 239 pacientes com COVID-19 (“Não grave” e “Grave”). O sequenciamento de DNA foi realizado e uma análise de ancestralidade foi conduzida. Um modelo de Máquinas de Vetores de Suporte (SVM) com kernel linear foi desenvolvido para prever a gravidade da COVID-19, com o uso de Recursive Feature Elimination (RFE) para selecionar as variantes mais influentes. Métricas como Area Under the Curve-Receiver Operating Characteristic (AUC-ROC), precisão, F1 score, sensibilidade e especificidade foram usados. Posteriormente, uma análise de regressão logística (RL) com as variantes selecionadas pelo SVM-RFE e variáveis de confusão foi realizada. Resultados e Discussão: O modelo SVM com kernel linear apresentou um AUC-ROC de 0,81, precisão de 83%, e F1 score de 0,78, o que indica uma boa capacidade de discriminação entre casos “Graves” e “Não graves” de COVID-19. Foram selecionadas 15 variantes pelo modelo, das quais sete mostraram- se significativamente associadas à gravidade da doença na RL. As variantes de risco incluem WSCD1 (rs2302837 “A/A” ou “A/G”, IC 95% 1,32-7,24, OR: 3,09, P<0,01), PTPRS (rs1143700 “A/A” ou “A/G”, IC 95% 1,54-7,07, OR: 3,30, P <0,01), ARVCF (rs2073744 “A/A” ou “A/G”, IC 95% 1,31-6,30, OR: 2,88, P<0,01) e LVRN (rs10078759 “G/G” ou “G/C”, IC 95% 1,07-4,31, OR: 2,08, P=0,04). Por outro lado, variantes protetoras incluem ALDH4A1 (rs6426813 “G/G” ou “G/A”, IC 95% 0,23-0,93, OR: 0,48, P=0,02), ARHGAP22 (rs10776601 “C/C” ou “C/T”, IC 95% 0,09-0,56, OR: 0,23, P<0,01) e C3 (rs423490 “A/A” ou “A/G”, IC 95% 0,14-0,70, OR: 0,32, P<0,01). A análise dos resultados mostrou que o SVM com kernel linear é eficaz na previsão da gravidade da COVID-19 com dados do exoma. A análise da rede de interação proteína-proteína (PPI) identificou vias biológicas associadas ao sistema imune, resposta inflamatória e coagulação sanguínea. Genes como C3, PTPRS e LVRN se destacaram em funções relacionadas à regulação da resposta imune e à modulação da inflamação, sugerindo que estas vias estão ligadas diretamente ao desfecho ruim na COVID-19. A rede também revelou a interconexão entre processos de sinalização celular e mecanismos de resposta ao estresse, o que pode explicar a variabilidade na resposta clínica observada entre os pacientes. Conclusão: SVM com kernel linear com nossos dados, mostrou-se eficaz na previsão da gravidade da COVID-19. Este estudo destaca a importância de abordagens integrativas para melhor entendimento da doença. A identificação de biomarcadores genéticos pode auxiliar no tratamento e na gestão de futuras pandemiasCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Universidade Federal do Espírito SantoBRMestrado em BiotecnologiaCentro de Ciências da SaúdeUFESPrograma de Pós-Graduação em BiotecnologiaMeira, Débora Dummerhttps://orcid.org/0000-0002-6092-2459http://lattes.cnpq.br/7199119599752978Louro, Iuri Drumondhttps://orcid.org/0000-0001-5160-9615http://lattes.cnpq.br/3817361438227180https://orcid.org/0000-0002-5086-411XPaula, Flávia dehttps://orcid.org/0000-0001-8679-2982Carvalho, Elizeu Fagundes dehttps://orcid.org/0000-0003-4620-7253Zetum, Aléxia Stefani Siqueira2025-04-14T17:49:36Z2025-04-14T17:49:36Z2025-02-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisTextapplication/pdfhttp://repositorio.ufes.br/handle/10/19167porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)instname:Universidade Federal do Espírito Santo (UFES)instacron:UFES2025-04-14T15:12:07Zoai:repositorio.ufes.br:10/19167Repositório InstitucionalPUBhttp://repositorio.ufes.br/oai/requestriufes@ufes.bropendoar:21082025-04-14T15:12:07Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES)false
dc.title.none.fl_str_mv Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM)
title Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM)
spellingShingle Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM)
Zetum, Aléxia Stefani Siqueira
Biomarcadores
Machine learning
Genética
Biotecnologia
title_short Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM)
title_full Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM)
title_fullStr Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM)
title_full_unstemmed Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM)
title_sort Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM)
author Zetum, Aléxia Stefani Siqueira
author_facet Zetum, Aléxia Stefani Siqueira
author_role author
dc.contributor.none.fl_str_mv Meira, Débora Dummer
https://orcid.org/0000-0002-6092-2459
http://lattes.cnpq.br/7199119599752978
Louro, Iuri Drumond
https://orcid.org/0000-0001-5160-9615
http://lattes.cnpq.br/3817361438227180
https://orcid.org/0000-0002-5086-411X
Paula, Flávia de
https://orcid.org/0000-0001-8679-2982
Carvalho, Elizeu Fagundes de
https://orcid.org/0000-0003-4620-7253
dc.contributor.author.fl_str_mv Zetum, Aléxia Stefani Siqueira
dc.subject.por.fl_str_mv Biomarcadores
Machine learning
Genética
Biotecnologia
topic Biomarcadores
Machine learning
Genética
Biotecnologia
description Introduction: SARS-CoV-2 infection presents a wide spectrum of clinical manifestations. Genetic variations may influence the host's response to the virus. The use of Machine Learning (ML) has shown promise in identifying genetic biomarkers and individuals who may develop severe forms of the disease. Objective: To develop an ML model using exome data to predict clinical outcomes in COVID-19 patients and identify genes potentially associated with disease severity. Methodology: The study involved data from 239 COVID-19 patients ("Non-severe" and "Severe"). DNA sequencing was performed, and ancestry analysis was conducted. A Support Vector Machine (SVM) model with a linear kernel was developed to predict COVID-19 severity, utilizing Recursive Feature Elimination (RFE) to select the most influential variants. Metrics such as Area Under the Curve-Receiver Operating Characteristic (AUC-ROC), accuracy, F1 score, sensitivity, and specificity were used. Subsequently, logistic regression (LR) analysis was performed with the variants selected by SVM-RFE and confounding variables. Results and Discussion: The SVM model with a linear kernel achieved an AUC-ROC of 0,81, accuracy of 83%, and an F1 score of 0,78, indicating a good capacity to discriminate between "Severe" and "Non-severe" cases of COVID-19. Fifteen variants were selected by the model, of which seven were significantly associated with disease severity in the LR analysis. Risk variants include WSCD1 (rs2302837 "A/A" or "A/G," 95% CI: 1,32–7,24, OR: 3,09, P < 0,01), PTPRS (rs1143700 "A/A" or "A/G," 95% CI: 1,54–7,07, OR: 3,30, P < 0,01), ARVCF (rs2073744 "A/A" or "A/G," 95% CI: 1,31–6,30, OR: 2,88, P < 0,01), and LVRN (rs10078759 "G/G" or "G/C," 95% CI: 1,07–4,31, OR: 2,08, P = 0,04). Conversely, protective variants include ALDH4A1 (rs6426813 "G/G" or "G/A," 95% CI: 0,23–0,93, OR: 0,48, P = 0,02), ARHGAP22 (rs10776601 "C/C" or "C/T," 95% CI: 0,09–0,56, OR: 0,23, P < 0,01), and C3 (rs423490 "A/A" or "A/G," 95% CI: 0,14–0,70, OR: 0,32, P < 0,01). The results demonstrated that the SVM with a linear kernel is effective in predicting COVID-19 severity using exome data. The protein-protein interaction (PPI) network analysis identified biological pathways associated with the immune system, inflammatory response, and blood coagulation. Genes such as C3, PTPRS, and LVRN stood out in functions related to immune response regulation and inflammation modulation, suggesting these pathways are directly linked to adverse COVID-19 outcomes. The network also revealed the interconnection between cellular signaling processes and stress response mechanisms, which may explain the variability in clinical responses observed among patients. Conclusion: The SVM with a linear kernel using our data proved effective in predicting COVID-19 severity. This study highlights the importance of integrative approaches to better understanding the disease. Identifying genetic biomarkers can aid in treatment and management of future pandemics
publishDate 2025
dc.date.none.fl_str_mv 2025-04-14T17:49:36Z
2025-04-14T17:49:36Z
2025-02-24
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://repositorio.ufes.br/handle/10/19167
url http://repositorio.ufes.br/handle/10/19167
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv Text
application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Espírito Santo
BR
Mestrado em Biotecnologia
Centro de Ciências da Saúde
UFES
Programa de Pós-Graduação em Biotecnologia
publisher.none.fl_str_mv Universidade Federal do Espírito Santo
BR
Mestrado em Biotecnologia
Centro de Ciências da Saúde
UFES
Programa de Pós-Graduação em Biotecnologia
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
instname:Universidade Federal do Espírito Santo (UFES)
instacron:UFES
instname_str Universidade Federal do Espírito Santo (UFES)
instacron_str UFES
institution UFES
reponame_str Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
collection Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES)
repository.mail.fl_str_mv riufes@ufes.br
_version_ 1834479094110093312