Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM)
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal do Espírito Santo
BR Mestrado em Biotecnologia Centro de Ciências da Saúde UFES Programa de Pós-Graduação em Biotecnologia |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://repositorio.ufes.br/handle/10/19167 |
Resumo: | Introduction: SARS-CoV-2 infection presents a wide spectrum of clinical manifestations. Genetic variations may influence the host's response to the virus. The use of Machine Learning (ML) has shown promise in identifying genetic biomarkers and individuals who may develop severe forms of the disease. Objective: To develop an ML model using exome data to predict clinical outcomes in COVID-19 patients and identify genes potentially associated with disease severity. Methodology: The study involved data from 239 COVID-19 patients ("Non-severe" and "Severe"). DNA sequencing was performed, and ancestry analysis was conducted. A Support Vector Machine (SVM) model with a linear kernel was developed to predict COVID-19 severity, utilizing Recursive Feature Elimination (RFE) to select the most influential variants. Metrics such as Area Under the Curve-Receiver Operating Characteristic (AUC-ROC), accuracy, F1 score, sensitivity, and specificity were used. Subsequently, logistic regression (LR) analysis was performed with the variants selected by SVM-RFE and confounding variables. Results and Discussion: The SVM model with a linear kernel achieved an AUC-ROC of 0,81, accuracy of 83%, and an F1 score of 0,78, indicating a good capacity to discriminate between "Severe" and "Non-severe" cases of COVID-19. Fifteen variants were selected by the model, of which seven were significantly associated with disease severity in the LR analysis. Risk variants include WSCD1 (rs2302837 "A/A" or "A/G," 95% CI: 1,32–7,24, OR: 3,09, P < 0,01), PTPRS (rs1143700 "A/A" or "A/G," 95% CI: 1,54–7,07, OR: 3,30, P < 0,01), ARVCF (rs2073744 "A/A" or "A/G," 95% CI: 1,31–6,30, OR: 2,88, P < 0,01), and LVRN (rs10078759 "G/G" or "G/C," 95% CI: 1,07–4,31, OR: 2,08, P = 0,04). Conversely, protective variants include ALDH4A1 (rs6426813 "G/G" or "G/A," 95% CI: 0,23–0,93, OR: 0,48, P = 0,02), ARHGAP22 (rs10776601 "C/C" or "C/T," 95% CI: 0,09–0,56, OR: 0,23, P < 0,01), and C3 (rs423490 "A/A" or "A/G," 95% CI: 0,14–0,70, OR: 0,32, P < 0,01). The results demonstrated that the SVM with a linear kernel is effective in predicting COVID-19 severity using exome data. The protein-protein interaction (PPI) network analysis identified biological pathways associated with the immune system, inflammatory response, and blood coagulation. Genes such as C3, PTPRS, and LVRN stood out in functions related to immune response regulation and inflammation modulation, suggesting these pathways are directly linked to adverse COVID-19 outcomes. The network also revealed the interconnection between cellular signaling processes and stress response mechanisms, which may explain the variability in clinical responses observed among patients. Conclusion: The SVM with a linear kernel using our data proved effective in predicting COVID-19 severity. This study highlights the importance of integrative approaches to better understanding the disease. Identifying genetic biomarkers can aid in treatment and management of future pandemics |
| id |
UFES_f8e9fb8c02e25941e23b02cdbba5dc53 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufes.br:10/19167 |
| network_acronym_str |
UFES |
| network_name_str |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
| repository_id_str |
|
| spelling |
Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM)BiomarcadoresMachine learningGenéticaBiotecnologiaIntroduction: SARS-CoV-2 infection presents a wide spectrum of clinical manifestations. Genetic variations may influence the host's response to the virus. The use of Machine Learning (ML) has shown promise in identifying genetic biomarkers and individuals who may develop severe forms of the disease. Objective: To develop an ML model using exome data to predict clinical outcomes in COVID-19 patients and identify genes potentially associated with disease severity. Methodology: The study involved data from 239 COVID-19 patients ("Non-severe" and "Severe"). DNA sequencing was performed, and ancestry analysis was conducted. A Support Vector Machine (SVM) model with a linear kernel was developed to predict COVID-19 severity, utilizing Recursive Feature Elimination (RFE) to select the most influential variants. Metrics such as Area Under the Curve-Receiver Operating Characteristic (AUC-ROC), accuracy, F1 score, sensitivity, and specificity were used. Subsequently, logistic regression (LR) analysis was performed with the variants selected by SVM-RFE and confounding variables. Results and Discussion: The SVM model with a linear kernel achieved an AUC-ROC of 0,81, accuracy of 83%, and an F1 score of 0,78, indicating a good capacity to discriminate between "Severe" and "Non-severe" cases of COVID-19. Fifteen variants were selected by the model, of which seven were significantly associated with disease severity in the LR analysis. Risk variants include WSCD1 (rs2302837 "A/A" or "A/G," 95% CI: 1,32–7,24, OR: 3,09, P < 0,01), PTPRS (rs1143700 "A/A" or "A/G," 95% CI: 1,54–7,07, OR: 3,30, P < 0,01), ARVCF (rs2073744 "A/A" or "A/G," 95% CI: 1,31–6,30, OR: 2,88, P < 0,01), and LVRN (rs10078759 "G/G" or "G/C," 95% CI: 1,07–4,31, OR: 2,08, P = 0,04). Conversely, protective variants include ALDH4A1 (rs6426813 "G/G" or "G/A," 95% CI: 0,23–0,93, OR: 0,48, P = 0,02), ARHGAP22 (rs10776601 "C/C" or "C/T," 95% CI: 0,09–0,56, OR: 0,23, P < 0,01), and C3 (rs423490 "A/A" or "A/G," 95% CI: 0,14–0,70, OR: 0,32, P < 0,01). The results demonstrated that the SVM with a linear kernel is effective in predicting COVID-19 severity using exome data. The protein-protein interaction (PPI) network analysis identified biological pathways associated with the immune system, inflammatory response, and blood coagulation. Genes such as C3, PTPRS, and LVRN stood out in functions related to immune response regulation and inflammation modulation, suggesting these pathways are directly linked to adverse COVID-19 outcomes. The network also revealed the interconnection between cellular signaling processes and stress response mechanisms, which may explain the variability in clinical responses observed among patients. Conclusion: The SVM with a linear kernel using our data proved effective in predicting COVID-19 severity. This study highlights the importance of integrative approaches to better understanding the disease. Identifying genetic biomarkers can aid in treatment and management of future pandemicsIntrodução: A infecção por SARS-CoV-2 apresenta um amplo espectro de manifestações clínicas. Variações genéticas podem influenciar a resposta do hospedeiro ao vírus. O uso de Machine learning (ML) tem se mostrado promissor na identificação de biomarcadores genéticos e de indivíduos que possam desenvolver a forma mais grave da doença. Objetivo: Desenvolver um modelo de ML com dados de exoma para prever desfechos clínicos em pacientes com COVID-19 e identificar genes que possam estar associados à gravidade da doença. Metodologia: A pesquisa envolveu dados de 239 pacientes com COVID-19 (“Não grave” e “Grave”). O sequenciamento de DNA foi realizado e uma análise de ancestralidade foi conduzida. Um modelo de Máquinas de Vetores de Suporte (SVM) com kernel linear foi desenvolvido para prever a gravidade da COVID-19, com o uso de Recursive Feature Elimination (RFE) para selecionar as variantes mais influentes. Métricas como Area Under the Curve-Receiver Operating Characteristic (AUC-ROC), precisão, F1 score, sensibilidade e especificidade foram usados. Posteriormente, uma análise de regressão logística (RL) com as variantes selecionadas pelo SVM-RFE e variáveis de confusão foi realizada. Resultados e Discussão: O modelo SVM com kernel linear apresentou um AUC-ROC de 0,81, precisão de 83%, e F1 score de 0,78, o que indica uma boa capacidade de discriminação entre casos “Graves” e “Não graves” de COVID-19. Foram selecionadas 15 variantes pelo modelo, das quais sete mostraram- se significativamente associadas à gravidade da doença na RL. As variantes de risco incluem WSCD1 (rs2302837 “A/A” ou “A/G”, IC 95% 1,32-7,24, OR: 3,09, P<0,01), PTPRS (rs1143700 “A/A” ou “A/G”, IC 95% 1,54-7,07, OR: 3,30, P <0,01), ARVCF (rs2073744 “A/A” ou “A/G”, IC 95% 1,31-6,30, OR: 2,88, P<0,01) e LVRN (rs10078759 “G/G” ou “G/C”, IC 95% 1,07-4,31, OR: 2,08, P=0,04). Por outro lado, variantes protetoras incluem ALDH4A1 (rs6426813 “G/G” ou “G/A”, IC 95% 0,23-0,93, OR: 0,48, P=0,02), ARHGAP22 (rs10776601 “C/C” ou “C/T”, IC 95% 0,09-0,56, OR: 0,23, P<0,01) e C3 (rs423490 “A/A” ou “A/G”, IC 95% 0,14-0,70, OR: 0,32, P<0,01). A análise dos resultados mostrou que o SVM com kernel linear é eficaz na previsão da gravidade da COVID-19 com dados do exoma. A análise da rede de interação proteína-proteína (PPI) identificou vias biológicas associadas ao sistema imune, resposta inflamatória e coagulação sanguínea. Genes como C3, PTPRS e LVRN se destacaram em funções relacionadas à regulação da resposta imune e à modulação da inflamação, sugerindo que estas vias estão ligadas diretamente ao desfecho ruim na COVID-19. A rede também revelou a interconexão entre processos de sinalização celular e mecanismos de resposta ao estresse, o que pode explicar a variabilidade na resposta clínica observada entre os pacientes. Conclusão: SVM com kernel linear com nossos dados, mostrou-se eficaz na previsão da gravidade da COVID-19. Este estudo destaca a importância de abordagens integrativas para melhor entendimento da doença. A identificação de biomarcadores genéticos pode auxiliar no tratamento e na gestão de futuras pandemiasCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Universidade Federal do Espírito SantoBRMestrado em BiotecnologiaCentro de Ciências da SaúdeUFESPrograma de Pós-Graduação em BiotecnologiaMeira, Débora Dummerhttps://orcid.org/0000-0002-6092-2459http://lattes.cnpq.br/7199119599752978Louro, Iuri Drumondhttps://orcid.org/0000-0001-5160-9615http://lattes.cnpq.br/3817361438227180https://orcid.org/0000-0002-5086-411XPaula, Flávia dehttps://orcid.org/0000-0001-8679-2982Carvalho, Elizeu Fagundes dehttps://orcid.org/0000-0003-4620-7253Zetum, Aléxia Stefani Siqueira2025-04-14T17:49:36Z2025-04-14T17:49:36Z2025-02-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisTextapplication/pdfhttp://repositorio.ufes.br/handle/10/19167porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)instname:Universidade Federal do Espírito Santo (UFES)instacron:UFES2025-04-14T15:12:07Zoai:repositorio.ufes.br:10/19167Repositório InstitucionalPUBhttp://repositorio.ufes.br/oai/requestriufes@ufes.bropendoar:21082025-04-14T15:12:07Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES)false |
| dc.title.none.fl_str_mv |
Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM) |
| title |
Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM) |
| spellingShingle |
Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM) Zetum, Aléxia Stefani Siqueira Biomarcadores Machine learning Genética Biotecnologia |
| title_short |
Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM) |
| title_full |
Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM) |
| title_fullStr |
Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM) |
| title_full_unstemmed |
Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM) |
| title_sort |
Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM) |
| author |
Zetum, Aléxia Stefani Siqueira |
| author_facet |
Zetum, Aléxia Stefani Siqueira |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Meira, Débora Dummer https://orcid.org/0000-0002-6092-2459 http://lattes.cnpq.br/7199119599752978 Louro, Iuri Drumond https://orcid.org/0000-0001-5160-9615 http://lattes.cnpq.br/3817361438227180 https://orcid.org/0000-0002-5086-411X Paula, Flávia de https://orcid.org/0000-0001-8679-2982 Carvalho, Elizeu Fagundes de https://orcid.org/0000-0003-4620-7253 |
| dc.contributor.author.fl_str_mv |
Zetum, Aléxia Stefani Siqueira |
| dc.subject.por.fl_str_mv |
Biomarcadores Machine learning Genética Biotecnologia |
| topic |
Biomarcadores Machine learning Genética Biotecnologia |
| description |
Introduction: SARS-CoV-2 infection presents a wide spectrum of clinical manifestations. Genetic variations may influence the host's response to the virus. The use of Machine Learning (ML) has shown promise in identifying genetic biomarkers and individuals who may develop severe forms of the disease. Objective: To develop an ML model using exome data to predict clinical outcomes in COVID-19 patients and identify genes potentially associated with disease severity. Methodology: The study involved data from 239 COVID-19 patients ("Non-severe" and "Severe"). DNA sequencing was performed, and ancestry analysis was conducted. A Support Vector Machine (SVM) model with a linear kernel was developed to predict COVID-19 severity, utilizing Recursive Feature Elimination (RFE) to select the most influential variants. Metrics such as Area Under the Curve-Receiver Operating Characteristic (AUC-ROC), accuracy, F1 score, sensitivity, and specificity were used. Subsequently, logistic regression (LR) analysis was performed with the variants selected by SVM-RFE and confounding variables. Results and Discussion: The SVM model with a linear kernel achieved an AUC-ROC of 0,81, accuracy of 83%, and an F1 score of 0,78, indicating a good capacity to discriminate between "Severe" and "Non-severe" cases of COVID-19. Fifteen variants were selected by the model, of which seven were significantly associated with disease severity in the LR analysis. Risk variants include WSCD1 (rs2302837 "A/A" or "A/G," 95% CI: 1,32–7,24, OR: 3,09, P < 0,01), PTPRS (rs1143700 "A/A" or "A/G," 95% CI: 1,54–7,07, OR: 3,30, P < 0,01), ARVCF (rs2073744 "A/A" or "A/G," 95% CI: 1,31–6,30, OR: 2,88, P < 0,01), and LVRN (rs10078759 "G/G" or "G/C," 95% CI: 1,07–4,31, OR: 2,08, P = 0,04). Conversely, protective variants include ALDH4A1 (rs6426813 "G/G" or "G/A," 95% CI: 0,23–0,93, OR: 0,48, P = 0,02), ARHGAP22 (rs10776601 "C/C" or "C/T," 95% CI: 0,09–0,56, OR: 0,23, P < 0,01), and C3 (rs423490 "A/A" or "A/G," 95% CI: 0,14–0,70, OR: 0,32, P < 0,01). The results demonstrated that the SVM with a linear kernel is effective in predicting COVID-19 severity using exome data. The protein-protein interaction (PPI) network analysis identified biological pathways associated with the immune system, inflammatory response, and blood coagulation. Genes such as C3, PTPRS, and LVRN stood out in functions related to immune response regulation and inflammation modulation, suggesting these pathways are directly linked to adverse COVID-19 outcomes. The network also revealed the interconnection between cellular signaling processes and stress response mechanisms, which may explain the variability in clinical responses observed among patients. Conclusion: The SVM with a linear kernel using our data proved effective in predicting COVID-19 severity. This study highlights the importance of integrative approaches to better understanding the disease. Identifying genetic biomarkers can aid in treatment and management of future pandemics |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-04-14T17:49:36Z 2025-04-14T17:49:36Z 2025-02-24 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://repositorio.ufes.br/handle/10/19167 |
| url |
http://repositorio.ufes.br/handle/10/19167 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
Text application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal do Espírito Santo BR Mestrado em Biotecnologia Centro de Ciências da Saúde UFES Programa de Pós-Graduação em Biotecnologia |
| publisher.none.fl_str_mv |
Universidade Federal do Espírito Santo BR Mestrado em Biotecnologia Centro de Ciências da Saúde UFES Programa de Pós-Graduação em Biotecnologia |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) instname:Universidade Federal do Espírito Santo (UFES) instacron:UFES |
| instname_str |
Universidade Federal do Espírito Santo (UFES) |
| instacron_str |
UFES |
| institution |
UFES |
| reponame_str |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
| collection |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
| repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES) |
| repository.mail.fl_str_mv |
riufes@ufes.br |
| _version_ |
1834479094110093312 |