Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Campos, Gabriel Montenegro de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/17/17153/tde-14072025-145632/
Resumo: Os métodos metagenômicos são ferramentas poderosas para a identificação de vírus emergentes pouco conhecidos ou inesperados. Com o avanço das tecnologias de sequenciamento de nova geração e dos classificadores taxonômicos, tornou-se possível associar sequências genéticas aos seus respectivos táxons. No entanto, uma grande parcela das leituras permanece não classificada, sendo denominada de matéria escura, em analogia ao termo da física. Essa fração não identificada representa um dos principais desafios para a compreensão completa do metagenoma. Este estudo teve como objetivo identificar o conteúdo viral em nível de família dentro das sequências não classificadas. Para isso, foram empregados algoritmos de aprendizado de máquina supervisionados baseados em árvores de decisão, treinados tanto dados genômicos de swab nasofaríngeo de pacientes pediátricos negativos para SARS-CoV-2 quanto com dados públicos do NCBI Virus. Os atributos utilizados foram baseadas nos perfis proteicos das sequências e em características intrinsecas a elas. Os classificadores Random Forest e eXtreme Gradient Boosting apresentaram o melhores desempenhos, obtendo as melhores métricas em todos os cenários testados. Além disso, a análise revelou que a matéria escura genômica contém sequências virais previamente não identificadas. Ao ser aplicada a uma amostra clínica de swab orofaringeo, evidenciou-se a presença de mais leituras virais da família Anelloviridae.
id USP_5718147c1de9708e6bb43e4057292ca9
oai_identifier_str oai:teses.usp.br:tde-14072025-145632
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geraçãoApplication of machine learning algorithms for virus identification in dark matter data from next-generation sequencingAprendizado de máquinaBioinformáticaBioinformaticsDark matterMachine learningMatéria escuraMetagenômicaMetagenomicsPerfis proteicosProtein profilesOs métodos metagenômicos são ferramentas poderosas para a identificação de vírus emergentes pouco conhecidos ou inesperados. Com o avanço das tecnologias de sequenciamento de nova geração e dos classificadores taxonômicos, tornou-se possível associar sequências genéticas aos seus respectivos táxons. No entanto, uma grande parcela das leituras permanece não classificada, sendo denominada de matéria escura, em analogia ao termo da física. Essa fração não identificada representa um dos principais desafios para a compreensão completa do metagenoma. Este estudo teve como objetivo identificar o conteúdo viral em nível de família dentro das sequências não classificadas. Para isso, foram empregados algoritmos de aprendizado de máquina supervisionados baseados em árvores de decisão, treinados tanto dados genômicos de swab nasofaríngeo de pacientes pediátricos negativos para SARS-CoV-2 quanto com dados públicos do NCBI Virus. Os atributos utilizados foram baseadas nos perfis proteicos das sequências e em características intrinsecas a elas. Os classificadores Random Forest e eXtreme Gradient Boosting apresentaram o melhores desempenhos, obtendo as melhores métricas em todos os cenários testados. Além disso, a análise revelou que a matéria escura genômica contém sequências virais previamente não identificadas. Ao ser aplicada a uma amostra clínica de swab orofaringeo, evidenciou-se a presença de mais leituras virais da família Anelloviridae.Metagenomic methods are powerful tools for identifying little-known or unexpected emerging viruses. With the advancement of next-generation sequencing technologies and taxonomic classifiers, it has become possible to associate genetic sequences with their respective taxa. However, a large portion of the reads remains unclassified, referred to as dark matter in analogy to the term used in physics. This unidentified fraction represents one of the main challenges in achieving a comprehensive understanding of the metagenome. This study aimed to identify viral content at the family level within unclassified sequences. To this end, supervised machine learning algorithms based on decision trees were employed, trained on both nasopharyngeal swab genomic data from pediatric patients negative for SARS-CoV-2 and public data from NCBI Virus. The selected features were based on the protein profiles of the sequences and their intrinsic characteristics. The Random Forest and eXtreme Gradient Boosting classifiers achieved the best performances, obtaining the highest metrics across all tested scenarios. Furthermore, the analysis revealed that genomic dark matter contains previously unidentified viral sequences. When applied to a clinical oropharyngeal swab sample from a pediatric patient with febrile neutropenia, the presence of a higher number of viral reads from the Anelloviridae family was observed.Biblioteca Digitais de Teses e Dissertações da USPSlavov, Svetoslav NanevCampos, Gabriel Montenegro de2025-04-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/17/17153/tde-14072025-145632/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-07-17T19:46:02Zoai:teses.usp.br:tde-14072025-145632Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-07-17T19:46:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração
Application of machine learning algorithms for virus identification in dark matter data from next-generation sequencing
title Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração
spellingShingle Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração
Campos, Gabriel Montenegro de
Aprendizado de máquina
Bioinformática
Bioinformatics
Dark matter
Machine learning
Matéria escura
Metagenômica
Metagenomics
Perfis proteicos
Protein profiles
title_short Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração
title_full Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração
title_fullStr Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração
title_full_unstemmed Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração
title_sort Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração
author Campos, Gabriel Montenegro de
author_facet Campos, Gabriel Montenegro de
author_role author
dc.contributor.none.fl_str_mv Slavov, Svetoslav Nanev
dc.contributor.author.fl_str_mv Campos, Gabriel Montenegro de
dc.subject.por.fl_str_mv Aprendizado de máquina
Bioinformática
Bioinformatics
Dark matter
Machine learning
Matéria escura
Metagenômica
Metagenomics
Perfis proteicos
Protein profiles
topic Aprendizado de máquina
Bioinformática
Bioinformatics
Dark matter
Machine learning
Matéria escura
Metagenômica
Metagenomics
Perfis proteicos
Protein profiles
description Os métodos metagenômicos são ferramentas poderosas para a identificação de vírus emergentes pouco conhecidos ou inesperados. Com o avanço das tecnologias de sequenciamento de nova geração e dos classificadores taxonômicos, tornou-se possível associar sequências genéticas aos seus respectivos táxons. No entanto, uma grande parcela das leituras permanece não classificada, sendo denominada de matéria escura, em analogia ao termo da física. Essa fração não identificada representa um dos principais desafios para a compreensão completa do metagenoma. Este estudo teve como objetivo identificar o conteúdo viral em nível de família dentro das sequências não classificadas. Para isso, foram empregados algoritmos de aprendizado de máquina supervisionados baseados em árvores de decisão, treinados tanto dados genômicos de swab nasofaríngeo de pacientes pediátricos negativos para SARS-CoV-2 quanto com dados públicos do NCBI Virus. Os atributos utilizados foram baseadas nos perfis proteicos das sequências e em características intrinsecas a elas. Os classificadores Random Forest e eXtreme Gradient Boosting apresentaram o melhores desempenhos, obtendo as melhores métricas em todos os cenários testados. Além disso, a análise revelou que a matéria escura genômica contém sequências virais previamente não identificadas. Ao ser aplicada a uma amostra clínica de swab orofaringeo, evidenciou-se a presença de mais leituras virais da família Anelloviridae.
publishDate 2025
dc.date.none.fl_str_mv 2025-04-25
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/17/17153/tde-14072025-145632/
url https://www.teses.usp.br/teses/disponiveis/17/17153/tde-14072025-145632/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1865492286194843648