Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/17/17153/tde-14072025-145632/ |
Resumo: | Os métodos metagenômicos são ferramentas poderosas para a identificação de vírus emergentes pouco conhecidos ou inesperados. Com o avanço das tecnologias de sequenciamento de nova geração e dos classificadores taxonômicos, tornou-se possível associar sequências genéticas aos seus respectivos táxons. No entanto, uma grande parcela das leituras permanece não classificada, sendo denominada de matéria escura, em analogia ao termo da física. Essa fração não identificada representa um dos principais desafios para a compreensão completa do metagenoma. Este estudo teve como objetivo identificar o conteúdo viral em nível de família dentro das sequências não classificadas. Para isso, foram empregados algoritmos de aprendizado de máquina supervisionados baseados em árvores de decisão, treinados tanto dados genômicos de swab nasofaríngeo de pacientes pediátricos negativos para SARS-CoV-2 quanto com dados públicos do NCBI Virus. Os atributos utilizados foram baseadas nos perfis proteicos das sequências e em características intrinsecas a elas. Os classificadores Random Forest e eXtreme Gradient Boosting apresentaram o melhores desempenhos, obtendo as melhores métricas em todos os cenários testados. Além disso, a análise revelou que a matéria escura genômica contém sequências virais previamente não identificadas. Ao ser aplicada a uma amostra clínica de swab orofaringeo, evidenciou-se a presença de mais leituras virais da família Anelloviridae. |
| id |
USP_5718147c1de9708e6bb43e4057292ca9 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-14072025-145632 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geraçãoApplication of machine learning algorithms for virus identification in dark matter data from next-generation sequencingAprendizado de máquinaBioinformáticaBioinformaticsDark matterMachine learningMatéria escuraMetagenômicaMetagenomicsPerfis proteicosProtein profilesOs métodos metagenômicos são ferramentas poderosas para a identificação de vírus emergentes pouco conhecidos ou inesperados. Com o avanço das tecnologias de sequenciamento de nova geração e dos classificadores taxonômicos, tornou-se possível associar sequências genéticas aos seus respectivos táxons. No entanto, uma grande parcela das leituras permanece não classificada, sendo denominada de matéria escura, em analogia ao termo da física. Essa fração não identificada representa um dos principais desafios para a compreensão completa do metagenoma. Este estudo teve como objetivo identificar o conteúdo viral em nível de família dentro das sequências não classificadas. Para isso, foram empregados algoritmos de aprendizado de máquina supervisionados baseados em árvores de decisão, treinados tanto dados genômicos de swab nasofaríngeo de pacientes pediátricos negativos para SARS-CoV-2 quanto com dados públicos do NCBI Virus. Os atributos utilizados foram baseadas nos perfis proteicos das sequências e em características intrinsecas a elas. Os classificadores Random Forest e eXtreme Gradient Boosting apresentaram o melhores desempenhos, obtendo as melhores métricas em todos os cenários testados. Além disso, a análise revelou que a matéria escura genômica contém sequências virais previamente não identificadas. Ao ser aplicada a uma amostra clínica de swab orofaringeo, evidenciou-se a presença de mais leituras virais da família Anelloviridae.Metagenomic methods are powerful tools for identifying little-known or unexpected emerging viruses. With the advancement of next-generation sequencing technologies and taxonomic classifiers, it has become possible to associate genetic sequences with their respective taxa. However, a large portion of the reads remains unclassified, referred to as dark matter in analogy to the term used in physics. This unidentified fraction represents one of the main challenges in achieving a comprehensive understanding of the metagenome. This study aimed to identify viral content at the family level within unclassified sequences. To this end, supervised machine learning algorithms based on decision trees were employed, trained on both nasopharyngeal swab genomic data from pediatric patients negative for SARS-CoV-2 and public data from NCBI Virus. The selected features were based on the protein profiles of the sequences and their intrinsic characteristics. The Random Forest and eXtreme Gradient Boosting classifiers achieved the best performances, obtaining the highest metrics across all tested scenarios. Furthermore, the analysis revealed that genomic dark matter contains previously unidentified viral sequences. When applied to a clinical oropharyngeal swab sample from a pediatric patient with febrile neutropenia, the presence of a higher number of viral reads from the Anelloviridae family was observed.Biblioteca Digitais de Teses e Dissertações da USPSlavov, Svetoslav NanevCampos, Gabriel Montenegro de2025-04-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/17/17153/tde-14072025-145632/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-07-17T19:46:02Zoai:teses.usp.br:tde-14072025-145632Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-07-17T19:46:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração Application of machine learning algorithms for virus identification in dark matter data from next-generation sequencing |
| title |
Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração |
| spellingShingle |
Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração Campos, Gabriel Montenegro de Aprendizado de máquina Bioinformática Bioinformatics Dark matter Machine learning Matéria escura Metagenômica Metagenomics Perfis proteicos Protein profiles |
| title_short |
Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração |
| title_full |
Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração |
| title_fullStr |
Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração |
| title_full_unstemmed |
Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração |
| title_sort |
Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração |
| author |
Campos, Gabriel Montenegro de |
| author_facet |
Campos, Gabriel Montenegro de |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Slavov, Svetoslav Nanev |
| dc.contributor.author.fl_str_mv |
Campos, Gabriel Montenegro de |
| dc.subject.por.fl_str_mv |
Aprendizado de máquina Bioinformática Bioinformatics Dark matter Machine learning Matéria escura Metagenômica Metagenomics Perfis proteicos Protein profiles |
| topic |
Aprendizado de máquina Bioinformática Bioinformatics Dark matter Machine learning Matéria escura Metagenômica Metagenomics Perfis proteicos Protein profiles |
| description |
Os métodos metagenômicos são ferramentas poderosas para a identificação de vírus emergentes pouco conhecidos ou inesperados. Com o avanço das tecnologias de sequenciamento de nova geração e dos classificadores taxonômicos, tornou-se possível associar sequências genéticas aos seus respectivos táxons. No entanto, uma grande parcela das leituras permanece não classificada, sendo denominada de matéria escura, em analogia ao termo da física. Essa fração não identificada representa um dos principais desafios para a compreensão completa do metagenoma. Este estudo teve como objetivo identificar o conteúdo viral em nível de família dentro das sequências não classificadas. Para isso, foram empregados algoritmos de aprendizado de máquina supervisionados baseados em árvores de decisão, treinados tanto dados genômicos de swab nasofaríngeo de pacientes pediátricos negativos para SARS-CoV-2 quanto com dados públicos do NCBI Virus. Os atributos utilizados foram baseadas nos perfis proteicos das sequências e em características intrinsecas a elas. Os classificadores Random Forest e eXtreme Gradient Boosting apresentaram o melhores desempenhos, obtendo as melhores métricas em todos os cenários testados. Além disso, a análise revelou que a matéria escura genômica contém sequências virais previamente não identificadas. Ao ser aplicada a uma amostra clínica de swab orofaringeo, evidenciou-se a presença de mais leituras virais da família Anelloviridae. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-04-25 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/17/17153/tde-14072025-145632/ |
| url |
https://www.teses.usp.br/teses/disponiveis/17/17153/tde-14072025-145632/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1865492286194843648 |