Ampliando o potencial dos dados genômicos : um estudo sobre o enriquecimento de metadados e a classificação filogenética de sequências microbianas

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Elias, Samuel Galvão
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.unb.br/handle/10482/51833
Resumo: A presente tese aborda dois desafios cruciais na análise de dados genômicos: a agregação e complementação de metadados e a classificação filogenética de sequências biológicas. Para resolver o primeiro desafio, desenvolvemos o GeneConnector, uma ferramenta que agrega e complementa metadados de registros do GenBank, explorando informações compartilhadas entre diferentes sequências de um mesmo espécime. A aplicação do GeneConnector ao banco de dados GOPHY demonstrou sua eficácia na recuperação de informações valiosas sobre a origem, coleta e processamento das amostras, com ganhos de informação de até 60%. Adicionalmente, introduzimos os scores Observed Completeness Score - OCS e Reachable Completeness Score - RCS para avaliar a completude dos metadados e o potencial de enriquecimento de informações. Para o segundo desafio, desenvolvemos o Classeq, uma ferramenta de classificação de sequências biológicas baseada em posicionamento filogenético, rápida, precisa, independente de alinhamentos múltiplos de sequências e capaz de classificar sequências de genes inteiros. Nossos testes com o Bacillus subtilis group demonstraram a alta sensibilidade e especificidade da ferramenta, classificando corretamente quase todas as sequências do grupo em seus respectivos clados. Adicionalmente, o Classeq oferece uma interface de usuário amigável e uma API para facilitar sua integração em fluxos de trabalho existentes. Em suma, o GeneConnector e o Classeq representam avanços significativos na análise de dados genômicos, com potencial para impulsionar pesquisas em diversas áreas. Ao abordar os desafios de agregação de metadados e classificação filogenética, essas ferramentas oferecem novas perspectivas para a interpretação e utilização de dados genômicos, abrindo caminho para descobertas e aplicações inovadoras.
id UNB_1eae4c9df8d3c166161e514a13fb6ebc
oai_identifier_str oai:repositorio.unb.br:10482/51833
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling Ampliando o potencial dos dados genômicos : um estudo sobre o enriquecimento de metadados e a classificação filogenética de sequências microbianasMicologiaFitopatologiaFilogeniaBacillus subtilisGenBankPosicionamento filogenéticoA presente tese aborda dois desafios cruciais na análise de dados genômicos: a agregação e complementação de metadados e a classificação filogenética de sequências biológicas. Para resolver o primeiro desafio, desenvolvemos o GeneConnector, uma ferramenta que agrega e complementa metadados de registros do GenBank, explorando informações compartilhadas entre diferentes sequências de um mesmo espécime. A aplicação do GeneConnector ao banco de dados GOPHY demonstrou sua eficácia na recuperação de informações valiosas sobre a origem, coleta e processamento das amostras, com ganhos de informação de até 60%. Adicionalmente, introduzimos os scores Observed Completeness Score - OCS e Reachable Completeness Score - RCS para avaliar a completude dos metadados e o potencial de enriquecimento de informações. Para o segundo desafio, desenvolvemos o Classeq, uma ferramenta de classificação de sequências biológicas baseada em posicionamento filogenético, rápida, precisa, independente de alinhamentos múltiplos de sequências e capaz de classificar sequências de genes inteiros. Nossos testes com o Bacillus subtilis group demonstraram a alta sensibilidade e especificidade da ferramenta, classificando corretamente quase todas as sequências do grupo em seus respectivos clados. Adicionalmente, o Classeq oferece uma interface de usuário amigável e uma API para facilitar sua integração em fluxos de trabalho existentes. Em suma, o GeneConnector e o Classeq representam avanços significativos na análise de dados genômicos, com potencial para impulsionar pesquisas em diversas áreas. Ao abordar os desafios de agregação de metadados e classificação filogenética, essas ferramentas oferecem novas perspectivas para a interpretação e utilização de dados genômicos, abrindo caminho para descobertas e aplicações inovadoras.This thesis addresses two crucial challenges in genomic data analysis: metadata aggregation and complementation, and phylogenetic classification of biological sequences. To address the first challenge, we developed GeneConnector, a tool that aggregates and complements metadata from GenBank records by exploiting shared information among different sequences from the same specimen. The application of GeneConnector to the GOPHY database demonstrated its effectiveness in retrieving valuable information about the origin, collection, and processing of samples, with information gains of up to 60%. Additionally, we introduced the OCS (Observed Completeness Score) and RCS (Reachable Completeness Score) to assess metadata completeness and potential for information enrichment. For the second challenge, we developed Classeq, a tool for classifying biological sequences based on phylogenetic placement, which is fast, accurate, independent of multiple sequence alignments, and capable of classifying whole gene sequences. Our tests with the Bacillus subtilis group demonstrated the high sensitivity and specificity of the tool, correctly classifying almost all sequences of the group into their respective clades. Additionally, Classeq offers a user-friendly interface and an API to facilitate its integration into existing workflows. In summary, GeneConnector and Classeq represent significant advances in genomic data analysis, with the potential to drive research in various fields. By addressing the challenges of metadata aggregation and phylogenetic classification, these tools offer new perspectives for interpreting and utilizing genomic data, paving the way for innovative discoveries and applications.Instituto de Ciências Biológicas (IB)Departamento de Biologia Celular (IB CEL)Programa de Pós-Graduação em Biologia MicrobianaVale, Helson Mário Martins doElias, Samuel Galvão2025-03-12T19:15:34Z2025-03-12T19:15:34Z2025-03-122024-08-14info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfELIAS, Samuel Galvão. Ampliando o Potencial dos Dados Genômicos: Um Estudo sobre o Enriquecimento de Metadados e a Classificação Filogenética de Sequências Microbianas. 2024. 115 f. Tese (Doutorado em Biologia Microbiana) — Universidade de Brasília, Brasília, 2024.http://repositorio.unb.br/handle/10482/51833porA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2025-03-12T19:15:34Zoai:repositorio.unb.br:10482/51833Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2025-03-12T19:15:34Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv Ampliando o potencial dos dados genômicos : um estudo sobre o enriquecimento de metadados e a classificação filogenética de sequências microbianas
title Ampliando o potencial dos dados genômicos : um estudo sobre o enriquecimento de metadados e a classificação filogenética de sequências microbianas
spellingShingle Ampliando o potencial dos dados genômicos : um estudo sobre o enriquecimento de metadados e a classificação filogenética de sequências microbianas
Elias, Samuel Galvão
Micologia
Fitopatologia
Filogenia
Bacillus subtilis
GenBank
Posicionamento filogenético
title_short Ampliando o potencial dos dados genômicos : um estudo sobre o enriquecimento de metadados e a classificação filogenética de sequências microbianas
title_full Ampliando o potencial dos dados genômicos : um estudo sobre o enriquecimento de metadados e a classificação filogenética de sequências microbianas
title_fullStr Ampliando o potencial dos dados genômicos : um estudo sobre o enriquecimento de metadados e a classificação filogenética de sequências microbianas
title_full_unstemmed Ampliando o potencial dos dados genômicos : um estudo sobre o enriquecimento de metadados e a classificação filogenética de sequências microbianas
title_sort Ampliando o potencial dos dados genômicos : um estudo sobre o enriquecimento de metadados e a classificação filogenética de sequências microbianas
author Elias, Samuel Galvão
author_facet Elias, Samuel Galvão
author_role author
dc.contributor.none.fl_str_mv Vale, Helson Mário Martins do
dc.contributor.author.fl_str_mv Elias, Samuel Galvão
dc.subject.por.fl_str_mv Micologia
Fitopatologia
Filogenia
Bacillus subtilis
GenBank
Posicionamento filogenético
topic Micologia
Fitopatologia
Filogenia
Bacillus subtilis
GenBank
Posicionamento filogenético
description A presente tese aborda dois desafios cruciais na análise de dados genômicos: a agregação e complementação de metadados e a classificação filogenética de sequências biológicas. Para resolver o primeiro desafio, desenvolvemos o GeneConnector, uma ferramenta que agrega e complementa metadados de registros do GenBank, explorando informações compartilhadas entre diferentes sequências de um mesmo espécime. A aplicação do GeneConnector ao banco de dados GOPHY demonstrou sua eficácia na recuperação de informações valiosas sobre a origem, coleta e processamento das amostras, com ganhos de informação de até 60%. Adicionalmente, introduzimos os scores Observed Completeness Score - OCS e Reachable Completeness Score - RCS para avaliar a completude dos metadados e o potencial de enriquecimento de informações. Para o segundo desafio, desenvolvemos o Classeq, uma ferramenta de classificação de sequências biológicas baseada em posicionamento filogenético, rápida, precisa, independente de alinhamentos múltiplos de sequências e capaz de classificar sequências de genes inteiros. Nossos testes com o Bacillus subtilis group demonstraram a alta sensibilidade e especificidade da ferramenta, classificando corretamente quase todas as sequências do grupo em seus respectivos clados. Adicionalmente, o Classeq oferece uma interface de usuário amigável e uma API para facilitar sua integração em fluxos de trabalho existentes. Em suma, o GeneConnector e o Classeq representam avanços significativos na análise de dados genômicos, com potencial para impulsionar pesquisas em diversas áreas. Ao abordar os desafios de agregação de metadados e classificação filogenética, essas ferramentas oferecem novas perspectivas para a interpretação e utilização de dados genômicos, abrindo caminho para descobertas e aplicações inovadoras.
publishDate 2024
dc.date.none.fl_str_mv 2024-08-14
2025-03-12T19:15:34Z
2025-03-12T19:15:34Z
2025-03-12
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv ELIAS, Samuel Galvão. Ampliando o Potencial dos Dados Genômicos: Um Estudo sobre o Enriquecimento de Metadados e a Classificação Filogenética de Sequências Microbianas. 2024. 115 f. Tese (Doutorado em Biologia Microbiana) — Universidade de Brasília, Brasília, 2024.
http://repositorio.unb.br/handle/10482/51833
identifier_str_mv ELIAS, Samuel Galvão. Ampliando o Potencial dos Dados Genômicos: Um Estudo sobre o Enriquecimento de Metadados e a Classificação Filogenética de Sequências Microbianas. 2024. 115 f. Tese (Doutorado em Biologia Microbiana) — Universidade de Brasília, Brasília, 2024.
url http://repositorio.unb.br/handle/10482/51833
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv repositorio@unb.br
_version_ 1839083763195183104