[pt] AVALIAÇÃO DA QUALIDADE DA MONTAGEM DE FRAGMENTOS DE SEQUÊNCIAS BIOLÓGICAS

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: ALEJANDRO MUSTELIER MENES
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: MAXWELL
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=33967&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=33967&idi=2
http://doi.org/10.17771/PUCRio.acad.33967
Resumo: [pt] Nos últimos anos surgiram novas tecnologias de sequenciamento de DNA conhecidas como NGS - Next-Generation Sequencing. Estas são responsáveis por tornar o processo de sequenciamento mais rápido e menos custoso, mas também trazem como resultado fragmentos de DNA muito pequenos, conhecidos como reads. A montagem do genoma a partir destes fragmentos é considerada um problema complexo devido à sua natureza combinatória e ao grande volume de reads produzidos. De maneira geral, os biólogos e bioinformatas escolhem o programa montador de sequências sem levar em consideração informações da eficiência computacional ou da qualidade biológica do resultado. Esta pesquisa tem como objetivo auxiliar aos usuários biólogos a avaliar a qualidade dos resultados da montagem. Primeiramente, foi projetada e desenvolvida uma metodologia para obter informações dos genes presentes na montagem, listando os genes que podem ser identificados, aqueles que têm o tamanho correto e a sequência de pares de bases correta. Em segundo lugar, foram realizados testes experimentais exaustivos envolvendo cinco dos principais montadores de genoma conhecidos na literatura os quais são baseados no uso de grafos de Bruijn e oito genomas de bactérias. Foram feitas comparações estatísticas do resultado usando as ferramentas QUAST e REAPR. Também foram obtidas informações qualitativas dos genes usando o algoritmo proposto e algumas métricas de eficiência. Em função dos resultados coletados, é feita uma análise comparativa que permite aos usuários conhecer melhor o comportamento das ferramentas consideradas nos testes. Por fim, foi desenvolvida uma ferramenta que recebe diferentes resultados de montagens de um mesmo genoma e produz um relatório qualitativo e quantitativo para o usuário interpretar os resultados de maneira integrada.
id PUC_RIO-1_c28cd8984043f1bbb4dc353ad87b8ee8
oai_identifier_str oai:MAXWELL.puc-rio.br:33967
network_acronym_str PUC_RIO-1
network_name_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str
spelling [pt] AVALIAÇÃO DA QUALIDADE DA MONTAGEM DE FRAGMENTOS DE SEQUÊNCIAS BIOLÓGICAS [en] QUALITY EVALUATION FOR FRAGMENTS ASSEMBLY OF BIOLOGICAL SEQUENCES [pt] BIOINFORMATICA[pt] SEQUENCIAS BIOLOGICAS[pt] MONTAGEM DE FRAGMENTOS[en] BIOINFORMATICS[en] BIOLOGICAL SEQUENCES[en] FRAGMENTS ASSEMBLY[pt] Nos últimos anos surgiram novas tecnologias de sequenciamento de DNA conhecidas como NGS - Next-Generation Sequencing. Estas são responsáveis por tornar o processo de sequenciamento mais rápido e menos custoso, mas também trazem como resultado fragmentos de DNA muito pequenos, conhecidos como reads. A montagem do genoma a partir destes fragmentos é considerada um problema complexo devido à sua natureza combinatória e ao grande volume de reads produzidos. De maneira geral, os biólogos e bioinformatas escolhem o programa montador de sequências sem levar em consideração informações da eficiência computacional ou da qualidade biológica do resultado. Esta pesquisa tem como objetivo auxiliar aos usuários biólogos a avaliar a qualidade dos resultados da montagem. Primeiramente, foi projetada e desenvolvida uma metodologia para obter informações dos genes presentes na montagem, listando os genes que podem ser identificados, aqueles que têm o tamanho correto e a sequência de pares de bases correta. Em segundo lugar, foram realizados testes experimentais exaustivos envolvendo cinco dos principais montadores de genoma conhecidos na literatura os quais são baseados no uso de grafos de Bruijn e oito genomas de bactérias. Foram feitas comparações estatísticas do resultado usando as ferramentas QUAST e REAPR. Também foram obtidas informações qualitativas dos genes usando o algoritmo proposto e algumas métricas de eficiência. Em função dos resultados coletados, é feita uma análise comparativa que permite aos usuários conhecer melhor o comportamento das ferramentas consideradas nos testes. Por fim, foi desenvolvida uma ferramenta que recebe diferentes resultados de montagens de um mesmo genoma e produz um relatório qualitativo e quantitativo para o usuário interpretar os resultados de maneira integrada.[en] New DNA sequencing technologies, known as NGS - Next-Generation Sequencing, are responsible for making the sequencing process more efficient. However, they generate a result with very small DNA fragments, known as reads. We consider the genome assembly from these fragments a complex problem due to its combinatorial nature and the large volume of reads produced. In general, biologists and bioinformatics experts choose the sequence assembler program with no regard to the computational efficiency or even the quality of the biological result information. This research aims to assist users in the interpretation of assembly results, including effectiveness and efficiency. In addition, this may sometimes increase the quality of the results obtained. Firstly, we propose an algorithm to obtain information about the genes present in the result assembly. We enumerate the identified genes, those that have the correct size and the correct base pair sequence. Next, exhaustive experimental tests involving five of the main genome assemblers in the literature which are based on the use of graphs of Bruijn and eight bacterial genomes data set were ran. We have performed statistical comparisons of results using QUAST and REAPR tools. We have also obtained qualitative information for the genes using the proposed algorithm and some computational efficiency metrics. Based on the collected results, we present a comparative analysis that allows users to understand further the behavior of the tools considered in the tests. Finally, we propose a tool that receives different assemblies of the same genome and produces a qualitative and quantitative report for the user, enabling the interpretation of the results in an integrated way.MAXWELLSERGIO LIFSCHITZSERGIO LIFSCHITZALEJANDRO MUSTELIER MENES2018-05-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=33967&idi=1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=33967&idi=2http://doi.org/10.17771/PUCRio.acad.33967porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2018-05-24T00:00:00Zoai:MAXWELL.puc-rio.br:33967Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342018-05-24T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv [pt] AVALIAÇÃO DA QUALIDADE DA MONTAGEM DE FRAGMENTOS DE SEQUÊNCIAS BIOLÓGICAS
[en] QUALITY EVALUATION FOR FRAGMENTS ASSEMBLY OF BIOLOGICAL SEQUENCES
title [pt] AVALIAÇÃO DA QUALIDADE DA MONTAGEM DE FRAGMENTOS DE SEQUÊNCIAS BIOLÓGICAS
spellingShingle [pt] AVALIAÇÃO DA QUALIDADE DA MONTAGEM DE FRAGMENTOS DE SEQUÊNCIAS BIOLÓGICAS
ALEJANDRO MUSTELIER MENES
[pt] BIOINFORMATICA
[pt] SEQUENCIAS BIOLOGICAS
[pt] MONTAGEM DE FRAGMENTOS
[en] BIOINFORMATICS
[en] BIOLOGICAL SEQUENCES
[en] FRAGMENTS ASSEMBLY
title_short [pt] AVALIAÇÃO DA QUALIDADE DA MONTAGEM DE FRAGMENTOS DE SEQUÊNCIAS BIOLÓGICAS
title_full [pt] AVALIAÇÃO DA QUALIDADE DA MONTAGEM DE FRAGMENTOS DE SEQUÊNCIAS BIOLÓGICAS
title_fullStr [pt] AVALIAÇÃO DA QUALIDADE DA MONTAGEM DE FRAGMENTOS DE SEQUÊNCIAS BIOLÓGICAS
title_full_unstemmed [pt] AVALIAÇÃO DA QUALIDADE DA MONTAGEM DE FRAGMENTOS DE SEQUÊNCIAS BIOLÓGICAS
title_sort [pt] AVALIAÇÃO DA QUALIDADE DA MONTAGEM DE FRAGMENTOS DE SEQUÊNCIAS BIOLÓGICAS
author ALEJANDRO MUSTELIER MENES
author_facet ALEJANDRO MUSTELIER MENES
author_role author
dc.contributor.none.fl_str_mv SERGIO LIFSCHITZ
SERGIO LIFSCHITZ
dc.contributor.author.fl_str_mv ALEJANDRO MUSTELIER MENES
dc.subject.por.fl_str_mv [pt] BIOINFORMATICA
[pt] SEQUENCIAS BIOLOGICAS
[pt] MONTAGEM DE FRAGMENTOS
[en] BIOINFORMATICS
[en] BIOLOGICAL SEQUENCES
[en] FRAGMENTS ASSEMBLY
topic [pt] BIOINFORMATICA
[pt] SEQUENCIAS BIOLOGICAS
[pt] MONTAGEM DE FRAGMENTOS
[en] BIOINFORMATICS
[en] BIOLOGICAL SEQUENCES
[en] FRAGMENTS ASSEMBLY
description [pt] Nos últimos anos surgiram novas tecnologias de sequenciamento de DNA conhecidas como NGS - Next-Generation Sequencing. Estas são responsáveis por tornar o processo de sequenciamento mais rápido e menos custoso, mas também trazem como resultado fragmentos de DNA muito pequenos, conhecidos como reads. A montagem do genoma a partir destes fragmentos é considerada um problema complexo devido à sua natureza combinatória e ao grande volume de reads produzidos. De maneira geral, os biólogos e bioinformatas escolhem o programa montador de sequências sem levar em consideração informações da eficiência computacional ou da qualidade biológica do resultado. Esta pesquisa tem como objetivo auxiliar aos usuários biólogos a avaliar a qualidade dos resultados da montagem. Primeiramente, foi projetada e desenvolvida uma metodologia para obter informações dos genes presentes na montagem, listando os genes que podem ser identificados, aqueles que têm o tamanho correto e a sequência de pares de bases correta. Em segundo lugar, foram realizados testes experimentais exaustivos envolvendo cinco dos principais montadores de genoma conhecidos na literatura os quais são baseados no uso de grafos de Bruijn e oito genomas de bactérias. Foram feitas comparações estatísticas do resultado usando as ferramentas QUAST e REAPR. Também foram obtidas informações qualitativas dos genes usando o algoritmo proposto e algumas métricas de eficiência. Em função dos resultados coletados, é feita uma análise comparativa que permite aos usuários conhecer melhor o comportamento das ferramentas consideradas nos testes. Por fim, foi desenvolvida uma ferramenta que recebe diferentes resultados de montagens de um mesmo genoma e produz um relatório qualitativo e quantitativo para o usuário interpretar os resultados de maneira integrada.
publishDate 2018
dc.date.none.fl_str_mv 2018-05-23
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=33967&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=33967&idi=2
http://doi.org/10.17771/PUCRio.acad.33967
url https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=33967&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=33967&idi=2
http://doi.org/10.17771/PUCRio.acad.33967
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv MAXWELL
publisher.none.fl_str_mv MAXWELL
dc.source.none.fl_str_mv reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)
instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron:PUC_RIO
instname_str Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str PUC_RIO
institution PUC_RIO
reponame_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_ 1856395934502486016