Proposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geração

Detalhes bibliográficos
Ano de defesa: 2014
Autor(a) principal: Couto, Adriano Donato
Orientador(a): Cerqueira, Fábio Ribeiro lattes
Banca de defesa: Fietto, Juliana Lopes Rangel lattes, Ferreira, Ricardo dos Santos lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
Programa de Pós-Graduação: Mestrado em Ciência da Computação
Departamento: Metodologias e técnicas da Computação; Sistemas de Computação
País: BR
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://locus.ufv.br/handle/123456789/2677
Resumo: The study of genomes brought a lot of gains to Medicine, Pharmacology and many other important science fields. However, many challenges emerged as a consequence, specially in Computer Science. The big amount of data and its complexity to be analyzed make arduous to extract the information needed. As the DNA sequencers are not able to get the sequence of the whole molecule at a glance, the sequencing process breaks the molecule and works with a lot of fragments. Those fragments need to be assembled in a next step. In the new-generation sequencers, the sequen- cing process is much faster and cheaper, but they return much smaller fragments compared to the output from Sanger technology. Besides the bigger set of fragments, the interference of sequencing errors complicates the process, classified as NP-hard. To handle this problem, the current DNA fragment assemblers run a lot of pre and postprocesses in the amount of data, aiming to eliminate or at least reduce the common problems. In this work, we propose a new approach of maximum- weighted maximum matching (first proposed for data from Sanger sequencing) for k-mer graphs that returns simpler components to work with (called unipaths), fol- lowed by an heuristic to combine those new components. Therefore, we want to do the assembly process in fewer steps. This crossing works with elongation of paths by the combination of unipaths. With a score system, the assembler tries to get longer paths combining the shorter ones, while minimizing the use of repeated re- gions. Because this is the beginning of a new approach for short fragments, it was not our intention to achieve a complete DNA assembler at its first version, but only to validate the proposed concept. In this work, we give focus specifically on the xiiassembly of sequences from new-generation sequencers. During the experiments, we identified that the assembler was able to return satisfatory results for half of the samples, but it needs some adjustments to improve the other results. Those adjust- ments would solve specific problems that this tool does not address yet. We also found out that the coverage by reads is determinant factor to get good outputs from this assembler. There are some future works that are necessary, such as decreasing memory usage and running time, as well as comparing this tool with other current available solutions.
id UFV_c77999bc4faa2b66f0916febffbfa3c4
oai_identifier_str oai:locus.ufv.br:123456789/2677
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str
spelling Couto, Adriano Donatohttp://lattes.cnpq.br/4192209349027039Oliveira, Alcione de Paivahttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788574J0Cerqueira, Fábio Ribeirohttp://lattes.cnpq.br/2788549078021456Fietto, Juliana Lopes Rangelhttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790238D0Ferreira, Ricardo dos Santoshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723626E52015-03-26T13:10:41Z2014-11-112015-03-26T13:10:41Z2014-02-27COUTO, Adriano Donato. Proposal of a new approach for the de novo assembly process of DNA sequences from new generation sequencers. 2014. 99 f. Dissertação (Mestrado em Metodologias e técnicas da Computação; Sistemas de Computação) - Universidade Federal de Viçosa, Viçosa, 2014.http://locus.ufv.br/handle/123456789/2677The study of genomes brought a lot of gains to Medicine, Pharmacology and many other important science fields. However, many challenges emerged as a consequence, specially in Computer Science. The big amount of data and its complexity to be analyzed make arduous to extract the information needed. As the DNA sequencers are not able to get the sequence of the whole molecule at a glance, the sequencing process breaks the molecule and works with a lot of fragments. Those fragments need to be assembled in a next step. In the new-generation sequencers, the sequen- cing process is much faster and cheaper, but they return much smaller fragments compared to the output from Sanger technology. Besides the bigger set of fragments, the interference of sequencing errors complicates the process, classified as NP-hard. To handle this problem, the current DNA fragment assemblers run a lot of pre and postprocesses in the amount of data, aiming to eliminate or at least reduce the common problems. In this work, we propose a new approach of maximum- weighted maximum matching (first proposed for data from Sanger sequencing) for k-mer graphs that returns simpler components to work with (called unipaths), fol- lowed by an heuristic to combine those new components. Therefore, we want to do the assembly process in fewer steps. This crossing works with elongation of paths by the combination of unipaths. With a score system, the assembler tries to get longer paths combining the shorter ones, while minimizing the use of repeated re- gions. Because this is the beginning of a new approach for short fragments, it was not our intention to achieve a complete DNA assembler at its first version, but only to validate the proposed concept. In this work, we give focus specifically on the xiiassembly of sequences from new-generation sequencers. During the experiments, we identified that the assembler was able to return satisfatory results for half of the samples, but it needs some adjustments to improve the other results. Those adjust- ments would solve specific problems that this tool does not address yet. We also found out that the coverage by reads is determinant factor to get good outputs from this assembler. There are some future works that are necessary, such as decreasing memory usage and running time, as well as comparing this tool with other current available solutions.O estudo de genomas trouxe muitos ganhos para a medicina, farmacologia e di- versas outras áreas do conhecimento. Porém, muitos desafios também surgiram como consequência, em especial os computacionais. A grande massa de dados e sua complexidade para ser analisada tornam difícil o ato de extrair as informações neces- sárias. Como os sequenciadores de DNA não conseguem trabalhar com a molécula completa de uma vez, o sequenciador quebra a molécula e trabalha com diversos fragmentos, que precisam ser montados em um próximo passo. Nos sequenciadores de nova geração, o processo de sequenciamento é muito mais rápido e mais barato, mas também traz fragmentos muito menores do que aqueles obtidos na tecnologia Sanger. Além do maior número de fragmentos, a interferência dos erros de sequen- ciamento torna o processo complicado, sendo classificado como NP-Difícil. Para resolver esta situação, os montadores de fragmentos de DNA atuais executam uma série de pré e pós-processamentos nos dados gerados, a fim de eliminar ou pelo menos diminuir os desafios presentes. Neste trabalho, propõe-se uma nova abor- dagem de emparelhamento máximo de peso máximo (anteriormente proposta para fragmentos da tecnologia Sanger) em grafos k-mer, que retorna componentes mais simples de trabalhar (conhecidos como unipaths), junto com uma heurística para combinar esses componentes. Assim, busca-se fazer o processo de montagem em menos etapas. Este cruzamento trabalha com a extensão de caminhos através da combinação dos unipaths. Com um sistema de pontuação, o montador busca cons- truir caminhos maiores e com o mínimo de áreas repetidas. Por se tratar do início de uma nova abordagem para fragmentos curtos, este trabalho não visa obter um xmontador de DNA completo em sua primeira versão, mas validar o conceito pro- posto. Neste trabalho, foca-se especificamente na montagem de sequências obtidas de sequenciadores da nova geração. Durante os testes, percebeu-se que o protótipo consegue montar satisfatoriamente os genomas em metade dos casos, necessitando de alguns ajustes em próximas versões para os demais casos. Estes ajustes solucio- nariam problemas específicos que esta ferramenta ainda não soluciona. Levantou-se também que a cobertura de reads é fator determinante para bons resultados desta ferramenta. Há alguns trabalhos futuros necessários, como corte do gasto de memó- ria, diminuição do tempo de processamento e comparação com outras ferramentas disponíveis atualmente.Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorapplication/pdfporUniversidade Federal de ViçosaMestrado em Ciência da ComputaçãoUFVBRMetodologias e técnicas da Computação; Sistemas de ComputaçãoBioinformáticaGenômicaSequenciamento de nucleotídeoTeoria dos grafosBioinformaticsGenomicsNucleotide sequencingGraph theoryCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOProposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geraçãoProposal of a new approach for the de novo assembly process of DNA sequences from new generation sequencersinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdfapplication/pdf4383996https://locus.ufv.br//bitstream/123456789/2677/1/texto%20completo.pdf9404dd35587d95c6d47eca0cd50485ceMD51TEXTtexto completo.pdf.txttexto completo.pdf.txtExtracted texttext/plain188325https://locus.ufv.br//bitstream/123456789/2677/2/texto%20completo.pdf.txt1c5b56911dc05baefcd4af1df0aea30dMD52THUMBNAILtexto completo.pdf.jpgtexto completo.pdf.jpgIM Thumbnailimage/jpeg3631https://locus.ufv.br//bitstream/123456789/2677/3/texto%20completo.pdf.jpg77f7e946f2e4447b63ca5d7da3aa9959MD53123456789/26772016-04-08 23:13:18.43oai:locus.ufv.br:123456789/2677Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452016-04-09T02:13:18LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.por.fl_str_mv Proposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geração
dc.title.alternative.eng.fl_str_mv Proposal of a new approach for the de novo assembly process of DNA sequences from new generation sequencers
title Proposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geração
spellingShingle Proposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geração
Couto, Adriano Donato
Bioinformática
Genômica
Sequenciamento de nucleotídeo
Teoria dos grafos
Bioinformatics
Genomics
Nucleotide sequencing
Graph theory
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Proposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geração
title_full Proposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geração
title_fullStr Proposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geração
title_full_unstemmed Proposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geração
title_sort Proposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geração
author Couto, Adriano Donato
author_facet Couto, Adriano Donato
author_role author
dc.contributor.authorLattes.por.fl_str_mv http://lattes.cnpq.br/4192209349027039
dc.contributor.author.fl_str_mv Couto, Adriano Donato
dc.contributor.advisor-co1.fl_str_mv Oliveira, Alcione de Paiva
dc.contributor.advisor-co1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788574J0
dc.contributor.advisor1.fl_str_mv Cerqueira, Fábio Ribeiro
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/2788549078021456
dc.contributor.referee1.fl_str_mv Fietto, Juliana Lopes Rangel
dc.contributor.referee1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790238D0
dc.contributor.referee2.fl_str_mv Ferreira, Ricardo dos Santos
dc.contributor.referee2Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723626E5
contributor_str_mv Oliveira, Alcione de Paiva
Cerqueira, Fábio Ribeiro
Fietto, Juliana Lopes Rangel
Ferreira, Ricardo dos Santos
dc.subject.por.fl_str_mv Bioinformática
Genômica
Sequenciamento de nucleotídeo
Teoria dos grafos
topic Bioinformática
Genômica
Sequenciamento de nucleotídeo
Teoria dos grafos
Bioinformatics
Genomics
Nucleotide sequencing
Graph theory
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Bioinformatics
Genomics
Nucleotide sequencing
Graph theory
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description The study of genomes brought a lot of gains to Medicine, Pharmacology and many other important science fields. However, many challenges emerged as a consequence, specially in Computer Science. The big amount of data and its complexity to be analyzed make arduous to extract the information needed. As the DNA sequencers are not able to get the sequence of the whole molecule at a glance, the sequencing process breaks the molecule and works with a lot of fragments. Those fragments need to be assembled in a next step. In the new-generation sequencers, the sequen- cing process is much faster and cheaper, but they return much smaller fragments compared to the output from Sanger technology. Besides the bigger set of fragments, the interference of sequencing errors complicates the process, classified as NP-hard. To handle this problem, the current DNA fragment assemblers run a lot of pre and postprocesses in the amount of data, aiming to eliminate or at least reduce the common problems. In this work, we propose a new approach of maximum- weighted maximum matching (first proposed for data from Sanger sequencing) for k-mer graphs that returns simpler components to work with (called unipaths), fol- lowed by an heuristic to combine those new components. Therefore, we want to do the assembly process in fewer steps. This crossing works with elongation of paths by the combination of unipaths. With a score system, the assembler tries to get longer paths combining the shorter ones, while minimizing the use of repeated re- gions. Because this is the beginning of a new approach for short fragments, it was not our intention to achieve a complete DNA assembler at its first version, but only to validate the proposed concept. In this work, we give focus specifically on the xiiassembly of sequences from new-generation sequencers. During the experiments, we identified that the assembler was able to return satisfatory results for half of the samples, but it needs some adjustments to improve the other results. Those adjust- ments would solve specific problems that this tool does not address yet. We also found out that the coverage by reads is determinant factor to get good outputs from this assembler. There are some future works that are necessary, such as decreasing memory usage and running time, as well as comparing this tool with other current available solutions.
publishDate 2014
dc.date.available.fl_str_mv 2014-11-11
2015-03-26T13:10:41Z
dc.date.issued.fl_str_mv 2014-02-27
dc.date.accessioned.fl_str_mv 2015-03-26T13:10:41Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv COUTO, Adriano Donato. Proposal of a new approach for the de novo assembly process of DNA sequences from new generation sequencers. 2014. 99 f. Dissertação (Mestrado em Metodologias e técnicas da Computação; Sistemas de Computação) - Universidade Federal de Viçosa, Viçosa, 2014.
dc.identifier.uri.fl_str_mv http://locus.ufv.br/handle/123456789/2677
identifier_str_mv COUTO, Adriano Donato. Proposal of a new approach for the de novo assembly process of DNA sequences from new generation sequencers. 2014. 99 f. Dissertação (Mestrado em Metodologias e técnicas da Computação; Sistemas de Computação) - Universidade Federal de Viçosa, Viçosa, 2014.
url http://locus.ufv.br/handle/123456789/2677
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.publisher.program.fl_str_mv Mestrado em Ciência da Computação
dc.publisher.initials.fl_str_mv UFV
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Metodologias e técnicas da Computação; Sistemas de Computação
publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv https://locus.ufv.br//bitstream/123456789/2677/1/texto%20completo.pdf
https://locus.ufv.br//bitstream/123456789/2677/2/texto%20completo.pdf.txt
https://locus.ufv.br//bitstream/123456789/2677/3/texto%20completo.pdf.jpg
bitstream.checksum.fl_str_mv 9404dd35587d95c6d47eca0cd50485ce
1c5b56911dc05baefcd4af1df0aea30d
77f7e946f2e4447b63ca5d7da3aa9959
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1794528707504766976