Alinhamento primário e secundário de sequências biológicas em arquiteturas de alto desempenho

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Lima, Daniel Sundfeld
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
RNA
Link de acesso: http://repositorio.unb.br/handle/10482/31605
Resumo: Tese (doutorado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2017.
id UNB_fafc89508cb25dbca77a40496b2199ab
oai_identifier_str oai:repositorio.unb.br:10482/31605
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling Alinhamento primário e secundário de sequências biológicas em arquiteturas de alto desempenhoAlinhamento de sequênciasAlgoritmosRNABiologia molecularTese (doutorado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2017.O alinhamento múltiplo primário de sequências biológicas é um problema muito importante em Biologia Molecular, pois permite que sejam detectadas similaridades e diferenças entre um conjunto de sequências. Esse problema foi provado NP-Completo e, por essa razão, geralmente algoritmos heurísticos são usados para resolvê-lo. No entanto, a obtenção da solução ótima é bastante desejada e, por essa razão, existem alguns algoritmos exatos que solucionam esse problema para um número reduzido de sequências. As sequências de RNA, diferente do DNA, não possuem dupla-hélice e podem dobrar-se, pois seus nucleotídeos podem formar pares de bases. É conhecido na Biologia Molecular que a função dessa estrutura está ligada à sua conformação espacial, e não à composição de seus nucleotídeos. Obter a estrutura secundária (2D) de uma sequência de RNA também exige uma grande quantidade de recursos computacionais, até mesmo para um pequeno número de sequências. Desta forma, as arquiteturas de alto desempenho são muito importantes para a obtenção dos resultados em um tempo factível. A presente tese visa investigar os problemas do alinhamento múltiplo primário e do alinhamento em pares secundário, utilizando arquiteturas de alto desempenho para acelerar a obtenção de resultados. Para o alinhamento primário ótimo de múltiplas sequências, propusemos na presente Tese o PA-Star, uma estratégia multithreaded baseada no algoritmo A-Star que usa uma política sensível à localidade de atribuição de trabalho às threads. De modo a lidar com o alto uso de memória, nossa estratégia PA-Star usa tanto memória RAM como disco. Para o alinhamento estrutural (2D) de sequências de RNA, propusemos o Foldalign 2.5, que é uma estratégia multithreaded heurística baseada no algoritmo exato de Sankoff, capaz de obter o alinhamento estrutural de grandes sequências em tempo reduzido. Finalmente, propusemos o CUDA-Sankoff, que é capaz de obter o alinhamento estrutural ótimo entre duas sequências de RNA em GPU (Graphics Processing Unit).Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).The primary multiple sequence Alignment is a very important problem in Molecular Biology since it is able to detect similarities and differences in a set of sequences. This problem has been proven NP-Hard and, for this reason, heuristic algorithms are usually used to solve it. Nevertheless, obtaining the optimal solution is highly desirable and there are indeed some exact algorithms that solve this problem for a reduced number of sequences. The RNA sequences are different than the DNA, they do not have double helix, their nucleotides can form base pairs and the sequence can fold on itself. It is known in the Molecular Biology that, the function of the RNA is related to its spatial structure. Calculating the secondary structure of RNA sequences also demand a high amount of computational resources, even for a small number of sequences. The High Performance Computing (HPC) Platforms can be used in order to produce results faster. The current thesis aims to investigate the primary multiple sequence alignment and the secondary pairwise sequence alignment, using High Performance Architectures to accelerate and obtaining results in reasonable time. For the primary multiple sequence alignment, we propose the PA-Star, a multithreaded solution based on the A-Star algorithm using a locality sensitive hash to distribute the workload among the threads. Due to the high RAM memory usage required by the algorithm, our strategy can also uses disk. For the RNA structural alignment, we proposed the Foldalign 2.5, a multithreaded solution that uses heuristics to reduce the Sankoff Algorithm complexity, and can obtain the pairwise structural alignment of large sequences in reduced time. Finally, we proposed CUDASankoff, that obtains the optimal pairwise structural alignment for RNA sequences using a GPU (Graphics Processing Unit).Melo, Alba Cristina Magalhães Alves deLima, Daniel Sundfeld2018-04-10T19:40:51Z2018-04-10T19:40:51Z2018-04-102017-12-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfLIMA, Daniel Sundfeld. Alinhamento primário e secundário de sequências biológicas em arquiteturas de alto desempenho. 2017. xx, 167 f., il. Tese (Doutorado em Informática)—Universidade de Brasília, Brasília, 2017.http://repositorio.unb.br/handle/10482/31605A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2023-07-10T13:00:50Zoai:repositorio.unb.br:10482/31605Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2023-07-10T13:00:50Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv Alinhamento primário e secundário de sequências biológicas em arquiteturas de alto desempenho
title Alinhamento primário e secundário de sequências biológicas em arquiteturas de alto desempenho
spellingShingle Alinhamento primário e secundário de sequências biológicas em arquiteturas de alto desempenho
Lima, Daniel Sundfeld
Alinhamento de sequências
Algoritmos
RNA
Biologia molecular
title_short Alinhamento primário e secundário de sequências biológicas em arquiteturas de alto desempenho
title_full Alinhamento primário e secundário de sequências biológicas em arquiteturas de alto desempenho
title_fullStr Alinhamento primário e secundário de sequências biológicas em arquiteturas de alto desempenho
title_full_unstemmed Alinhamento primário e secundário de sequências biológicas em arquiteturas de alto desempenho
title_sort Alinhamento primário e secundário de sequências biológicas em arquiteturas de alto desempenho
author Lima, Daniel Sundfeld
author_facet Lima, Daniel Sundfeld
author_role author
dc.contributor.none.fl_str_mv Melo, Alba Cristina Magalhães Alves de
dc.contributor.author.fl_str_mv Lima, Daniel Sundfeld
dc.subject.por.fl_str_mv Alinhamento de sequências
Algoritmos
RNA
Biologia molecular
topic Alinhamento de sequências
Algoritmos
RNA
Biologia molecular
description Tese (doutorado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2017.
publishDate 2017
dc.date.none.fl_str_mv 2017-12-19
2018-04-10T19:40:51Z
2018-04-10T19:40:51Z
2018-04-10
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv LIMA, Daniel Sundfeld. Alinhamento primário e secundário de sequências biológicas em arquiteturas de alto desempenho. 2017. xx, 167 f., il. Tese (Doutorado em Informática)—Universidade de Brasília, Brasília, 2017.
http://repositorio.unb.br/handle/10482/31605
identifier_str_mv LIMA, Daniel Sundfeld. Alinhamento primário e secundário de sequências biológicas em arquiteturas de alto desempenho. 2017. xx, 167 f., il. Tese (Doutorado em Informática)—Universidade de Brasília, Brasília, 2017.
url http://repositorio.unb.br/handle/10482/31605
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv repositorio@unb.br
_version_ 1839083919919546368