O Problema do Mapeamento de Sequências em Grafos de De Bruijn

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: LUCAS BARBOSA ROCHA
Orientador(a): Said Sadique Adi
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Fundação Universidade Federal de Mato Grosso do Sul
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Link de acesso: https://repositorio.ufms.br/handle/123456789/9222
Resumo: A relevant problem in Computational Biology consists of the task of mapping one sequence onto another for comparison purposes. Typically, this process utilizes a high-quality reference sequence constructed from a specific set of sequences. However, the limitation of this approach is evident, as the reference sequence tends to be biased, representing only a restricted set of sequences and being incapable of encompassing all possibilities. To mitigate this bias, a good strategy is to represent multiple sequences through more robust structures, such as sequence graphs or De Bruijn graphs, and map sequences onto these graphs. The sequence graph is a graph where each vertex is labeled with one or more characters. In the De Bruijn graph of order k each vertex is labeled with a distinct sequence of length k, and there is an edge from one vertex to another if and only if there exists a length k-1 overlap of the suffix of the first vertex with the prefix of the second vertex. Given as input a sequence s and a sequence (or De Bruijn) graph G, mapping s onto G consists of finding a path p in G such that the induced sequence s' by p is as similar as possible to s. This definition gives rise to the problems addressed in this thesis, namely the Sequence Mapping onto Sequence Graphs problem -- PMSG and the Sequence Mapping onto De Bruijn Graphs problem -- PMSB. Both problems admit three variants: 1) changes only in the sequence, 2) changes in the graph, and 3) changes in both the sequence and the graph. In this work, we present an in-depth analysis of PMSB. For variant 1, we implement and evaluate exact algorithms that solve it. Furthermore, we propose heuristics for PMSB and conduct comparative tests between the exact algorithms, our heuristics, and those found in the literature. Additionally, we perform a study demonstrating that it is possible to convert a De Bruijn graph into a simple sequence graph, such that all sequences from the De Bruijn graph are also induced in the simple sequence graph. As for variant 2, we address the problem by considering the ability to induce new edges when a k-mer is modified in the De Bruijn graph. This approach makes the problem easier, allowing us to present a novel exact polynomial solution for this variant.
id UFMS_53fb8967679f568fbe19ac8b9edefcf5
oai_identifier_str oai:repositorio.ufms.br:123456789/9222
network_acronym_str UFMS
network_name_str Repositório Institucional da UFMS
repository_id_str
spelling 2024-08-22T11:46:06Z2024-08-22T11:46:06Z2024https://repositorio.ufms.br/handle/123456789/9222A relevant problem in Computational Biology consists of the task of mapping one sequence onto another for comparison purposes. Typically, this process utilizes a high-quality reference sequence constructed from a specific set of sequences. However, the limitation of this approach is evident, as the reference sequence tends to be biased, representing only a restricted set of sequences and being incapable of encompassing all possibilities. To mitigate this bias, a good strategy is to represent multiple sequences through more robust structures, such as sequence graphs or De Bruijn graphs, and map sequences onto these graphs. The sequence graph is a graph where each vertex is labeled with one or more characters. In the De Bruijn graph of order k each vertex is labeled with a distinct sequence of length k, and there is an edge from one vertex to another if and only if there exists a length k-1 overlap of the suffix of the first vertex with the prefix of the second vertex. Given as input a sequence s and a sequence (or De Bruijn) graph G, mapping s onto G consists of finding a path p in G such that the induced sequence s' by p is as similar as possible to s. This definition gives rise to the problems addressed in this thesis, namely the Sequence Mapping onto Sequence Graphs problem -- PMSG and the Sequence Mapping onto De Bruijn Graphs problem -- PMSB. Both problems admit three variants: 1) changes only in the sequence, 2) changes in the graph, and 3) changes in both the sequence and the graph. In this work, we present an in-depth analysis of PMSB. For variant 1, we implement and evaluate exact algorithms that solve it. Furthermore, we propose heuristics for PMSB and conduct comparative tests between the exact algorithms, our heuristics, and those found in the literature. Additionally, we perform a study demonstrating that it is possible to convert a De Bruijn graph into a simple sequence graph, such that all sequences from the De Bruijn graph are also induced in the simple sequence graph. As for variant 2, we address the problem by considering the ability to induce new edges when a k-mer is modified in the De Bruijn graph. This approach makes the problem easier, allowing us to present a novel exact polynomial solution for this variant.Um problema relevante na Biologia Computacional consiste na tarefa de mapear uma sequência em outra, visando a comparação entre elas. Normalmente, esse processo utiliza uma sequência de referência de alta qualidade construída a partir de um conjunto específico de sequências. No entanto, a limitação dessa abordagem é evidente, pois a sequência de referência tende a ser enviesada, representando apenas um conjunto restrito de sequências e sendo incapaz de abranger todas as possibilidades. Para contornar esse viés, uma boa estratégia é representar múltiplas sequências por meio de estruturas mais robustas, como o grafo de sequências ou o grafo de De Bruijn, e mapear sequências nesses grafos. O grafo de sequência é um grafo na qual cada vértice é rotulado com um ou mais caracteres. No grafo de De Bruijn, de ordem k, cada vértice é rotulado com uma sequência distinta de comprimento k e há uma arco de um vértice para outro vértice se e somente se existe uma sobreposição de comprimento k-1 do sufixo do primeiro vértice com o prefixo do segundo vértice. Dadas como entrada uma sequência s e um grafo de sequência (ou De Bruijn) G, mapear s em G consiste em encontrar um percurso p em G tal que a sequência induzia s' por p seja a mais semelhante possível a s. Essa definição dá origem aos problemas abordados nesta tese, a saber o Problema do Mapeamento de Sequências em Grafos de Sequência -- PMSG e o Problema do Mapeamento de Sequências em Grafos de De Bruijn - PMSB. Ambos os problemas admitem três variantes: 1) mudanças apenas na sequência, 2) mudanças no grafo e 3) mudanças na sequência e no grafo. Apresentamos neste trabalho uma análise aprofundada do PMSB. Para a variante 1, temos a implementação e avaliação de algoritmos exatos que a resolvem. Propomos, ainda, heurísticas para o PMSB e conduzimos testes comparativos entre os algoritmos exatos, nossas heurísticas e aquelas encontradas na literatura. Além disso, realizamos um estudo demonstrando que é possível converter um grafo de De Bruijn em um grafo de sequência simples, de tal forma que todas as sequências do grafo de De Bruijn também são induzidas no grafo de sequência simples. No que diz respeito à variante 2, abordamos o problema considerando a capacidade de induzir novos arcos quando um k-mer é modificado no grafo de De Bruijn. Essa abordagem torna o problema mais fácil, permitindo-nos apresentar uma solução polinomial exata para essa variante.Fundação Universidade Federal de Mato Grosso do SulUFMSBrasilDistância de Hamming, Distância de edição, Mudanças na sequência, Mudanças no grafo, Grafo de De BruijnO Problema do Mapeamento de Sequências em Grafos de De Bruijninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisSaid Sadique AdiLUCAS BARBOSA ROCHAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMSinstname:Universidade Federal de Mato Grosso do Sul (UFMS)instacron:UFMSORIGINALTese_doutorado.pdfTese_doutorado.pdfapplication/pdf1204688https://repositorio.ufms.br/bitstream/123456789/9222/-1/Tese_doutorado.pdf149f546c7cd0b042dec1c15b3523eaf4MD5-1123456789/92222024-08-22 07:46:08.627oai:repositorio.ufms.br:123456789/9222Repositório InstitucionalPUBhttps://repositorio.ufms.br/oai/requestri.prograd@ufms.bropendoar:21242024-08-22T11:46:08Repositório Institucional da UFMS - Universidade Federal de Mato Grosso do Sul (UFMS)false
dc.title.pt_BR.fl_str_mv O Problema do Mapeamento de Sequências em Grafos de De Bruijn
title O Problema do Mapeamento de Sequências em Grafos de De Bruijn
spellingShingle O Problema do Mapeamento de Sequências em Grafos de De Bruijn
LUCAS BARBOSA ROCHA
Distância de Hamming, Distância de edição, Mudanças na sequência, Mudanças no grafo, Grafo de De Bruijn
title_short O Problema do Mapeamento de Sequências em Grafos de De Bruijn
title_full O Problema do Mapeamento de Sequências em Grafos de De Bruijn
title_fullStr O Problema do Mapeamento de Sequências em Grafos de De Bruijn
title_full_unstemmed O Problema do Mapeamento de Sequências em Grafos de De Bruijn
title_sort O Problema do Mapeamento de Sequências em Grafos de De Bruijn
author LUCAS BARBOSA ROCHA
author_facet LUCAS BARBOSA ROCHA
author_role author
dc.contributor.advisor1.fl_str_mv Said Sadique Adi
dc.contributor.author.fl_str_mv LUCAS BARBOSA ROCHA
contributor_str_mv Said Sadique Adi
dc.subject.por.fl_str_mv Distância de Hamming, Distância de edição, Mudanças na sequência, Mudanças no grafo, Grafo de De Bruijn
topic Distância de Hamming, Distância de edição, Mudanças na sequência, Mudanças no grafo, Grafo de De Bruijn
description A relevant problem in Computational Biology consists of the task of mapping one sequence onto another for comparison purposes. Typically, this process utilizes a high-quality reference sequence constructed from a specific set of sequences. However, the limitation of this approach is evident, as the reference sequence tends to be biased, representing only a restricted set of sequences and being incapable of encompassing all possibilities. To mitigate this bias, a good strategy is to represent multiple sequences through more robust structures, such as sequence graphs or De Bruijn graphs, and map sequences onto these graphs. The sequence graph is a graph where each vertex is labeled with one or more characters. In the De Bruijn graph of order k each vertex is labeled with a distinct sequence of length k, and there is an edge from one vertex to another if and only if there exists a length k-1 overlap of the suffix of the first vertex with the prefix of the second vertex. Given as input a sequence s and a sequence (or De Bruijn) graph G, mapping s onto G consists of finding a path p in G such that the induced sequence s' by p is as similar as possible to s. This definition gives rise to the problems addressed in this thesis, namely the Sequence Mapping onto Sequence Graphs problem -- PMSG and the Sequence Mapping onto De Bruijn Graphs problem -- PMSB. Both problems admit three variants: 1) changes only in the sequence, 2) changes in the graph, and 3) changes in both the sequence and the graph. In this work, we present an in-depth analysis of PMSB. For variant 1, we implement and evaluate exact algorithms that solve it. Furthermore, we propose heuristics for PMSB and conduct comparative tests between the exact algorithms, our heuristics, and those found in the literature. Additionally, we perform a study demonstrating that it is possible to convert a De Bruijn graph into a simple sequence graph, such that all sequences from the De Bruijn graph are also induced in the simple sequence graph. As for variant 2, we address the problem by considering the ability to induce new edges when a k-mer is modified in the De Bruijn graph. This approach makes the problem easier, allowing us to present a novel exact polynomial solution for this variant.
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-08-22T11:46:06Z
dc.date.available.fl_str_mv 2024-08-22T11:46:06Z
dc.date.issued.fl_str_mv 2024
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufms.br/handle/123456789/9222
url https://repositorio.ufms.br/handle/123456789/9222
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Fundação Universidade Federal de Mato Grosso do Sul
dc.publisher.initials.fl_str_mv UFMS
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Fundação Universidade Federal de Mato Grosso do Sul
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMS
instname:Universidade Federal de Mato Grosso do Sul (UFMS)
instacron:UFMS
instname_str Universidade Federal de Mato Grosso do Sul (UFMS)
instacron_str UFMS
institution UFMS
reponame_str Repositório Institucional da UFMS
collection Repositório Institucional da UFMS
bitstream.url.fl_str_mv https://repositorio.ufms.br/bitstream/123456789/9222/-1/Tese_doutorado.pdf
bitstream.checksum.fl_str_mv 149f546c7cd0b042dec1c15b3523eaf4
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFMS - Universidade Federal de Mato Grosso do Sul (UFMS)
repository.mail.fl_str_mv ri.prograd@ufms.br
_version_ 1845881996094472192