MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: João Junior, Mario
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
dARK ID: ark:/87559/001300001chgx
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://app.uff.br/riuff/handle/1/39829
Resumo: O Alinhamento Múltiplo de Sequências (do inglês, Multiple Sequence Alignment - MSA) é um passo fundamental para a resolução de uma variedade de problemas em Biologia Computacional. Dada a sua complexidade computacional, tipicamente uma das inúmeras estratégias baseadas em heurísticas, propostas e revisadas nas últimas duas ou mais décadas, é adotada para produzir uma solução, porém, sem garantia de ser ótima. Tradicionalmente, as heurísticas mais utilizadas se baseiam no Alinhamento Progressivo e são implementadas em ferramentas seguindo um conjunto de etapas pré-definido. Os cientistas geralmente escolhem a ferramenta com que possuem mais afinidade ou que acreditam ser a melhor. Isso pode significar, no entanto, que algumas heurísticas estão sendo ignoradas. Este trabalho fragmenta algumas das ferramentas existentes, consideradas padrão-ouro, e recombina (crossover) suas técnicas para criar, efetivamente, heurísticas aprimoradas. A viabilidade dessa ideia é endossada por uma análise estatística detalhada e pela comparação de novas estratégias, que incorporaram o uso da consistência a heurísticas que não a usam, especialmente para sequências com baixa porcentagem de identidade. Mais importante, as novas estratégias, geradas pela recombinação de técnicas existentes, produzem alinhamentos com melhor acurácia do que as ferramentas baseadas em consistência mais usadas para alinhamento múltiplo. Baseado nessas recombinações de técnicas, foi criado o MSA-XFlow, um gerador de múltiplos alinhamentos múltiplos que faz uso de um workflow científico para a geração eficiente dos alinhamentos, possibilitando aos cientistas a escolha entre diversos alinhamentos gerados. Por meio da reutilização de dados gerados em etapas anteriores, combinados com a paralelização intra e entre etapas, foi possível atingir um ganho de até 395,68 vezes, com 32 processadores, em relação ao que seria realizado tradicionalmente, demonstrando o grande desempenho da ferramenta.
id UFF-2_8724b4de405e942134aa22d144745c2b
oai_identifier_str oai:app.uff.br:1/39829
network_acronym_str UFF-2
network_name_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str
spelling MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequênciasAlinhamento múltiplo de sequênciasAlinhamento baseado em consistênciaAlinhamento progressivoAlinhamento iterativoWorkflows científicosBiologia computacionalProgramação heurísticaAnálise de desempenhoMultiple sequence alignmentConsistency-based alignmentProgressive alignmentIterative alignmentScientific workflowsO Alinhamento Múltiplo de Sequências (do inglês, Multiple Sequence Alignment - MSA) é um passo fundamental para a resolução de uma variedade de problemas em Biologia Computacional. Dada a sua complexidade computacional, tipicamente uma das inúmeras estratégias baseadas em heurísticas, propostas e revisadas nas últimas duas ou mais décadas, é adotada para produzir uma solução, porém, sem garantia de ser ótima. Tradicionalmente, as heurísticas mais utilizadas se baseiam no Alinhamento Progressivo e são implementadas em ferramentas seguindo um conjunto de etapas pré-definido. Os cientistas geralmente escolhem a ferramenta com que possuem mais afinidade ou que acreditam ser a melhor. Isso pode significar, no entanto, que algumas heurísticas estão sendo ignoradas. Este trabalho fragmenta algumas das ferramentas existentes, consideradas padrão-ouro, e recombina (crossover) suas técnicas para criar, efetivamente, heurísticas aprimoradas. A viabilidade dessa ideia é endossada por uma análise estatística detalhada e pela comparação de novas estratégias, que incorporaram o uso da consistência a heurísticas que não a usam, especialmente para sequências com baixa porcentagem de identidade. Mais importante, as novas estratégias, geradas pela recombinação de técnicas existentes, produzem alinhamentos com melhor acurácia do que as ferramentas baseadas em consistência mais usadas para alinhamento múltiplo. Baseado nessas recombinações de técnicas, foi criado o MSA-XFlow, um gerador de múltiplos alinhamentos múltiplos que faz uso de um workflow científico para a geração eficiente dos alinhamentos, possibilitando aos cientistas a escolha entre diversos alinhamentos gerados. Por meio da reutilização de dados gerados em etapas anteriores, combinados com a paralelização intra e entre etapas, foi possível atingir um ganho de até 395,68 vezes, com 32 processadores, em relação ao que seria realizado tradicionalmente, demonstrando o grande desempenho da ferramenta.Multiple Sequence Alignment (MSA) is a fundamental step in solving a variety of problems in Computational Biology. Due to its computational complexity, one of the numerous heuristic-based strategies proposed and revised over the past two or more decades is often chosen to produce a solution, albeit without guaranteeing optimality. Traditionally, MSA tools are based on Progressive Alignment and implement these heuristics by applying different techniques in a predefined set of steps. Scientists generally choose the tool they are most familiar with or believe to be the best. However, this may mean that more appropriate heuristics are overlooked. This work breaks down existing gold standard tools to their core elements and proposes a tool to recombine various combinations of popular techniques to effectively create improved heuristics. The feasibility of this idea is supported by a detailed statistical analysis and the comparison of new strategies that incorporate the technique of Consistency into heuristics that do not use it. For example, results using the BAliBASE benchmark show that consistency has a significant impact on accuracy, especially for sequences with a low identity percentage. More importantly, new strategies generated by recombining existing techniques produce alignments with better accuracy than the most commonly used consistency-based tools for MSA. To dynamically evaluate these recombinations, the proposed MSA-XFlow tool efficiently generates multiple MSA solutions for a scientist to choose from. The tool's scientific workflow reuses intermediate data computed in previous steps and, combined with intra- and inter-step parallelization, is able to achieve a speedup of up to 395.68 with 32 processors, compared to traditional methods, demonstrating the tool’s high performance.167 f.Rebello, Eugene Francis VinodOliveira, Daniel Cardoso Moraes deKowada, Luis Antonio BrasilSena, Alexandre da CostaMelo, Alba Cristina Magalhães Alves deJoão Junior, Mario2025-08-15T15:18:57Z2025-08-15T15:18:57Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfJOÃO JUNIOR, Mario. MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências. 2025. 167 f. Tese (Doutorado em Computação) – Programa de Pós-Graduação em Computação, Instituto de Computação, Universidade Federal Fluminense, Niterói, 2025.https://app.uff.br/riuff/handle/1/39829ark:/87559/001300001chgxCC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2025-08-15T15:18:57Zoai:app.uff.br:1/39829Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202025-08-15T15:18:57Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências
title MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências
spellingShingle MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências
João Junior, Mario
Alinhamento múltiplo de sequências
Alinhamento baseado em consistência
Alinhamento progressivo
Alinhamento iterativo
Workflows científicos
Biologia computacional
Programação heurística
Análise de desempenho
Multiple sequence alignment
Consistency-based alignment
Progressive alignment
Iterative alignment
Scientific workflows
title_short MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências
title_full MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências
title_fullStr MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências
title_full_unstemmed MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências
title_sort MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências
author João Junior, Mario
author_facet João Junior, Mario
author_role author
dc.contributor.none.fl_str_mv Rebello, Eugene Francis Vinod
Oliveira, Daniel Cardoso Moraes de
Kowada, Luis Antonio Brasil
Sena, Alexandre da Costa
Melo, Alba Cristina Magalhães Alves de
dc.contributor.author.fl_str_mv João Junior, Mario
dc.subject.por.fl_str_mv Alinhamento múltiplo de sequências
Alinhamento baseado em consistência
Alinhamento progressivo
Alinhamento iterativo
Workflows científicos
Biologia computacional
Programação heurística
Análise de desempenho
Multiple sequence alignment
Consistency-based alignment
Progressive alignment
Iterative alignment
Scientific workflows
topic Alinhamento múltiplo de sequências
Alinhamento baseado em consistência
Alinhamento progressivo
Alinhamento iterativo
Workflows científicos
Biologia computacional
Programação heurística
Análise de desempenho
Multiple sequence alignment
Consistency-based alignment
Progressive alignment
Iterative alignment
Scientific workflows
description O Alinhamento Múltiplo de Sequências (do inglês, Multiple Sequence Alignment - MSA) é um passo fundamental para a resolução de uma variedade de problemas em Biologia Computacional. Dada a sua complexidade computacional, tipicamente uma das inúmeras estratégias baseadas em heurísticas, propostas e revisadas nas últimas duas ou mais décadas, é adotada para produzir uma solução, porém, sem garantia de ser ótima. Tradicionalmente, as heurísticas mais utilizadas se baseiam no Alinhamento Progressivo e são implementadas em ferramentas seguindo um conjunto de etapas pré-definido. Os cientistas geralmente escolhem a ferramenta com que possuem mais afinidade ou que acreditam ser a melhor. Isso pode significar, no entanto, que algumas heurísticas estão sendo ignoradas. Este trabalho fragmenta algumas das ferramentas existentes, consideradas padrão-ouro, e recombina (crossover) suas técnicas para criar, efetivamente, heurísticas aprimoradas. A viabilidade dessa ideia é endossada por uma análise estatística detalhada e pela comparação de novas estratégias, que incorporaram o uso da consistência a heurísticas que não a usam, especialmente para sequências com baixa porcentagem de identidade. Mais importante, as novas estratégias, geradas pela recombinação de técnicas existentes, produzem alinhamentos com melhor acurácia do que as ferramentas baseadas em consistência mais usadas para alinhamento múltiplo. Baseado nessas recombinações de técnicas, foi criado o MSA-XFlow, um gerador de múltiplos alinhamentos múltiplos que faz uso de um workflow científico para a geração eficiente dos alinhamentos, possibilitando aos cientistas a escolha entre diversos alinhamentos gerados. Por meio da reutilização de dados gerados em etapas anteriores, combinados com a paralelização intra e entre etapas, foi possível atingir um ganho de até 395,68 vezes, com 32 processadores, em relação ao que seria realizado tradicionalmente, demonstrando o grande desempenho da ferramenta.
publishDate 2025
dc.date.none.fl_str_mv 2025-08-15T15:18:57Z
2025-08-15T15:18:57Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv JOÃO JUNIOR, Mario. MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências. 2025. 167 f. Tese (Doutorado em Computação) – Programa de Pós-Graduação em Computação, Instituto de Computação, Universidade Federal Fluminense, Niterói, 2025.
https://app.uff.br/riuff/handle/1/39829
dc.identifier.dark.fl_str_mv ark:/87559/001300001chgx
identifier_str_mv JOÃO JUNIOR, Mario. MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências. 2025. 167 f. Tese (Doutorado em Computação) – Programa de Pós-Graduação em Computação, Instituto de Computação, Universidade Federal Fluminense, Niterói, 2025.
ark:/87559/001300001chgx
url https://app.uff.br/riuff/handle/1/39829
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC-BY-SA
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)
instname:Universidade Federal Fluminense (UFF)
instacron:UFF
instname_str Universidade Federal Fluminense (UFF)
instacron_str UFF
institution UFF
reponame_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv riuff@id.uff.br
_version_ 1848091247734947840