MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| dARK ID: | ark:/87559/001300001chgx |
| Idioma: | por |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://app.uff.br/riuff/handle/1/39829 |
Resumo: | O Alinhamento Múltiplo de Sequências (do inglês, Multiple Sequence Alignment - MSA) é um passo fundamental para a resolução de uma variedade de problemas em Biologia Computacional. Dada a sua complexidade computacional, tipicamente uma das inúmeras estratégias baseadas em heurísticas, propostas e revisadas nas últimas duas ou mais décadas, é adotada para produzir uma solução, porém, sem garantia de ser ótima. Tradicionalmente, as heurísticas mais utilizadas se baseiam no Alinhamento Progressivo e são implementadas em ferramentas seguindo um conjunto de etapas pré-definido. Os cientistas geralmente escolhem a ferramenta com que possuem mais afinidade ou que acreditam ser a melhor. Isso pode significar, no entanto, que algumas heurísticas estão sendo ignoradas. Este trabalho fragmenta algumas das ferramentas existentes, consideradas padrão-ouro, e recombina (crossover) suas técnicas para criar, efetivamente, heurísticas aprimoradas. A viabilidade dessa ideia é endossada por uma análise estatística detalhada e pela comparação de novas estratégias, que incorporaram o uso da consistência a heurísticas que não a usam, especialmente para sequências com baixa porcentagem de identidade. Mais importante, as novas estratégias, geradas pela recombinação de técnicas existentes, produzem alinhamentos com melhor acurácia do que as ferramentas baseadas em consistência mais usadas para alinhamento múltiplo. Baseado nessas recombinações de técnicas, foi criado o MSA-XFlow, um gerador de múltiplos alinhamentos múltiplos que faz uso de um workflow científico para a geração eficiente dos alinhamentos, possibilitando aos cientistas a escolha entre diversos alinhamentos gerados. Por meio da reutilização de dados gerados em etapas anteriores, combinados com a paralelização intra e entre etapas, foi possível atingir um ganho de até 395,68 vezes, com 32 processadores, em relação ao que seria realizado tradicionalmente, demonstrando o grande desempenho da ferramenta. |
| id |
UFF-2_8724b4de405e942134aa22d144745c2b |
|---|---|
| oai_identifier_str |
oai:app.uff.br:1/39829 |
| network_acronym_str |
UFF-2 |
| network_name_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
| repository_id_str |
|
| spelling |
MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequênciasAlinhamento múltiplo de sequênciasAlinhamento baseado em consistênciaAlinhamento progressivoAlinhamento iterativoWorkflows científicosBiologia computacionalProgramação heurísticaAnálise de desempenhoMultiple sequence alignmentConsistency-based alignmentProgressive alignmentIterative alignmentScientific workflowsO Alinhamento Múltiplo de Sequências (do inglês, Multiple Sequence Alignment - MSA) é um passo fundamental para a resolução de uma variedade de problemas em Biologia Computacional. Dada a sua complexidade computacional, tipicamente uma das inúmeras estratégias baseadas em heurísticas, propostas e revisadas nas últimas duas ou mais décadas, é adotada para produzir uma solução, porém, sem garantia de ser ótima. Tradicionalmente, as heurísticas mais utilizadas se baseiam no Alinhamento Progressivo e são implementadas em ferramentas seguindo um conjunto de etapas pré-definido. Os cientistas geralmente escolhem a ferramenta com que possuem mais afinidade ou que acreditam ser a melhor. Isso pode significar, no entanto, que algumas heurísticas estão sendo ignoradas. Este trabalho fragmenta algumas das ferramentas existentes, consideradas padrão-ouro, e recombina (crossover) suas técnicas para criar, efetivamente, heurísticas aprimoradas. A viabilidade dessa ideia é endossada por uma análise estatística detalhada e pela comparação de novas estratégias, que incorporaram o uso da consistência a heurísticas que não a usam, especialmente para sequências com baixa porcentagem de identidade. Mais importante, as novas estratégias, geradas pela recombinação de técnicas existentes, produzem alinhamentos com melhor acurácia do que as ferramentas baseadas em consistência mais usadas para alinhamento múltiplo. Baseado nessas recombinações de técnicas, foi criado o MSA-XFlow, um gerador de múltiplos alinhamentos múltiplos que faz uso de um workflow científico para a geração eficiente dos alinhamentos, possibilitando aos cientistas a escolha entre diversos alinhamentos gerados. Por meio da reutilização de dados gerados em etapas anteriores, combinados com a paralelização intra e entre etapas, foi possível atingir um ganho de até 395,68 vezes, com 32 processadores, em relação ao que seria realizado tradicionalmente, demonstrando o grande desempenho da ferramenta.Multiple Sequence Alignment (MSA) is a fundamental step in solving a variety of problems in Computational Biology. Due to its computational complexity, one of the numerous heuristic-based strategies proposed and revised over the past two or more decades is often chosen to produce a solution, albeit without guaranteeing optimality. Traditionally, MSA tools are based on Progressive Alignment and implement these heuristics by applying different techniques in a predefined set of steps. Scientists generally choose the tool they are most familiar with or believe to be the best. However, this may mean that more appropriate heuristics are overlooked. This work breaks down existing gold standard tools to their core elements and proposes a tool to recombine various combinations of popular techniques to effectively create improved heuristics. The feasibility of this idea is supported by a detailed statistical analysis and the comparison of new strategies that incorporate the technique of Consistency into heuristics that do not use it. For example, results using the BAliBASE benchmark show that consistency has a significant impact on accuracy, especially for sequences with a low identity percentage. More importantly, new strategies generated by recombining existing techniques produce alignments with better accuracy than the most commonly used consistency-based tools for MSA. To dynamically evaluate these recombinations, the proposed MSA-XFlow tool efficiently generates multiple MSA solutions for a scientist to choose from. The tool's scientific workflow reuses intermediate data computed in previous steps and, combined with intra- and inter-step parallelization, is able to achieve a speedup of up to 395.68 with 32 processors, compared to traditional methods, demonstrating the tool’s high performance.167 f.Rebello, Eugene Francis VinodOliveira, Daniel Cardoso Moraes deKowada, Luis Antonio BrasilSena, Alexandre da CostaMelo, Alba Cristina Magalhães Alves deJoão Junior, Mario2025-08-15T15:18:57Z2025-08-15T15:18:57Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfJOÃO JUNIOR, Mario. MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências. 2025. 167 f. Tese (Doutorado em Computação) – Programa de Pós-Graduação em Computação, Instituto de Computação, Universidade Federal Fluminense, Niterói, 2025.https://app.uff.br/riuff/handle/1/39829ark:/87559/001300001chgxCC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2025-08-15T15:18:57Zoai:app.uff.br:1/39829Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202025-08-15T15:18:57Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false |
| dc.title.none.fl_str_mv |
MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências |
| title |
MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências |
| spellingShingle |
MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências João Junior, Mario Alinhamento múltiplo de sequências Alinhamento baseado em consistência Alinhamento progressivo Alinhamento iterativo Workflows científicos Biologia computacional Programação heurística Análise de desempenho Multiple sequence alignment Consistency-based alignment Progressive alignment Iterative alignment Scientific workflows |
| title_short |
MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências |
| title_full |
MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências |
| title_fullStr |
MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências |
| title_full_unstemmed |
MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências |
| title_sort |
MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências |
| author |
João Junior, Mario |
| author_facet |
João Junior, Mario |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Rebello, Eugene Francis Vinod Oliveira, Daniel Cardoso Moraes de Kowada, Luis Antonio Brasil Sena, Alexandre da Costa Melo, Alba Cristina Magalhães Alves de |
| dc.contributor.author.fl_str_mv |
João Junior, Mario |
| dc.subject.por.fl_str_mv |
Alinhamento múltiplo de sequências Alinhamento baseado em consistência Alinhamento progressivo Alinhamento iterativo Workflows científicos Biologia computacional Programação heurística Análise de desempenho Multiple sequence alignment Consistency-based alignment Progressive alignment Iterative alignment Scientific workflows |
| topic |
Alinhamento múltiplo de sequências Alinhamento baseado em consistência Alinhamento progressivo Alinhamento iterativo Workflows científicos Biologia computacional Programação heurística Análise de desempenho Multiple sequence alignment Consistency-based alignment Progressive alignment Iterative alignment Scientific workflows |
| description |
O Alinhamento Múltiplo de Sequências (do inglês, Multiple Sequence Alignment - MSA) é um passo fundamental para a resolução de uma variedade de problemas em Biologia Computacional. Dada a sua complexidade computacional, tipicamente uma das inúmeras estratégias baseadas em heurísticas, propostas e revisadas nas últimas duas ou mais décadas, é adotada para produzir uma solução, porém, sem garantia de ser ótima. Tradicionalmente, as heurísticas mais utilizadas se baseiam no Alinhamento Progressivo e são implementadas em ferramentas seguindo um conjunto de etapas pré-definido. Os cientistas geralmente escolhem a ferramenta com que possuem mais afinidade ou que acreditam ser a melhor. Isso pode significar, no entanto, que algumas heurísticas estão sendo ignoradas. Este trabalho fragmenta algumas das ferramentas existentes, consideradas padrão-ouro, e recombina (crossover) suas técnicas para criar, efetivamente, heurísticas aprimoradas. A viabilidade dessa ideia é endossada por uma análise estatística detalhada e pela comparação de novas estratégias, que incorporaram o uso da consistência a heurísticas que não a usam, especialmente para sequências com baixa porcentagem de identidade. Mais importante, as novas estratégias, geradas pela recombinação de técnicas existentes, produzem alinhamentos com melhor acurácia do que as ferramentas baseadas em consistência mais usadas para alinhamento múltiplo. Baseado nessas recombinações de técnicas, foi criado o MSA-XFlow, um gerador de múltiplos alinhamentos múltiplos que faz uso de um workflow científico para a geração eficiente dos alinhamentos, possibilitando aos cientistas a escolha entre diversos alinhamentos gerados. Por meio da reutilização de dados gerados em etapas anteriores, combinados com a paralelização intra e entre etapas, foi possível atingir um ganho de até 395,68 vezes, com 32 processadores, em relação ao que seria realizado tradicionalmente, demonstrando o grande desempenho da ferramenta. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-08-15T15:18:57Z 2025-08-15T15:18:57Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
JOÃO JUNIOR, Mario. MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências. 2025. 167 f. Tese (Doutorado em Computação) – Programa de Pós-Graduação em Computação, Instituto de Computação, Universidade Federal Fluminense, Niterói, 2025. https://app.uff.br/riuff/handle/1/39829 |
| dc.identifier.dark.fl_str_mv |
ark:/87559/001300001chgx |
| identifier_str_mv |
JOÃO JUNIOR, Mario. MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências. 2025. 167 f. Tese (Doutorado em Computação) – Programa de Pós-Graduação em Computação, Instituto de Computação, Universidade Federal Fluminense, Niterói, 2025. ark:/87559/001300001chgx |
| url |
https://app.uff.br/riuff/handle/1/39829 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
CC-BY-SA info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
CC-BY-SA |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF |
| instname_str |
Universidade Federal Fluminense (UFF) |
| instacron_str |
UFF |
| institution |
UFF |
| reponame_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
| collection |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
| repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF) |
| repository.mail.fl_str_mv |
riuff@id.uff.br |
| _version_ |
1848091247734947840 |