Alinhamento m??ltiplo de seq????ncias atrav??s de t??cnicas de agrupamento

The simultaneous alignment of many DNA or protein sequences is one of the commonest tasks in computational molecular biology. Multiple alignments are important in many applications, such as, predicting the structure of new sequences, demonstrating the relationship between new sequences and existing...

Nível de Acesso:openAccess
Publication Date:2006
Main Author: Peres, Patr??cia Silva lattes
Orientador/a: Moura, Edleno Silva de lattes
Format: Dissertação
Language:por
Published: Universidade Federal do Amazonas
Programa: Programa de P??s-gradua????o em Inform??tica
Department: Instituto de Computa????o
Assuntos em Português:
Assuntos em Inglês:
Áreas de Conhecimento:
Online Access:http://tede.ufam.edu.br/handle/tede/2927
Citação:PERES, Patr??cia Silva. Alinhamento m??ltiplo de seq????ncias atrav??s de t??cnicas de agrupamento. 2006. 61 f. Disserta????o (Mestrado em Inform??tica) - Universidade Federal do Amazonas, Manaus, 2006.
Resumo Português:O alinhamento simult??neo entre v??rias seq????ncias de DNA ou prote??na ?? um dos principais problemas em biologia molecular computacional. Alinhamentos m??ltiplos s??o importantes em muitas aplica????es, tais como, predi????o da estrutura de novas seq????ncias, demonstra????o do relacionamento entre novas seq????ncias e fam??lias de seq????ncias j?? existentes, infer??ncia da hist??ria evolutiva de uma fam??lia de seq????ncias, descobrimento de padr??es que sejam compartilhados entre seq????ncias, montagem de fragmentos de DNA, entre outras. Atualmente, a estrat??gia mais popular utilizada na resolu????o do problema do alinhamento m??ltiplo ?? o alinhamento progressivo. Cada etapa desta estrat??gia pode gerar uma taxa de erro que tender?? a ser baixa no caso de seq????ncias muito similares entre si, por??m tender?? a ser alta na medida em que as seq????ncias divergirem. Portanto, a determina????o da ordem de alinhamento das seq????ncias constitui-se em um passo fundamental na estrat??gia de alinhamento progressivo. Estrat??gias tradicionais levam em considera????o, a cada itera????o do alinhamento progressivo, apenas o par ou grupo de seq????ncias mais pr??ximo a ser alinhado. Tal estrat??gia minimiza a taxa de erro introduzida em cada etapa, por??m pode n??o ser a melhor forma para minimizar a taxa de erro final. Baseado nesta hip??tese, este trabalho tem por objetivo o estudo e aplica????o de uma t??cnica de agrupamento global para executar uma an??lise pr??via de todas as seq????ncias de forma a separ??las em grupos de acordo com suas similaridades. Estes grupos, ent??o, guiar??o o alinhamento progressivo tradicional, numa tentativa de minimizar a taxa de erro global introduzida pelas etapas do alinhamento progressivo e melhorar o resultado final. Para avaliar a contabilidade desta nova estrat??gia, tr??s m??todos conhecidos foram modificados com o objetivo de agregar a nova etapa de agrupamento de seq????ncias. A acur??cia das novas vers??es dos m??todos foi testada utilizando tr??s diferentes cole????es de refer??ncias. Al??m disso, os m??todos modificados foram comparadas com suas respectivas vers??es originais. Os resultados dos experimentos mostram que as novas vers??es dos m??todos com a etapa de agrupamento global realmente obtiveram alinhamentos melhores do que suas vers??es originais nas tr??s cole????es de refer??ncia e alcan??ando melhorias sobre os principais m??todos encontrados na literatura, com um aumento de apenas 3% em m??dia no tempo de execu????o.
Resumo inglês:The simultaneous alignment of many DNA or protein sequences is one of the commonest tasks in computational molecular biology. Multiple alignments are important in many applications, such as, predicting the structure of new sequences, demonstrating the relationship between new sequences and existing families of sequences, inferring the evolutionary history of a family of sequences,finding the characteristic motifs (core blocks) between biological sequences, assembling fragments in DNA sequencing, and many others. Currently, the most popular strategy used for solving the multiple sequence alignment problem is the progressive alignment. Each step of this strategy might generate an error which is expected to be low for closely related sequences but increases as sequences diverge. Therefore, determining the order in which the sequences will be aligned is a key step in the progressive alignment strategy. Traditional approaches take into account, in each iteration of the progressive alignment, only the closest pair or groups of sequences to be aligned. Such strategy minimizes the error introduced in each step, but may not be the best option to minimize the final error. Based on that hypothesis, this work aims the study and the application of a global clustering technique to perform a previous analysis of all sequences in order to separate them into groups according to their similarities. These groups, then, guide the traditional progressive alignment, as an attempt to minimize the overall error introduced by the steps of the progressive alignment and improve the final result. To assess the reliability of this new strategy, three well-known methods were modified for the purpose of introducing the new sequence clustering stage. The accuracy of new versions of the methods was tested using three diferent reference collections. Besides, the modified methods were compared with their original versions. Results of the conducted experiments depict that the new versions of the methods with the global clustering stage really obtained better alignments than their original versions in the three reference collections and achieving improvement over the main methods found in literature, with an increase of only 3% on average in the running time.