Efeitos da atribuição de pesos a sequências sobre asfrequências de aminoácidos em alinhamentosmúltiplos de sequências: aplicação em análises deconservação e correlação entre resíduos
| Ano de defesa: | 2016 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de Minas Gerais
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://hdl.handle.net/1843/ICBB-BDR28D |
Resumo: | Analysing a multiple sequece alignment at the residue level, apart from the conserved positions, there are other patterns that are also indicative of functional importance and reflect functional divergence within a homologous protein family due to gene duplication. In families that have subfamilies with distinct functional specificities, some positions can be conserved only in a particular subfamily, or the conserved amino acid can be different for each of the subfamilies. This suggests that the role of this residue relates not to the global function of the family, but to functional specificities of that group. In these cases, it is reasonable that such specificities are not determined by the presence of a single residue, but by a group of residues, and this group will emerge from residuecorrelation analysis since a sufficient amount of proteins show the same specificities. However, some protein families have subfamilies less represented in terms of amount of sequences in the alignments. Meantime, this alignments use to come full of redundant sequences, many times mutants or variants of the same sequence, originary mainly from model organisms. This redundancy in the alignments tend to introduce bias to analysis with a statistical mean like the correlation methods. In this way, the present work has as objective to compare the effects of distinct approaches aiming the decreasing of redundancyin multiple sequence alignments: sequence weighting and filtering by maximum identity. Besides, this work also proposes approaches to make the correlation calculations compatible with sequence weighting, in order to improve analisys of residue conservation and correlation. Sequence weighting was capable of highlighting frequencies of aminoacids specific of less sampled subfamilies, while decreasing the frequencies of amino acids present in redundant sequences. The adapted calculations were capable of detecting such differences, providing a good alternative to conservation and correlation analisys inalignments that are less representative of the actual protein diversity existent in nature |
| id |
UFMG_dab87fdec6b79b0c0074a15d365d43eb |
|---|---|
| oai_identifier_str |
oai:repositorio.ufmg.br:1843/ICBB-BDR28D |
| network_acronym_str |
UFMG |
| network_name_str |
Repositório Institucional da UFMG |
| repository_id_str |
|
| spelling |
2019-08-11T06:03:05Z2025-09-09T00:09:31Z2019-08-11T06:03:05Z2016-06-30https://hdl.handle.net/1843/ICBB-BDR28DAnalysing a multiple sequece alignment at the residue level, apart from the conserved positions, there are other patterns that are also indicative of functional importance and reflect functional divergence within a homologous protein family due to gene duplication. In families that have subfamilies with distinct functional specificities, some positions can be conserved only in a particular subfamily, or the conserved amino acid can be different for each of the subfamilies. This suggests that the role of this residue relates not to the global function of the family, but to functional specificities of that group. In these cases, it is reasonable that such specificities are not determined by the presence of a single residue, but by a group of residues, and this group will emerge from residuecorrelation analysis since a sufficient amount of proteins show the same specificities. However, some protein families have subfamilies less represented in terms of amount of sequences in the alignments. Meantime, this alignments use to come full of redundant sequences, many times mutants or variants of the same sequence, originary mainly from model organisms. This redundancy in the alignments tend to introduce bias to analysis with a statistical mean like the correlation methods. In this way, the present work has as objective to compare the effects of distinct approaches aiming the decreasing of redundancyin multiple sequence alignments: sequence weighting and filtering by maximum identity. Besides, this work also proposes approaches to make the correlation calculations compatible with sequence weighting, in order to improve analisys of residue conservation and correlation. Sequence weighting was capable of highlighting frequencies of aminoacids specific of less sampled subfamilies, while decreasing the frequencies of amino acids present in redundant sequences. The adapted calculations were capable of detecting such differences, providing a good alternative to conservation and correlation analisys inalignments that are less representative of the actual protein diversity existent in natureUniversidade Federal de Minas GeraisBIOINFORMÁTICA/MBiologia Computacionallinhamento de SequênciaEfeitos da atribuição de pesos a sequências sobre asfrequências de aminoácidos em alinhamentosmúltiplos de sequências: aplicação em análises deconservação e correlação entre resíduosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisLucas Carrijo de Oliveirainfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGLucas BleicherAnalisando um alinhamento multiplo de sequencias ao nivel de residuos, alem das posicoes conservadas existem outros padroes indicativos de importancia funcional que refletem divergencia funcional dentro de uma familia em decorrencia de duplicacoes genicas. Em familias de proteinas homologas que apresentam subfamilias comespecificidades funcionais distintas, algumas posicoes podem apresentar-se conservadas apenas em uma subfamilia particular, ou o aminoacido conservado pode ser diferente para cada subfamilia. Isso sugere que seu papel funcional desse residuo relaciona-se nao comcom a funcao global da familia, mas sim com especificidades funcionais daquele grupo. Nesses casos, e razoavel que tais especificidades nao sejam determinadas pela presenca de um unico residuo, mas sim por um grupo de residuos, e esse grupo ira emergir de analises de correlacao entre residuos desde que um numero suficiente de proteinas apresentem as mesmas especificidades. Entretanto, algumas familias de proteinas apresentam subfamilias pouco representadas em numero de sequencias nos alinhamentos. Ao mesmo tempo, estes costumam vir repletos de sequencias redundantes, muitas vezes mutantes ou variantes da mesma sequencia, oriundas principalmente de organismos modelo. Essa redundancia nos alinhamentos acaba por enviesar analises com carater estatistico, como sao os metodos decorrelacao. Nesse sentido, o presente trabalho tem por objetivo comparar os efeitos de abordagens distintas que visam a diminuicao da redundancia em alinhamentos multiplos de sequencias: a atribuicao de pesos a sequencias e os filtros por identidade maxima. Alemdisso, o presente trabalho tambem propoe abordagens para tornar os calculos de correlacao compativeis com o a atribuicao de pesos de sequencias, a fim de aperfeicoar analises de conservacao e correlacao entre residuos. A atribuicao de pesos a sequencias foi capaz dedestacar as frequencias de aminoacidos especificos de subfamilias pouco amostradas, ao mesmo tempo em que diminuia as frequencias de aminoacidos presentes em sequencias redundantes. Os calculos de correlacao adaptados ao uso de pesos foram capazes de detectar essas diferencas, oferecendo uma boa alternativa para analises de correlacao em alinhamentos pouco representativos da diversidade de proteinas de fato existente na naturezaUFMGORIGINALdissertacao_lucas_carrijo.pdfapplication/pdf2465772https://repositorio.ufmg.br//bitstreams/c8d785f9-cfef-4a1c-846d-674b57fffa89/download52eba8c58c14d8a69f5819cd0d92f3c4MD51trueAnonymousREADTEXTdissertacao_lucas_carrijo.pdf.txttext/plain133324https://repositorio.ufmg.br//bitstreams/4c03a746-744b-4ad8-ad45-3226f87285e1/downloadf9af213caa68f3109b3c8a7751eabbe9MD52falseAnonymousREAD1843/ICBB-BDR28D2025-09-08 21:09:31.676open.accessoai:repositorio.ufmg.br:1843/ICBB-BDR28Dhttps://repositorio.ufmg.br/Repositório InstitucionalPUBhttps://repositorio.ufmg.br/oairepositorio@ufmg.bropendoar:2025-09-09T00:09:31Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
| dc.title.none.fl_str_mv |
Efeitos da atribuição de pesos a sequências sobre asfrequências de aminoácidos em alinhamentosmúltiplos de sequências: aplicação em análises deconservação e correlação entre resíduos |
| title |
Efeitos da atribuição de pesos a sequências sobre asfrequências de aminoácidos em alinhamentosmúltiplos de sequências: aplicação em análises deconservação e correlação entre resíduos |
| spellingShingle |
Efeitos da atribuição de pesos a sequências sobre asfrequências de aminoácidos em alinhamentosmúltiplos de sequências: aplicação em análises deconservação e correlação entre resíduos Lucas Carrijo de Oliveira Biologia Computacional linhamento de Sequência BIOINFORMÁTICA/M |
| title_short |
Efeitos da atribuição de pesos a sequências sobre asfrequências de aminoácidos em alinhamentosmúltiplos de sequências: aplicação em análises deconservação e correlação entre resíduos |
| title_full |
Efeitos da atribuição de pesos a sequências sobre asfrequências de aminoácidos em alinhamentosmúltiplos de sequências: aplicação em análises deconservação e correlação entre resíduos |
| title_fullStr |
Efeitos da atribuição de pesos a sequências sobre asfrequências de aminoácidos em alinhamentosmúltiplos de sequências: aplicação em análises deconservação e correlação entre resíduos |
| title_full_unstemmed |
Efeitos da atribuição de pesos a sequências sobre asfrequências de aminoácidos em alinhamentosmúltiplos de sequências: aplicação em análises deconservação e correlação entre resíduos |
| title_sort |
Efeitos da atribuição de pesos a sequências sobre asfrequências de aminoácidos em alinhamentosmúltiplos de sequências: aplicação em análises deconservação e correlação entre resíduos |
| author |
Lucas Carrijo de Oliveira |
| author_facet |
Lucas Carrijo de Oliveira |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Lucas Carrijo de Oliveira |
| dc.subject.por.fl_str_mv |
Biologia Computacional linhamento de Sequência |
| topic |
Biologia Computacional linhamento de Sequência BIOINFORMÁTICA/M |
| dc.subject.other.none.fl_str_mv |
BIOINFORMÁTICA/M |
| description |
Analysing a multiple sequece alignment at the residue level, apart from the conserved positions, there are other patterns that are also indicative of functional importance and reflect functional divergence within a homologous protein family due to gene duplication. In families that have subfamilies with distinct functional specificities, some positions can be conserved only in a particular subfamily, or the conserved amino acid can be different for each of the subfamilies. This suggests that the role of this residue relates not to the global function of the family, but to functional specificities of that group. In these cases, it is reasonable that such specificities are not determined by the presence of a single residue, but by a group of residues, and this group will emerge from residuecorrelation analysis since a sufficient amount of proteins show the same specificities. However, some protein families have subfamilies less represented in terms of amount of sequences in the alignments. Meantime, this alignments use to come full of redundant sequences, many times mutants or variants of the same sequence, originary mainly from model organisms. This redundancy in the alignments tend to introduce bias to analysis with a statistical mean like the correlation methods. In this way, the present work has as objective to compare the effects of distinct approaches aiming the decreasing of redundancyin multiple sequence alignments: sequence weighting and filtering by maximum identity. Besides, this work also proposes approaches to make the correlation calculations compatible with sequence weighting, in order to improve analisys of residue conservation and correlation. Sequence weighting was capable of highlighting frequencies of aminoacids specific of less sampled subfamilies, while decreasing the frequencies of amino acids present in redundant sequences. The adapted calculations were capable of detecting such differences, providing a good alternative to conservation and correlation analisys inalignments that are less representative of the actual protein diversity existent in nature |
| publishDate |
2016 |
| dc.date.issued.fl_str_mv |
2016-06-30 |
| dc.date.accessioned.fl_str_mv |
2019-08-11T06:03:05Z 2025-09-09T00:09:31Z |
| dc.date.available.fl_str_mv |
2019-08-11T06:03:05Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1843/ICBB-BDR28D |
| url |
https://hdl.handle.net/1843/ICBB-BDR28D |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
| publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
| instname_str |
Universidade Federal de Minas Gerais (UFMG) |
| instacron_str |
UFMG |
| institution |
UFMG |
| reponame_str |
Repositório Institucional da UFMG |
| collection |
Repositório Institucional da UFMG |
| bitstream.url.fl_str_mv |
https://repositorio.ufmg.br//bitstreams/c8d785f9-cfef-4a1c-846d-674b57fffa89/download https://repositorio.ufmg.br//bitstreams/4c03a746-744b-4ad8-ad45-3226f87285e1/download |
| bitstream.checksum.fl_str_mv |
52eba8c58c14d8a69f5819cd0d92f3c4 f9af213caa68f3109b3c8a7751eabbe9 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
| repository.mail.fl_str_mv |
repositorio@ufmg.br |
| _version_ |
1862106023705182208 |