Desenvolvimento de estratégias para o uso de mapa de contatos em problemas de predição de novo de estruturas de proteínas
| Ano de defesa: | 2018 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://tede.lncc.br/handle/tede/355 |
Resumo: | A predição de estrutura de proteínas (PSP) é um dos desafios mais importantes da biologia molecular computacional e possui como objetivo determinar a estrutura tridimensional de proteínas a partir de suas sequências de aminoácidos. A cada dois anos, desde 1994, o estado da arte da predição de estrutura de proteínas é avaliado em um dos mais importantes eventos na área, o CASP (The Critical Assessment of Protein Structure Prediction). Em suas últimas edições (CASP 10, 11 e 12), o uso de mapas de contatos de proteínas em problemas de PSP mostrou ser uma estratégia promissora para obtenção de modelos de proteínas cada vez mais precisos. O objetivo científico desse trabalho está associado com a análise das informações extraídas de mapas de contatos de proteínas e o desenvolvimento de estratégias para PSP utilizando essas informações. Nesse contexto, foi desenvolvido e implementado na função de aptidão do algoritmo genético do programa GAPF (do inglês Genetic Algorithm for Protein Folding) um novo potencial que trata os contatos resíduo- resíduo presentes no mapa sob a forma de restrições de distância. Para avaliar o potencial desenvolvido foram usados (i) mapas de contatos nativos, isto é, extraídos diretamente da estrutura tridimensional determinada para a proteína alvo, e (ii) mapas de contatos preditos pelos programas de predição de contatos MetaPSICOV e RaptorX-Contact. O Potencial de Contatos foi inicialmente testado em um conjunto de seis proteínas e as análises dos resultados indicam que seu uso promove importantes melhorias na qualidade estrutural dos modelos preditos pelo programa GAPF. Por exemplo, o uso de tais restrições permitiu a redução de 7,32Å no valor de RMSD (com relação à estrutura determinada experimentalmente) e aumento de 35,28% no valor de GDT-TS (métricas comumente usadas para avaliação dos modelos gerados) para o melhor modelo predito para a proteína T0820-D1 em comparação ao melhor resultado obtido usando a função de aptidão padrão do GAPF. A expansão do conjunto teste e a comparação com métodos consolidados na literatura, como o Quark e o Rosetta, mostraram que o GAPF, usando as estratégias de contatos propostas nesse trabalho, é um bom candidato para predições de novo de estruturas de proteínas. Dessa forma, confirma-se que o uso de mapas de contatos, sob a forma de restrições de distância, é uma estratégia útil e eficiente para metodologias que utilizam abordagens de novo de PSP. |
| id |
LNCC_c1c2ec2e5155be2859ff9443bc4de184 |
|---|---|
| oai_identifier_str |
oai:tede-server.lncc.br:tede/355 |
| network_acronym_str |
LNCC |
| network_name_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
| repository_id_str |
|
| spelling |
Desenvolvimento de estratégias para o uso de mapa de contatos em problemas de predição de novo de estruturas de proteínasProteínasPredição de estruturas de proteínasAlgoritmo genéticoCNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERALA predição de estrutura de proteínas (PSP) é um dos desafios mais importantes da biologia molecular computacional e possui como objetivo determinar a estrutura tridimensional de proteínas a partir de suas sequências de aminoácidos. A cada dois anos, desde 1994, o estado da arte da predição de estrutura de proteínas é avaliado em um dos mais importantes eventos na área, o CASP (The Critical Assessment of Protein Structure Prediction). Em suas últimas edições (CASP 10, 11 e 12), o uso de mapas de contatos de proteínas em problemas de PSP mostrou ser uma estratégia promissora para obtenção de modelos de proteínas cada vez mais precisos. O objetivo científico desse trabalho está associado com a análise das informações extraídas de mapas de contatos de proteínas e o desenvolvimento de estratégias para PSP utilizando essas informações. Nesse contexto, foi desenvolvido e implementado na função de aptidão do algoritmo genético do programa GAPF (do inglês Genetic Algorithm for Protein Folding) um novo potencial que trata os contatos resíduo- resíduo presentes no mapa sob a forma de restrições de distância. Para avaliar o potencial desenvolvido foram usados (i) mapas de contatos nativos, isto é, extraídos diretamente da estrutura tridimensional determinada para a proteína alvo, e (ii) mapas de contatos preditos pelos programas de predição de contatos MetaPSICOV e RaptorX-Contact. O Potencial de Contatos foi inicialmente testado em um conjunto de seis proteínas e as análises dos resultados indicam que seu uso promove importantes melhorias na qualidade estrutural dos modelos preditos pelo programa GAPF. Por exemplo, o uso de tais restrições permitiu a redução de 7,32Å no valor de RMSD (com relação à estrutura determinada experimentalmente) e aumento de 35,28% no valor de GDT-TS (métricas comumente usadas para avaliação dos modelos gerados) para o melhor modelo predito para a proteína T0820-D1 em comparação ao melhor resultado obtido usando a função de aptidão padrão do GAPF. A expansão do conjunto teste e a comparação com métodos consolidados na literatura, como o Quark e o Rosetta, mostraram que o GAPF, usando as estratégias de contatos propostas nesse trabalho, é um bom candidato para predições de novo de estruturas de proteínas. Dessa forma, confirma-se que o uso de mapas de contatos, sob a forma de restrições de distância, é uma estratégia útil e eficiente para metodologias que utilizam abordagens de novo de PSP.Abstract Protein structure prediction is one of the most important problems in computational molecular biology and aims to determine the three dimensional structure of proteins solely from the amino acid sequence. Since 1994, the state of the art of protein structure prediction (PSP) methods has been assessed in the CASP events (The Critical Assessment of Techniques for Protein Structure Prediction), and the methodological improvements have been remarkable. During the last three CASP editions (10th, 11th, and 12th), promising results were achieved with the introduction of co-evolution information, in the form of residues contact maps, in methodologies for PSP. The goals of this work are to carry out an assessment of the information given by contact maps and to develop a strategy to use the contact constraints from these maps to improve the quality of the predicted models in a de novo PSP approach. A residue-residue potential, with information from contact maps, is proposed in the form of distance constraints. This potential is added to the fitness function of the GAPF program, which predicts protein structures using a genetic algorithm with phenotypic crowding in a free-modeling approach. Two contact maps were generated to evaluate the potential developed here: (i) a native contact map obtained directly from the experimental structure and, (ii) predicted contact maps by MetaPSICOV and RaptorX-Contact. The experiments performed indicate that the contact potential implemented in the GAPF program promoted an important improvement in the accuracy of the predictions. For example, it was possible to obtain models with a reduction of up to 7.32Å for RMSD and 35.28% in GDT-TS for the best protein model predicted for target T0820-D1, when comparing with the values obtained for standard version of the GAPF program using the same number of evaluations. The comparison with consolidated PSP methods in the literature, such as Quark and Rosetta, has shown that by using the contact strategies proposed in this work, GAPF became a good candidate for de novo protein structure predictions. These results confirm the use of contact maps as a useful strategy for de novo PSP methodologies.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorLaboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BrasilLNCCPrograma de Pós-Graduação em Modelagem ComputacionalDardenne, Laurent EmmanuelCustódio, Fábio LimaDardenne, Laurent EmmanuelBarbosa, Helio José CorrêaBisch, Paulo MascarelloLins Neto, Roberto DiasSantos, Karina Baptista dos2023-04-18T19:46:46Z2018-06-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfSANTOS, K. B. Desenvolvimento de estratégias para o uso de mapa de contatos em problemas de predição de novo de estruturas de proteínas. 2018. 167 f. Tese (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2018.https://tede.lncc.br/handle/tede/355porhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2023-04-19T04:08:05Zoai:tede-server.lncc.br:tede/355Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-04-19T04:08:05Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false |
| dc.title.none.fl_str_mv |
Desenvolvimento de estratégias para o uso de mapa de contatos em problemas de predição de novo de estruturas de proteínas |
| title |
Desenvolvimento de estratégias para o uso de mapa de contatos em problemas de predição de novo de estruturas de proteínas |
| spellingShingle |
Desenvolvimento de estratégias para o uso de mapa de contatos em problemas de predição de novo de estruturas de proteínas Santos, Karina Baptista dos Proteínas Predição de estruturas de proteínas Algoritmo genético CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL |
| title_short |
Desenvolvimento de estratégias para o uso de mapa de contatos em problemas de predição de novo de estruturas de proteínas |
| title_full |
Desenvolvimento de estratégias para o uso de mapa de contatos em problemas de predição de novo de estruturas de proteínas |
| title_fullStr |
Desenvolvimento de estratégias para o uso de mapa de contatos em problemas de predição de novo de estruturas de proteínas |
| title_full_unstemmed |
Desenvolvimento de estratégias para o uso de mapa de contatos em problemas de predição de novo de estruturas de proteínas |
| title_sort |
Desenvolvimento de estratégias para o uso de mapa de contatos em problemas de predição de novo de estruturas de proteínas |
| author |
Santos, Karina Baptista dos |
| author_facet |
Santos, Karina Baptista dos |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Dardenne, Laurent Emmanuel Custódio, Fábio Lima Dardenne, Laurent Emmanuel Barbosa, Helio José Corrêa Bisch, Paulo Mascarello Lins Neto, Roberto Dias |
| dc.contributor.author.fl_str_mv |
Santos, Karina Baptista dos |
| dc.subject.por.fl_str_mv |
Proteínas Predição de estruturas de proteínas Algoritmo genético CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL |
| topic |
Proteínas Predição de estruturas de proteínas Algoritmo genético CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL |
| description |
A predição de estrutura de proteínas (PSP) é um dos desafios mais importantes da biologia molecular computacional e possui como objetivo determinar a estrutura tridimensional de proteínas a partir de suas sequências de aminoácidos. A cada dois anos, desde 1994, o estado da arte da predição de estrutura de proteínas é avaliado em um dos mais importantes eventos na área, o CASP (The Critical Assessment of Protein Structure Prediction). Em suas últimas edições (CASP 10, 11 e 12), o uso de mapas de contatos de proteínas em problemas de PSP mostrou ser uma estratégia promissora para obtenção de modelos de proteínas cada vez mais precisos. O objetivo científico desse trabalho está associado com a análise das informações extraídas de mapas de contatos de proteínas e o desenvolvimento de estratégias para PSP utilizando essas informações. Nesse contexto, foi desenvolvido e implementado na função de aptidão do algoritmo genético do programa GAPF (do inglês Genetic Algorithm for Protein Folding) um novo potencial que trata os contatos resíduo- resíduo presentes no mapa sob a forma de restrições de distância. Para avaliar o potencial desenvolvido foram usados (i) mapas de contatos nativos, isto é, extraídos diretamente da estrutura tridimensional determinada para a proteína alvo, e (ii) mapas de contatos preditos pelos programas de predição de contatos MetaPSICOV e RaptorX-Contact. O Potencial de Contatos foi inicialmente testado em um conjunto de seis proteínas e as análises dos resultados indicam que seu uso promove importantes melhorias na qualidade estrutural dos modelos preditos pelo programa GAPF. Por exemplo, o uso de tais restrições permitiu a redução de 7,32Å no valor de RMSD (com relação à estrutura determinada experimentalmente) e aumento de 35,28% no valor de GDT-TS (métricas comumente usadas para avaliação dos modelos gerados) para o melhor modelo predito para a proteína T0820-D1 em comparação ao melhor resultado obtido usando a função de aptidão padrão do GAPF. A expansão do conjunto teste e a comparação com métodos consolidados na literatura, como o Quark e o Rosetta, mostraram que o GAPF, usando as estratégias de contatos propostas nesse trabalho, é um bom candidato para predições de novo de estruturas de proteínas. Dessa forma, confirma-se que o uso de mapas de contatos, sob a forma de restrições de distância, é uma estratégia útil e eficiente para metodologias que utilizam abordagens de novo de PSP. |
| publishDate |
2018 |
| dc.date.none.fl_str_mv |
2018-06-20 2023-04-18T19:46:46Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
SANTOS, K. B. Desenvolvimento de estratégias para o uso de mapa de contatos em problemas de predição de novo de estruturas de proteínas. 2018. 167 f. Tese (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2018. https://tede.lncc.br/handle/tede/355 |
| identifier_str_mv |
SANTOS, K. B. Desenvolvimento de estratégias para o uso de mapa de contatos em problemas de predição de novo de estruturas de proteínas. 2018. 167 f. Tese (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2018. |
| url |
https://tede.lncc.br/handle/tede/355 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
| publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do LNCC instname:Laboratório Nacional de Computação Científica (LNCC) instacron:LNCC |
| instname_str |
Laboratório Nacional de Computação Científica (LNCC) |
| instacron_str |
LNCC |
| institution |
LNCC |
| reponame_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
| collection |
Biblioteca Digital de Teses e Dissertações do LNCC |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC) |
| repository.mail.fl_str_mv |
library@lncc.br||library@lncc.br |
| _version_ |
1832738028371574784 |