Algoritmos genéticos para predição ab initio de estrutura de proteínas
Ano de defesa: | 2008 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | , , , , |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Laboratório Nacional de Computação Científica
|
Programa de Pós-Graduação: |
Programa de Pós-Graduação em Modelagem Computacional
|
Departamento: |
Serviço de Análise e Apoio a Formação de Recursos Humanos
|
País: |
BR
|
Palavras-chave em Português: | |
Palavras-chave em Inglês: | |
Área do conhecimento CNPq: | |
Link de acesso: | https://tede.lncc.br/handle/tede/89 |
Resumo: | The goal of ab initio protein structure prediction (PSP) methods is to predict, based on first principles, the three-dimensional structure that a given amino-acid sequence will assume. These methods have important biotechnological applications from the creation of new proteins, drug design (the receptor's structure), the refinement of theoretical models and the elucidation of structures from sparse experimental data. The prediction encompasses an optimization problem with thousands of degrees of freedom and is associated with extremely complex energy hypersurfaces. This results in a problem that is difficult to treat computationally. In this work a simplified three-dimensional protein model (hydrophobic-polar model, HP) was used in order to reduce the computational costs of the PSP problem allowing for the fast development of a robust and efficient genetic algorithms based methodology. This methodology was then adapted to an all-atoms protein model. During the development different strategies for the PSP problem were analyzed. A new crowding based approach is described for the maintenance of diversity within the population which resulted in achieving multiple solutions. The HP model's methodology was tested against all 35 major sequences from the literature and the comparative results showed that the proposed genetic algorithm is superior to other evolutionary algorithms and comparable to specialized methods. The algorithm applied to the all-atoms model was initially tested with poli-alanines and later with five other proteins. Structures with RMSDs ranging from 2.0 to 6.7 Å were found and the proposed algorithm was superior to others similar methods, in terms of computational costs. The results obtained showed that optimization strategies with multiple solutions characteristics present two advantages. The first one is the more efficient investigation of a complex hypersurface, with better chances of finding optimal solutions; the second one is increasing the probability of finding structures close to those experimentally determined, even when they are not near the global optimum of the energy hypersurface. |
id |
LNCC_5e413288e07cc47a3ad761b73e670d06 |
---|---|
oai_identifier_str |
oai:tede-server.lncc.br:tede/89 |
network_acronym_str |
LNCC |
network_name_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
repository_id_str |
|
spelling |
Dardenne, Laurent EmmanuelCPF:49809431104http://lattes.cnpq.br/8344194525615133Barbosa, Helio José CorrêaCPF:194 306 716 34http://lattes.cnpq.br/0375745110240885Galeão, Augusto Cesar Noronha RodriguesCPF:26710609715http://lattes.cnpq.br/9237713158265249Borges, Carlos Cristiano H.Raupp, Fernanda Maria PereiraCPF:00000000111http://lattes.cnpq.br/6932171005996406Bisch, Paulo Mascarellohttp://lattes.cnpq.br/5928043800446342Garratt, Richard CharlesCPF:00000000004http://lattes.cnpq.br/1405100203133067CPF:08159264720http://lattes.cnpq.br/9126339190151859Custódio, Fábio Lima2015-03-04T18:51:02Z2008-07-222008-04-30CUSTÓDIO, Fábio Lima. Genetic algorithms for AB INITIO protein structure prediction. 2008. 221 f. Tese (Doutorado em Modelagem computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2008.https://tede.lncc.br/handle/tede/89The goal of ab initio protein structure prediction (PSP) methods is to predict, based on first principles, the three-dimensional structure that a given amino-acid sequence will assume. These methods have important biotechnological applications from the creation of new proteins, drug design (the receptor's structure), the refinement of theoretical models and the elucidation of structures from sparse experimental data. The prediction encompasses an optimization problem with thousands of degrees of freedom and is associated with extremely complex energy hypersurfaces. This results in a problem that is difficult to treat computationally. In this work a simplified three-dimensional protein model (hydrophobic-polar model, HP) was used in order to reduce the computational costs of the PSP problem allowing for the fast development of a robust and efficient genetic algorithms based methodology. This methodology was then adapted to an all-atoms protein model. During the development different strategies for the PSP problem were analyzed. A new crowding based approach is described for the maintenance of diversity within the population which resulted in achieving multiple solutions. The HP model's methodology was tested against all 35 major sequences from the literature and the comparative results showed that the proposed genetic algorithm is superior to other evolutionary algorithms and comparable to specialized methods. The algorithm applied to the all-atoms model was initially tested with poli-alanines and later with five other proteins. Structures with RMSDs ranging from 2.0 to 6.7 Å were found and the proposed algorithm was superior to others similar methods, in terms of computational costs. The results obtained showed that optimization strategies with multiple solutions characteristics present two advantages. The first one is the more efficient investigation of a complex hypersurface, with better chances of finding optimal solutions; the second one is increasing the probability of finding structures close to those experimentally determined, even when they are not near the global optimum of the energy hypersurface.Métodos de predição ab initio de estrutura de proteínas (PSP) buscam prever, baseando-se em primeiros princípios, a estrutura tridimensional que uma dada seqüência de aminoácidos irá adotar no espaço. Os métodos de predição ab initio atualmente possuem aplicações biotecnológicas que envolvem desde a criação de novas proteínas, o auxílio no desenho racional de fármacos (estrutura do receptor), o refinamento de modelos teóricos e a obtenção de estruturas a partir de dados experimentais incompletos. Entretanto, a predição envolve um problema de otimização que lida com milhares de graus de liberdade e está associado à hipersuperfícies de energia extremamente complexas o que torna o problema difícil de ser tratado computacionalmente. Neste trabalho utilizamos um modelo tridimensional de proteínas simplificado (modelo hidrofóbico-polar, HP) para reduzir os custos computacionais associados ao problema de PSP de modo que uma metodologia de otimização, robusta e eficiente, baseada em algoritmos genéticos, fosse desenvolvida mais rapidamente. Em seguida a metodologia foi adaptada para um modelo com descrição atômica que utiliza um campo de forças clássico como função de energia. Durante o desenvolvimento foram implementadas e analisadas várias estratégias para o problema. Foi descrita uma nova abordagem, baseada em crowding, para a manutenção da diversidade na população que resulta na obtenção simultânea de múltiplas soluções. A metodologia para o modelo HP foi aplicada a 35 seqüências disponíveis na literatura e os resultados comparativos mostraram que o algoritmo genético desenvolvido é superior a outros algoritmos evolutivos publicados, e comparável a métodos especializados. A metodologia para o modelo atômico foi inicialmente testada em poli-alaninas e em seguida em cinco outras proteínas de maior complexidade. Foram encontradas estruturas apresentando RMSDs entre 2,0 e 6,7 Å, em relação à estrutura determinada experimentalmente. O algoritmo genético se mostrou superior a outros métodos semelhantes, em termos de custo computacional. Os resultados obtidos mostram que as estratégias de otimização envolvendo a busca por múltiplos mínimos possuem duas grandes vantagens. A primeira delas está em uma investigação mais efetiva de uma hipersuperfície complexa aumentando a probabilidade de se encontrar soluções ótimas (de mais baixa energia); a segunda delas está no aumento da probabilidade de se obter estruturas próximas daquelas determinadas experimentalmente mesmo quando estas não são o mínimo global da hipersuperfície de energia investigada.Made available in DSpace on 2015-03-04T18:51:02Z (GMT). No. of bitstreams: 1 thesis_final.pdf: 17163181 bytes, checksum: 00c96f156953680b2cfcf263393486b2 (MD5) Previous issue date: 2008-04-30Conselho Nacional de Desenvolvimento Cientifico e Tecnologicoapplication/pdfhttp://tede-server.lncc.br:8080/retrieve/383/thesis_final.pdf.jpghttp://tede-server.lncc.br:8080/retrieve/608/thesis_final.pdf.jpgporLaboratório Nacional de Computação CientíficaPrograma de Pós-Graduação em Modelagem ComputacionalLNCCBRServiço de Análise e Apoio a Formação de Recursos HumanosBiologia molecular -- Processamento eletrônico de dadosAlgorítmos genéticosPredição de estrutura de proteínasModelo HPMolecular biology -- Electronic data processingGenetic algorithmsCNPQ::CIENCIAS BIOLOGICAS::BIOQUIMICA::BIOLOGIA MOLECULARAlgoritmos genéticos para predição ab initio de estrutura de proteínasGenetic algorithms for AB INITIO protein structure predictioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCCORIGINALthesis_final.pdfapplication/pdf17163181http://tede-server.lncc.br:8080/tede/bitstream/tede/89/1/thesis_final.pdf00c96f156953680b2cfcf263393486b2MD51THUMBNAILthesis_final.pdf.jpgthesis_final.pdf.jpgimage/jpeg3058http://tede-server.lncc.br:8080/tede/bitstream/tede/89/2/thesis_final.pdf.jpg613bc0e179ac2023fb8417b557614bf2MD52tede/892018-07-04 09:59:39.794oai:tede-server.lncc.br:tede/89Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2018-07-04T12:59:39Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false |
dc.title.por.fl_str_mv |
Algoritmos genéticos para predição ab initio de estrutura de proteínas |
dc.title.alternative.eng.fl_str_mv |
Genetic algorithms for AB INITIO protein structure prediction |
title |
Algoritmos genéticos para predição ab initio de estrutura de proteínas |
spellingShingle |
Algoritmos genéticos para predição ab initio de estrutura de proteínas Custódio, Fábio Lima Biologia molecular -- Processamento eletrônico de dados Algorítmos genéticos Predição de estrutura de proteínas Modelo HP Molecular biology -- Electronic data processing Genetic algorithms CNPQ::CIENCIAS BIOLOGICAS::BIOQUIMICA::BIOLOGIA MOLECULAR |
title_short |
Algoritmos genéticos para predição ab initio de estrutura de proteínas |
title_full |
Algoritmos genéticos para predição ab initio de estrutura de proteínas |
title_fullStr |
Algoritmos genéticos para predição ab initio de estrutura de proteínas |
title_full_unstemmed |
Algoritmos genéticos para predição ab initio de estrutura de proteínas |
title_sort |
Algoritmos genéticos para predição ab initio de estrutura de proteínas |
author |
Custódio, Fábio Lima |
author_facet |
Custódio, Fábio Lima |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Dardenne, Laurent Emmanuel |
dc.contributor.advisor1ID.fl_str_mv |
CPF:49809431104 |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/8344194525615133 |
dc.contributor.advisor-co1.fl_str_mv |
Barbosa, Helio José Corrêa |
dc.contributor.advisor-co1ID.fl_str_mv |
CPF:194 306 716 34 |
dc.contributor.advisor-co1Lattes.fl_str_mv |
http://lattes.cnpq.br/0375745110240885 |
dc.contributor.referee1.fl_str_mv |
Galeão, Augusto Cesar Noronha Rodrigues |
dc.contributor.referee1ID.fl_str_mv |
CPF:26710609715 |
dc.contributor.referee1Lattes.fl_str_mv |
http://lattes.cnpq.br/9237713158265249 |
dc.contributor.referee2.fl_str_mv |
Borges, Carlos Cristiano H. |
dc.contributor.referee3.fl_str_mv |
Raupp, Fernanda Maria Pereira |
dc.contributor.referee3ID.fl_str_mv |
CPF:00000000111 |
dc.contributor.referee3Lattes.fl_str_mv |
http://lattes.cnpq.br/6932171005996406 |
dc.contributor.referee4.fl_str_mv |
Bisch, Paulo Mascarello |
dc.contributor.referee4Lattes.fl_str_mv |
http://lattes.cnpq.br/5928043800446342 |
dc.contributor.referee5.fl_str_mv |
Garratt, Richard Charles |
dc.contributor.referee5ID.fl_str_mv |
CPF:00000000004 |
dc.contributor.referee5Lattes.fl_str_mv |
http://lattes.cnpq.br/1405100203133067 |
dc.contributor.authorID.fl_str_mv |
CPF:08159264720 |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/9126339190151859 |
dc.contributor.author.fl_str_mv |
Custódio, Fábio Lima |
contributor_str_mv |
Dardenne, Laurent Emmanuel Barbosa, Helio José Corrêa Galeão, Augusto Cesar Noronha Rodrigues Borges, Carlos Cristiano H. Raupp, Fernanda Maria Pereira Bisch, Paulo Mascarello Garratt, Richard Charles |
dc.subject.por.fl_str_mv |
Biologia molecular -- Processamento eletrônico de dados Algorítmos genéticos Predição de estrutura de proteínas Modelo HP |
topic |
Biologia molecular -- Processamento eletrônico de dados Algorítmos genéticos Predição de estrutura de proteínas Modelo HP Molecular biology -- Electronic data processing Genetic algorithms CNPQ::CIENCIAS BIOLOGICAS::BIOQUIMICA::BIOLOGIA MOLECULAR |
dc.subject.eng.fl_str_mv |
Molecular biology -- Electronic data processing Genetic algorithms |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS BIOLOGICAS::BIOQUIMICA::BIOLOGIA MOLECULAR |
description |
The goal of ab initio protein structure prediction (PSP) methods is to predict, based on first principles, the three-dimensional structure that a given amino-acid sequence will assume. These methods have important biotechnological applications from the creation of new proteins, drug design (the receptor's structure), the refinement of theoretical models and the elucidation of structures from sparse experimental data. The prediction encompasses an optimization problem with thousands of degrees of freedom and is associated with extremely complex energy hypersurfaces. This results in a problem that is difficult to treat computationally. In this work a simplified three-dimensional protein model (hydrophobic-polar model, HP) was used in order to reduce the computational costs of the PSP problem allowing for the fast development of a robust and efficient genetic algorithms based methodology. This methodology was then adapted to an all-atoms protein model. During the development different strategies for the PSP problem were analyzed. A new crowding based approach is described for the maintenance of diversity within the population which resulted in achieving multiple solutions. The HP model's methodology was tested against all 35 major sequences from the literature and the comparative results showed that the proposed genetic algorithm is superior to other evolutionary algorithms and comparable to specialized methods. The algorithm applied to the all-atoms model was initially tested with poli-alanines and later with five other proteins. Structures with RMSDs ranging from 2.0 to 6.7 Å were found and the proposed algorithm was superior to others similar methods, in terms of computational costs. The results obtained showed that optimization strategies with multiple solutions characteristics present two advantages. The first one is the more efficient investigation of a complex hypersurface, with better chances of finding optimal solutions; the second one is increasing the probability of finding structures close to those experimentally determined, even when they are not near the global optimum of the energy hypersurface. |
publishDate |
2008 |
dc.date.available.fl_str_mv |
2008-07-22 |
dc.date.issued.fl_str_mv |
2008-04-30 |
dc.date.accessioned.fl_str_mv |
2015-03-04T18:51:02Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
CUSTÓDIO, Fábio Lima. Genetic algorithms for AB INITIO protein structure prediction. 2008. 221 f. Tese (Doutorado em Modelagem computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2008. |
dc.identifier.uri.fl_str_mv |
https://tede.lncc.br/handle/tede/89 |
identifier_str_mv |
CUSTÓDIO, Fábio Lima. Genetic algorithms for AB INITIO protein structure prediction. 2008. 221 f. Tese (Doutorado em Modelagem computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2008. |
url |
https://tede.lncc.br/handle/tede/89 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Modelagem Computacional |
dc.publisher.initials.fl_str_mv |
LNCC |
dc.publisher.country.fl_str_mv |
BR |
dc.publisher.department.fl_str_mv |
Serviço de Análise e Apoio a Formação de Recursos Humanos |
publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do LNCC instname:Laboratório Nacional de Computação Científica (LNCC) instacron:LNCC |
instname_str |
Laboratório Nacional de Computação Científica (LNCC) |
instacron_str |
LNCC |
institution |
LNCC |
reponame_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
collection |
Biblioteca Digital de Teses e Dissertações do LNCC |
bitstream.url.fl_str_mv |
http://tede-server.lncc.br:8080/tede/bitstream/tede/89/1/thesis_final.pdf http://tede-server.lncc.br:8080/tede/bitstream/tede/89/2/thesis_final.pdf.jpg |
bitstream.checksum.fl_str_mv |
00c96f156953680b2cfcf263393486b2 613bc0e179ac2023fb8417b557614bf2 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC) |
repository.mail.fl_str_mv |
library@lncc.br||library@lncc.br |
_version_ |
1790266128644177920 |