Algoritmos genéticos para predição ab initio de estrutura de proteínas

Detalhes bibliográficos
Ano de defesa: 2008
Autor(a) principal: Custódio, Fábio Lima lattes
Orientador(a): Dardenne, Laurent Emmanuel lattes
Banca de defesa: Galeão, Augusto Cesar Noronha Rodrigues lattes, Borges, Carlos Cristiano H. lattes, Raupp, Fernanda Maria Pereira lattes, Bisch, Paulo Mascarello lattes, Garratt, Richard Charles
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Laboratório Nacional de Computação Científica
Programa de Pós-Graduação: Programa de Pós-Graduação em Modelagem Computacional
Departamento: Serviço de Análise e Apoio a Formação de Recursos Humanos
País: BR
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://tede.lncc.br/handle/tede/89
Resumo: The goal of ab initio protein structure prediction (PSP) methods is to predict, based on first principles, the three-dimensional structure that a given amino-acid sequence will assume. These methods have important biotechnological applications from the creation of new proteins, drug design (the receptor's structure), the refinement of theoretical models and the elucidation of structures from sparse experimental data. The prediction encompasses an optimization problem with thousands of degrees of freedom and is associated with extremely complex energy hypersurfaces. This results in a problem that is difficult to treat computationally. In this work a simplified three-dimensional protein model (hydrophobic-polar model, HP) was used in order to reduce the computational costs of the PSP problem allowing for the fast development of a robust and efficient genetic algorithms based methodology. This methodology was then adapted to an all-atoms protein model. During the development different strategies for the PSP problem were analyzed. A new crowding based approach is described for the maintenance of diversity within the population which resulted in achieving multiple solutions. The HP model's methodology was tested against all 35 major sequences from the literature and the comparative results showed that the proposed genetic algorithm is superior to other evolutionary algorithms and comparable to specialized methods. The algorithm applied to the all-atoms model was initially tested with poli-alanines and later with five other proteins. Structures with RMSDs ranging from 2.0 to 6.7 Å were found and the proposed algorithm was superior to others similar methods, in terms of computational costs. The results obtained showed that optimization strategies with multiple solutions characteristics present two advantages. The first one is the more efficient investigation of a complex hypersurface, with better chances of finding optimal solutions; the second one is increasing the probability of finding structures close to those experimentally determined, even when they are not near the global optimum of the energy hypersurface.
id LNCC_5e413288e07cc47a3ad761b73e670d06
oai_identifier_str oai:tede-server.lncc.br:tede/89
network_acronym_str LNCC
network_name_str Biblioteca Digital de Teses e Dissertações do LNCC
repository_id_str
spelling Dardenne, Laurent EmmanuelCPF:49809431104http://lattes.cnpq.br/8344194525615133Barbosa, Helio José CorrêaCPF:194 306 716 34http://lattes.cnpq.br/0375745110240885Galeão, Augusto Cesar Noronha RodriguesCPF:26710609715http://lattes.cnpq.br/9237713158265249Borges, Carlos Cristiano H.Raupp, Fernanda Maria PereiraCPF:00000000111http://lattes.cnpq.br/6932171005996406Bisch, Paulo Mascarellohttp://lattes.cnpq.br/5928043800446342Garratt, Richard CharlesCPF:00000000004http://lattes.cnpq.br/1405100203133067CPF:08159264720http://lattes.cnpq.br/9126339190151859Custódio, Fábio Lima2015-03-04T18:51:02Z2008-07-222008-04-30CUSTÓDIO, Fábio Lima. Genetic algorithms for AB INITIO protein structure prediction. 2008. 221 f. Tese (Doutorado em Modelagem computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2008.https://tede.lncc.br/handle/tede/89The goal of ab initio protein structure prediction (PSP) methods is to predict, based on first principles, the three-dimensional structure that a given amino-acid sequence will assume. These methods have important biotechnological applications from the creation of new proteins, drug design (the receptor's structure), the refinement of theoretical models and the elucidation of structures from sparse experimental data. The prediction encompasses an optimization problem with thousands of degrees of freedom and is associated with extremely complex energy hypersurfaces. This results in a problem that is difficult to treat computationally. In this work a simplified three-dimensional protein model (hydrophobic-polar model, HP) was used in order to reduce the computational costs of the PSP problem allowing for the fast development of a robust and efficient genetic algorithms based methodology. This methodology was then adapted to an all-atoms protein model. During the development different strategies for the PSP problem were analyzed. A new crowding based approach is described for the maintenance of diversity within the population which resulted in achieving multiple solutions. The HP model's methodology was tested against all 35 major sequences from the literature and the comparative results showed that the proposed genetic algorithm is superior to other evolutionary algorithms and comparable to specialized methods. The algorithm applied to the all-atoms model was initially tested with poli-alanines and later with five other proteins. Structures with RMSDs ranging from 2.0 to 6.7 Å were found and the proposed algorithm was superior to others similar methods, in terms of computational costs. The results obtained showed that optimization strategies with multiple solutions characteristics present two advantages. The first one is the more efficient investigation of a complex hypersurface, with better chances of finding optimal solutions; the second one is increasing the probability of finding structures close to those experimentally determined, even when they are not near the global optimum of the energy hypersurface.Métodos de predição ab initio de estrutura de proteínas (PSP) buscam prever, baseando-se em primeiros princípios, a estrutura tridimensional que uma dada seqüência de aminoácidos irá adotar no espaço. Os métodos de predição ab initio atualmente possuem aplicações biotecnológicas que envolvem desde a criação de novas proteínas, o auxílio no desenho racional de fármacos (estrutura do receptor), o refinamento de modelos teóricos e a obtenção de estruturas a partir de dados experimentais incompletos. Entretanto, a predição envolve um problema de otimização que lida com milhares de graus de liberdade e está associado à hipersuperfícies de energia extremamente complexas o que torna o problema difícil de ser tratado computacionalmente. Neste trabalho utilizamos um modelo tridimensional de proteínas simplificado (modelo hidrofóbico-polar, HP) para reduzir os custos computacionais associados ao problema de PSP de modo que uma metodologia de otimização, robusta e eficiente, baseada em algoritmos genéticos, fosse desenvolvida mais rapidamente. Em seguida a metodologia foi adaptada para um modelo com descrição atômica que utiliza um campo de forças clássico como função de energia. Durante o desenvolvimento foram implementadas e analisadas várias estratégias para o problema. Foi descrita uma nova abordagem, baseada em crowding, para a manutenção da diversidade na população que resulta na obtenção simultânea de múltiplas soluções. A metodologia para o modelo HP foi aplicada a 35 seqüências disponíveis na literatura e os resultados comparativos mostraram que o algoritmo genético desenvolvido é superior a outros algoritmos evolutivos publicados, e comparável a métodos especializados. A metodologia para o modelo atômico foi inicialmente testada em poli-alaninas e em seguida em cinco outras proteínas de maior complexidade. Foram encontradas estruturas apresentando RMSDs entre 2,0 e 6,7 Å, em relação à estrutura determinada experimentalmente. O algoritmo genético se mostrou superior a outros métodos semelhantes, em termos de custo computacional. Os resultados obtidos mostram que as estratégias de otimização envolvendo a busca por múltiplos mínimos possuem duas grandes vantagens. A primeira delas está em uma investigação mais efetiva de uma hipersuperfície complexa aumentando a probabilidade de se encontrar soluções ótimas (de mais baixa energia); a segunda delas está no aumento da probabilidade de se obter estruturas próximas daquelas determinadas experimentalmente mesmo quando estas não são o mínimo global da hipersuperfície de energia investigada.Made available in DSpace on 2015-03-04T18:51:02Z (GMT). No. of bitstreams: 1 thesis_final.pdf: 17163181 bytes, checksum: 00c96f156953680b2cfcf263393486b2 (MD5) Previous issue date: 2008-04-30Conselho Nacional de Desenvolvimento Cientifico e Tecnologicoapplication/pdfhttp://tede-server.lncc.br:8080/retrieve/383/thesis_final.pdf.jpghttp://tede-server.lncc.br:8080/retrieve/608/thesis_final.pdf.jpgporLaboratório Nacional de Computação CientíficaPrograma de Pós-Graduação em Modelagem ComputacionalLNCCBRServiço de Análise e Apoio a Formação de Recursos HumanosBiologia molecular -- Processamento eletrônico de dadosAlgorítmos genéticosPredição de estrutura de proteínasModelo HPMolecular biology -- Electronic data processingGenetic algorithmsCNPQ::CIENCIAS BIOLOGICAS::BIOQUIMICA::BIOLOGIA MOLECULARAlgoritmos genéticos para predição ab initio de estrutura de proteínasGenetic algorithms for AB INITIO protein structure predictioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCCORIGINALthesis_final.pdfapplication/pdf17163181http://tede-server.lncc.br:8080/tede/bitstream/tede/89/1/thesis_final.pdf00c96f156953680b2cfcf263393486b2MD51THUMBNAILthesis_final.pdf.jpgthesis_final.pdf.jpgimage/jpeg3058http://tede-server.lncc.br:8080/tede/bitstream/tede/89/2/thesis_final.pdf.jpg613bc0e179ac2023fb8417b557614bf2MD52tede/892018-07-04 09:59:39.794oai:tede-server.lncc.br:tede/89Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2018-07-04T12:59:39Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false
dc.title.por.fl_str_mv Algoritmos genéticos para predição ab initio de estrutura de proteínas
dc.title.alternative.eng.fl_str_mv Genetic algorithms for AB INITIO protein structure prediction
title Algoritmos genéticos para predição ab initio de estrutura de proteínas
spellingShingle Algoritmos genéticos para predição ab initio de estrutura de proteínas
Custódio, Fábio Lima
Biologia molecular -- Processamento eletrônico de dados
Algorítmos genéticos
Predição de estrutura de proteínas
Modelo HP
Molecular biology -- Electronic data processing
Genetic algorithms
CNPQ::CIENCIAS BIOLOGICAS::BIOQUIMICA::BIOLOGIA MOLECULAR
title_short Algoritmos genéticos para predição ab initio de estrutura de proteínas
title_full Algoritmos genéticos para predição ab initio de estrutura de proteínas
title_fullStr Algoritmos genéticos para predição ab initio de estrutura de proteínas
title_full_unstemmed Algoritmos genéticos para predição ab initio de estrutura de proteínas
title_sort Algoritmos genéticos para predição ab initio de estrutura de proteínas
author Custódio, Fábio Lima
author_facet Custódio, Fábio Lima
author_role author
dc.contributor.advisor1.fl_str_mv Dardenne, Laurent Emmanuel
dc.contributor.advisor1ID.fl_str_mv CPF:49809431104
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/8344194525615133
dc.contributor.advisor-co1.fl_str_mv Barbosa, Helio José Corrêa
dc.contributor.advisor-co1ID.fl_str_mv CPF:194 306 716 34
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/0375745110240885
dc.contributor.referee1.fl_str_mv Galeão, Augusto Cesar Noronha Rodrigues
dc.contributor.referee1ID.fl_str_mv CPF:26710609715
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/9237713158265249
dc.contributor.referee2.fl_str_mv Borges, Carlos Cristiano H.
dc.contributor.referee3.fl_str_mv Raupp, Fernanda Maria Pereira
dc.contributor.referee3ID.fl_str_mv CPF:00000000111
dc.contributor.referee3Lattes.fl_str_mv http://lattes.cnpq.br/6932171005996406
dc.contributor.referee4.fl_str_mv Bisch, Paulo Mascarello
dc.contributor.referee4Lattes.fl_str_mv http://lattes.cnpq.br/5928043800446342
dc.contributor.referee5.fl_str_mv Garratt, Richard Charles
dc.contributor.referee5ID.fl_str_mv CPF:00000000004
dc.contributor.referee5Lattes.fl_str_mv http://lattes.cnpq.br/1405100203133067
dc.contributor.authorID.fl_str_mv CPF:08159264720
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/9126339190151859
dc.contributor.author.fl_str_mv Custódio, Fábio Lima
contributor_str_mv Dardenne, Laurent Emmanuel
Barbosa, Helio José Corrêa
Galeão, Augusto Cesar Noronha Rodrigues
Borges, Carlos Cristiano H.
Raupp, Fernanda Maria Pereira
Bisch, Paulo Mascarello
Garratt, Richard Charles
dc.subject.por.fl_str_mv Biologia molecular -- Processamento eletrônico de dados
Algorítmos genéticos
Predição de estrutura de proteínas
Modelo HP
topic Biologia molecular -- Processamento eletrônico de dados
Algorítmos genéticos
Predição de estrutura de proteínas
Modelo HP
Molecular biology -- Electronic data processing
Genetic algorithms
CNPQ::CIENCIAS BIOLOGICAS::BIOQUIMICA::BIOLOGIA MOLECULAR
dc.subject.eng.fl_str_mv Molecular biology -- Electronic data processing
Genetic algorithms
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS BIOLOGICAS::BIOQUIMICA::BIOLOGIA MOLECULAR
description The goal of ab initio protein structure prediction (PSP) methods is to predict, based on first principles, the three-dimensional structure that a given amino-acid sequence will assume. These methods have important biotechnological applications from the creation of new proteins, drug design (the receptor's structure), the refinement of theoretical models and the elucidation of structures from sparse experimental data. The prediction encompasses an optimization problem with thousands of degrees of freedom and is associated with extremely complex energy hypersurfaces. This results in a problem that is difficult to treat computationally. In this work a simplified three-dimensional protein model (hydrophobic-polar model, HP) was used in order to reduce the computational costs of the PSP problem allowing for the fast development of a robust and efficient genetic algorithms based methodology. This methodology was then adapted to an all-atoms protein model. During the development different strategies for the PSP problem were analyzed. A new crowding based approach is described for the maintenance of diversity within the population which resulted in achieving multiple solutions. The HP model's methodology was tested against all 35 major sequences from the literature and the comparative results showed that the proposed genetic algorithm is superior to other evolutionary algorithms and comparable to specialized methods. The algorithm applied to the all-atoms model was initially tested with poli-alanines and later with five other proteins. Structures with RMSDs ranging from 2.0 to 6.7 Å were found and the proposed algorithm was superior to others similar methods, in terms of computational costs. The results obtained showed that optimization strategies with multiple solutions characteristics present two advantages. The first one is the more efficient investigation of a complex hypersurface, with better chances of finding optimal solutions; the second one is increasing the probability of finding structures close to those experimentally determined, even when they are not near the global optimum of the energy hypersurface.
publishDate 2008
dc.date.available.fl_str_mv 2008-07-22
dc.date.issued.fl_str_mv 2008-04-30
dc.date.accessioned.fl_str_mv 2015-03-04T18:51:02Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv CUSTÓDIO, Fábio Lima. Genetic algorithms for AB INITIO protein structure prediction. 2008. 221 f. Tese (Doutorado em Modelagem computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2008.
dc.identifier.uri.fl_str_mv https://tede.lncc.br/handle/tede/89
identifier_str_mv CUSTÓDIO, Fábio Lima. Genetic algorithms for AB INITIO protein structure prediction. 2008. 221 f. Tese (Doutorado em Modelagem computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2008.
url https://tede.lncc.br/handle/tede/89
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Modelagem Computacional
dc.publisher.initials.fl_str_mv LNCC
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Serviço de Análise e Apoio a Formação de Recursos Humanos
publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do LNCC
instname:Laboratório Nacional de Computação Científica (LNCC)
instacron:LNCC
instname_str Laboratório Nacional de Computação Científica (LNCC)
instacron_str LNCC
institution LNCC
reponame_str Biblioteca Digital de Teses e Dissertações do LNCC
collection Biblioteca Digital de Teses e Dissertações do LNCC
bitstream.url.fl_str_mv http://tede-server.lncc.br:8080/tede/bitstream/tede/89/1/thesis_final.pdf
http://tede-server.lncc.br:8080/tede/bitstream/tede/89/2/thesis_final.pdf.jpg
bitstream.checksum.fl_str_mv 00c96f156953680b2cfcf263393486b2
613bc0e179ac2023fb8417b557614bf2
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)
repository.mail.fl_str_mv library@lncc.br||library@lncc.br
_version_ 1790266128644177920