Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Jucovski, André Gustavo
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/76/76135/tde-28082025-105716/
Resumo: O problema das fases é um dos desafios centrais na cristalografia de proteínas realizada por difração de raios X, decorrente das limitações dos sistemas de detecção de radiação, que impedem a medição direta das fases das ondas dispersas construtivamente pelos componentes do cristal. Sem essas fases, o cálculo direto da função de distribuição de densidade eletrônica na célula unitária por meio de uma transformada de Fourier é inviabilizado. Atualmente, os métodos experimentais mais utilizados para abordar esse problema incluem (i) a quantificação do componente dispersivo dependente do comprimento de onda (λ) do fator de espalhamento atômico e (ii) a substituição parcial do solvente aquoso por íons mais densos em elétrons. Alternativamente, o uso de estruturas cristalinas conhecidas, funcionalmente relacionadas ou homólogas, pode fornecer um conjunto inicial de fases. Embora esses métodos tenham permitido a determinação de uma vasta gama de modelos atômicos de proteínas, eles são complexos, demorados e podem ser limitados em precisão. Neste contexto, este trabalho propõe uma abordagem inovadora para a solução do problema das fases, utilizando aprendizado de máquina, com foco no algoritmo XGBoost (Extreme Gradient Boosting). A hipótese central é que uma análise estatística detalhada das distribuições de fases conhecidas pode prever com precisão os valores de fase em conjuntos de dados não resolvidos, reduzindo a necessidade de experimentos complementares ou do uso de estruturas homólogas. Para validar essa abordagem, escolhemos a lisozima da clara de ovo de galinha (HEWL) como sistema modelo, devido à sua abundância no Protein Data Bank (PDB), com mais de 1000 estruturas determinadas, proporcionando uma base robusta para o treinamento e validação dos modelos. Até o momento, foi realizado com sucesso um ciclo completo de previsão de fases utilizando o XGBoost, seguido pela reconstrução dos mapas de densidade eletrônica (EDMs). O modelo desenvolvido alcançou uma precisão na faixa de 15-20 graus. O objetivo contínuo deste trabalho é melhorar ainda mais essa precisão, utilizando funções de perda cíclicas, como a função von Mises, que refletem a periodicidade das fases, e realizar uma avaliação quantitativa da fidelidade dos EDMs reconstruídos. A implementação bem-sucedida dessa abordagem pode representar um avanço significativo na determinação estrutural de proteínas, oferecendo novas perspectivas para o design racional de fármacos e a biologia estrutural.
id USP_10ae0a3569d7fb34335cbf9e6b826eb7
oai_identifier_str oai:teses.usp.br:tde-28082025-105716
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinhaMultiparametric analysis of the phase problem in protein crystallography via machine learning using XGBoost - case study: hen egg-white lysozymeAprendizagem de máquinaCristalografia de proteínasLisozimaLysozymeMachine learningPhase problemProblema das fasesProtein crystallographyXGBoostXGBoostO problema das fases é um dos desafios centrais na cristalografia de proteínas realizada por difração de raios X, decorrente das limitações dos sistemas de detecção de radiação, que impedem a medição direta das fases das ondas dispersas construtivamente pelos componentes do cristal. Sem essas fases, o cálculo direto da função de distribuição de densidade eletrônica na célula unitária por meio de uma transformada de Fourier é inviabilizado. Atualmente, os métodos experimentais mais utilizados para abordar esse problema incluem (i) a quantificação do componente dispersivo dependente do comprimento de onda (λ) do fator de espalhamento atômico e (ii) a substituição parcial do solvente aquoso por íons mais densos em elétrons. Alternativamente, o uso de estruturas cristalinas conhecidas, funcionalmente relacionadas ou homólogas, pode fornecer um conjunto inicial de fases. Embora esses métodos tenham permitido a determinação de uma vasta gama de modelos atômicos de proteínas, eles são complexos, demorados e podem ser limitados em precisão. Neste contexto, este trabalho propõe uma abordagem inovadora para a solução do problema das fases, utilizando aprendizado de máquina, com foco no algoritmo XGBoost (Extreme Gradient Boosting). A hipótese central é que uma análise estatística detalhada das distribuições de fases conhecidas pode prever com precisão os valores de fase em conjuntos de dados não resolvidos, reduzindo a necessidade de experimentos complementares ou do uso de estruturas homólogas. Para validar essa abordagem, escolhemos a lisozima da clara de ovo de galinha (HEWL) como sistema modelo, devido à sua abundância no Protein Data Bank (PDB), com mais de 1000 estruturas determinadas, proporcionando uma base robusta para o treinamento e validação dos modelos. Até o momento, foi realizado com sucesso um ciclo completo de previsão de fases utilizando o XGBoost, seguido pela reconstrução dos mapas de densidade eletrônica (EDMs). O modelo desenvolvido alcançou uma precisão na faixa de 15-20 graus. O objetivo contínuo deste trabalho é melhorar ainda mais essa precisão, utilizando funções de perda cíclicas, como a função von Mises, que refletem a periodicidade das fases, e realizar uma avaliação quantitativa da fidelidade dos EDMs reconstruídos. A implementação bem-sucedida dessa abordagem pode representar um avanço significativo na determinação estrutural de proteínas, oferecendo novas perspectivas para o design racional de fármacos e a biologia estrutural.The phase problem is one of the central challenges in protein crystallography conducted via X-ray diffraction, stemming from the limitations of radiation detection systems that prevent the direct measurement of the phases of waves constructively scattered by the crystal components. Without these phases, directly calculating the electron density distribution function in the unit cell through a Fourier transform is unfeasible. Currently, the most employed experimental methods to address this problem include (i) quantification of the wavelength-dependent (λ) dispersive component of the atomic scattering factor and (ii) partial substitution of the aqueous solvent with more electron-dense ions. Alternatively, known crystal structures that are functionally related or homologous can provide initial phases. While these methods have enabled the determination of a vast array of atomic models of proteins, they are complex, time-consuming, and may be limited in precision. This work proposes an innovative approach to solving the phase problem using machine learning, focusing on the XGBoost (Extreme Gradient Boosting) algorithm. The central hypothesis is that a detailed statistical analysis of known phase distributions can accurately predict phase values in unresolved datasets, reducing the need for additional experiments or homologous structures. To validate this approach, the hen egg-white lysozyme (HEWL) was chosen as a model system due to its abundance in the Protein Data Bank (PDB), with over 1000 determined structures, providing a robust basis for training and validating the models. A complete cycle of phase prediction using XGBoost, followed by the reconstruction of electron density maps (EDMs), has been successfully executed. The developed model achieved an accuracy of 15-20 degrees. The ongoing objective of this work is to further improve this accuracy by using cyclic loss functions, such as the von Mises function, which reflect the periodicity of phases, and to conduct a quantitative assessment of the fidelity of the reconstructed EDMs. The successful implementation of this approach could represent a significant advancement in protein structure determination, offering new perspectives for rational drug design and structural biology.Biblioteca Digitais de Teses e Dissertações da USPAmbrosio, Andre Luis BerteliJucovski, André Gustavo2025-05-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/76/76135/tde-28082025-105716/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-09-02T20:03:02Zoai:teses.usp.br:tde-28082025-105716Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-09-02T20:03:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha
Multiparametric analysis of the phase problem in protein crystallography via machine learning using XGBoost - case study: hen egg-white lysozyme
title Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha
spellingShingle Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha
Jucovski, André Gustavo
Aprendizagem de máquina
Cristalografia de proteínas
Lisozima
Lysozyme
Machine learning
Phase problem
Problema das fases
Protein crystallography
XGBoost
XGBoost
title_short Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha
title_full Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha
title_fullStr Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha
title_full_unstemmed Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha
title_sort Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha
author Jucovski, André Gustavo
author_facet Jucovski, André Gustavo
author_role author
dc.contributor.none.fl_str_mv Ambrosio, Andre Luis Berteli
dc.contributor.author.fl_str_mv Jucovski, André Gustavo
dc.subject.por.fl_str_mv Aprendizagem de máquina
Cristalografia de proteínas
Lisozima
Lysozyme
Machine learning
Phase problem
Problema das fases
Protein crystallography
XGBoost
XGBoost
topic Aprendizagem de máquina
Cristalografia de proteínas
Lisozima
Lysozyme
Machine learning
Phase problem
Problema das fases
Protein crystallography
XGBoost
XGBoost
description O problema das fases é um dos desafios centrais na cristalografia de proteínas realizada por difração de raios X, decorrente das limitações dos sistemas de detecção de radiação, que impedem a medição direta das fases das ondas dispersas construtivamente pelos componentes do cristal. Sem essas fases, o cálculo direto da função de distribuição de densidade eletrônica na célula unitária por meio de uma transformada de Fourier é inviabilizado. Atualmente, os métodos experimentais mais utilizados para abordar esse problema incluem (i) a quantificação do componente dispersivo dependente do comprimento de onda (λ) do fator de espalhamento atômico e (ii) a substituição parcial do solvente aquoso por íons mais densos em elétrons. Alternativamente, o uso de estruturas cristalinas conhecidas, funcionalmente relacionadas ou homólogas, pode fornecer um conjunto inicial de fases. Embora esses métodos tenham permitido a determinação de uma vasta gama de modelos atômicos de proteínas, eles são complexos, demorados e podem ser limitados em precisão. Neste contexto, este trabalho propõe uma abordagem inovadora para a solução do problema das fases, utilizando aprendizado de máquina, com foco no algoritmo XGBoost (Extreme Gradient Boosting). A hipótese central é que uma análise estatística detalhada das distribuições de fases conhecidas pode prever com precisão os valores de fase em conjuntos de dados não resolvidos, reduzindo a necessidade de experimentos complementares ou do uso de estruturas homólogas. Para validar essa abordagem, escolhemos a lisozima da clara de ovo de galinha (HEWL) como sistema modelo, devido à sua abundância no Protein Data Bank (PDB), com mais de 1000 estruturas determinadas, proporcionando uma base robusta para o treinamento e validação dos modelos. Até o momento, foi realizado com sucesso um ciclo completo de previsão de fases utilizando o XGBoost, seguido pela reconstrução dos mapas de densidade eletrônica (EDMs). O modelo desenvolvido alcançou uma precisão na faixa de 15-20 graus. O objetivo contínuo deste trabalho é melhorar ainda mais essa precisão, utilizando funções de perda cíclicas, como a função von Mises, que refletem a periodicidade das fases, e realizar uma avaliação quantitativa da fidelidade dos EDMs reconstruídos. A implementação bem-sucedida dessa abordagem pode representar um avanço significativo na determinação estrutural de proteínas, oferecendo novas perspectivas para o design racional de fármacos e a biologia estrutural.
publishDate 2025
dc.date.none.fl_str_mv 2025-05-08
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/76/76135/tde-28082025-105716/
url https://www.teses.usp.br/teses/disponiveis/76/76135/tde-28082025-105716/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1848370491752972288