Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/76/76135/tde-28082025-105716/ |
Resumo: | O problema das fases é um dos desafios centrais na cristalografia de proteínas realizada por difração de raios X, decorrente das limitações dos sistemas de detecção de radiação, que impedem a medição direta das fases das ondas dispersas construtivamente pelos componentes do cristal. Sem essas fases, o cálculo direto da função de distribuição de densidade eletrônica na célula unitária por meio de uma transformada de Fourier é inviabilizado. Atualmente, os métodos experimentais mais utilizados para abordar esse problema incluem (i) a quantificação do componente dispersivo dependente do comprimento de onda (λ) do fator de espalhamento atômico e (ii) a substituição parcial do solvente aquoso por íons mais densos em elétrons. Alternativamente, o uso de estruturas cristalinas conhecidas, funcionalmente relacionadas ou homólogas, pode fornecer um conjunto inicial de fases. Embora esses métodos tenham permitido a determinação de uma vasta gama de modelos atômicos de proteínas, eles são complexos, demorados e podem ser limitados em precisão. Neste contexto, este trabalho propõe uma abordagem inovadora para a solução do problema das fases, utilizando aprendizado de máquina, com foco no algoritmo XGBoost (Extreme Gradient Boosting). A hipótese central é que uma análise estatística detalhada das distribuições de fases conhecidas pode prever com precisão os valores de fase em conjuntos de dados não resolvidos, reduzindo a necessidade de experimentos complementares ou do uso de estruturas homólogas. Para validar essa abordagem, escolhemos a lisozima da clara de ovo de galinha (HEWL) como sistema modelo, devido à sua abundância no Protein Data Bank (PDB), com mais de 1000 estruturas determinadas, proporcionando uma base robusta para o treinamento e validação dos modelos. Até o momento, foi realizado com sucesso um ciclo completo de previsão de fases utilizando o XGBoost, seguido pela reconstrução dos mapas de densidade eletrônica (EDMs). O modelo desenvolvido alcançou uma precisão na faixa de 15-20 graus. O objetivo contínuo deste trabalho é melhorar ainda mais essa precisão, utilizando funções de perda cíclicas, como a função von Mises, que refletem a periodicidade das fases, e realizar uma avaliação quantitativa da fidelidade dos EDMs reconstruídos. A implementação bem-sucedida dessa abordagem pode representar um avanço significativo na determinação estrutural de proteínas, oferecendo novas perspectivas para o design racional de fármacos e a biologia estrutural. |
| id |
USP_10ae0a3569d7fb34335cbf9e6b826eb7 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-28082025-105716 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinhaMultiparametric analysis of the phase problem in protein crystallography via machine learning using XGBoost - case study: hen egg-white lysozymeAprendizagem de máquinaCristalografia de proteínasLisozimaLysozymeMachine learningPhase problemProblema das fasesProtein crystallographyXGBoostXGBoostO problema das fases é um dos desafios centrais na cristalografia de proteínas realizada por difração de raios X, decorrente das limitações dos sistemas de detecção de radiação, que impedem a medição direta das fases das ondas dispersas construtivamente pelos componentes do cristal. Sem essas fases, o cálculo direto da função de distribuição de densidade eletrônica na célula unitária por meio de uma transformada de Fourier é inviabilizado. Atualmente, os métodos experimentais mais utilizados para abordar esse problema incluem (i) a quantificação do componente dispersivo dependente do comprimento de onda (λ) do fator de espalhamento atômico e (ii) a substituição parcial do solvente aquoso por íons mais densos em elétrons. Alternativamente, o uso de estruturas cristalinas conhecidas, funcionalmente relacionadas ou homólogas, pode fornecer um conjunto inicial de fases. Embora esses métodos tenham permitido a determinação de uma vasta gama de modelos atômicos de proteínas, eles são complexos, demorados e podem ser limitados em precisão. Neste contexto, este trabalho propõe uma abordagem inovadora para a solução do problema das fases, utilizando aprendizado de máquina, com foco no algoritmo XGBoost (Extreme Gradient Boosting). A hipótese central é que uma análise estatística detalhada das distribuições de fases conhecidas pode prever com precisão os valores de fase em conjuntos de dados não resolvidos, reduzindo a necessidade de experimentos complementares ou do uso de estruturas homólogas. Para validar essa abordagem, escolhemos a lisozima da clara de ovo de galinha (HEWL) como sistema modelo, devido à sua abundância no Protein Data Bank (PDB), com mais de 1000 estruturas determinadas, proporcionando uma base robusta para o treinamento e validação dos modelos. Até o momento, foi realizado com sucesso um ciclo completo de previsão de fases utilizando o XGBoost, seguido pela reconstrução dos mapas de densidade eletrônica (EDMs). O modelo desenvolvido alcançou uma precisão na faixa de 15-20 graus. O objetivo contínuo deste trabalho é melhorar ainda mais essa precisão, utilizando funções de perda cíclicas, como a função von Mises, que refletem a periodicidade das fases, e realizar uma avaliação quantitativa da fidelidade dos EDMs reconstruídos. A implementação bem-sucedida dessa abordagem pode representar um avanço significativo na determinação estrutural de proteínas, oferecendo novas perspectivas para o design racional de fármacos e a biologia estrutural.The phase problem is one of the central challenges in protein crystallography conducted via X-ray diffraction, stemming from the limitations of radiation detection systems that prevent the direct measurement of the phases of waves constructively scattered by the crystal components. Without these phases, directly calculating the electron density distribution function in the unit cell through a Fourier transform is unfeasible. Currently, the most employed experimental methods to address this problem include (i) quantification of the wavelength-dependent (λ) dispersive component of the atomic scattering factor and (ii) partial substitution of the aqueous solvent with more electron-dense ions. Alternatively, known crystal structures that are functionally related or homologous can provide initial phases. While these methods have enabled the determination of a vast array of atomic models of proteins, they are complex, time-consuming, and may be limited in precision. This work proposes an innovative approach to solving the phase problem using machine learning, focusing on the XGBoost (Extreme Gradient Boosting) algorithm. The central hypothesis is that a detailed statistical analysis of known phase distributions can accurately predict phase values in unresolved datasets, reducing the need for additional experiments or homologous structures. To validate this approach, the hen egg-white lysozyme (HEWL) was chosen as a model system due to its abundance in the Protein Data Bank (PDB), with over 1000 determined structures, providing a robust basis for training and validating the models. A complete cycle of phase prediction using XGBoost, followed by the reconstruction of electron density maps (EDMs), has been successfully executed. The developed model achieved an accuracy of 15-20 degrees. The ongoing objective of this work is to further improve this accuracy by using cyclic loss functions, such as the von Mises function, which reflect the periodicity of phases, and to conduct a quantitative assessment of the fidelity of the reconstructed EDMs. The successful implementation of this approach could represent a significant advancement in protein structure determination, offering new perspectives for rational drug design and structural biology.Biblioteca Digitais de Teses e Dissertações da USPAmbrosio, Andre Luis BerteliJucovski, André Gustavo2025-05-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/76/76135/tde-28082025-105716/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-09-02T20:03:02Zoai:teses.usp.br:tde-28082025-105716Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-09-02T20:03:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha Multiparametric analysis of the phase problem in protein crystallography via machine learning using XGBoost - case study: hen egg-white lysozyme |
| title |
Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha |
| spellingShingle |
Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha Jucovski, André Gustavo Aprendizagem de máquina Cristalografia de proteínas Lisozima Lysozyme Machine learning Phase problem Problema das fases Protein crystallography XGBoost XGBoost |
| title_short |
Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha |
| title_full |
Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha |
| title_fullStr |
Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha |
| title_full_unstemmed |
Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha |
| title_sort |
Análise multiparamétrica do problema das fases em cristalografia de proteínas via aprendizado de máquina usando XGBoost - estudo de caso: lisozima de clara de ovo de galinha |
| author |
Jucovski, André Gustavo |
| author_facet |
Jucovski, André Gustavo |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Ambrosio, Andre Luis Berteli |
| dc.contributor.author.fl_str_mv |
Jucovski, André Gustavo |
| dc.subject.por.fl_str_mv |
Aprendizagem de máquina Cristalografia de proteínas Lisozima Lysozyme Machine learning Phase problem Problema das fases Protein crystallography XGBoost XGBoost |
| topic |
Aprendizagem de máquina Cristalografia de proteínas Lisozima Lysozyme Machine learning Phase problem Problema das fases Protein crystallography XGBoost XGBoost |
| description |
O problema das fases é um dos desafios centrais na cristalografia de proteínas realizada por difração de raios X, decorrente das limitações dos sistemas de detecção de radiação, que impedem a medição direta das fases das ondas dispersas construtivamente pelos componentes do cristal. Sem essas fases, o cálculo direto da função de distribuição de densidade eletrônica na célula unitária por meio de uma transformada de Fourier é inviabilizado. Atualmente, os métodos experimentais mais utilizados para abordar esse problema incluem (i) a quantificação do componente dispersivo dependente do comprimento de onda (λ) do fator de espalhamento atômico e (ii) a substituição parcial do solvente aquoso por íons mais densos em elétrons. Alternativamente, o uso de estruturas cristalinas conhecidas, funcionalmente relacionadas ou homólogas, pode fornecer um conjunto inicial de fases. Embora esses métodos tenham permitido a determinação de uma vasta gama de modelos atômicos de proteínas, eles são complexos, demorados e podem ser limitados em precisão. Neste contexto, este trabalho propõe uma abordagem inovadora para a solução do problema das fases, utilizando aprendizado de máquina, com foco no algoritmo XGBoost (Extreme Gradient Boosting). A hipótese central é que uma análise estatística detalhada das distribuições de fases conhecidas pode prever com precisão os valores de fase em conjuntos de dados não resolvidos, reduzindo a necessidade de experimentos complementares ou do uso de estruturas homólogas. Para validar essa abordagem, escolhemos a lisozima da clara de ovo de galinha (HEWL) como sistema modelo, devido à sua abundância no Protein Data Bank (PDB), com mais de 1000 estruturas determinadas, proporcionando uma base robusta para o treinamento e validação dos modelos. Até o momento, foi realizado com sucesso um ciclo completo de previsão de fases utilizando o XGBoost, seguido pela reconstrução dos mapas de densidade eletrônica (EDMs). O modelo desenvolvido alcançou uma precisão na faixa de 15-20 graus. O objetivo contínuo deste trabalho é melhorar ainda mais essa precisão, utilizando funções de perda cíclicas, como a função von Mises, que refletem a periodicidade das fases, e realizar uma avaliação quantitativa da fidelidade dos EDMs reconstruídos. A implementação bem-sucedida dessa abordagem pode representar um avanço significativo na determinação estrutural de proteínas, oferecendo novas perspectivas para o design racional de fármacos e a biologia estrutural. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-05-08 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/76/76135/tde-28082025-105716/ |
| url |
https://www.teses.usp.br/teses/disponiveis/76/76135/tde-28082025-105716/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1848370491752972288 |