Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais
| Ano de defesa: | 2022 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Estadual Paulista (Unesp)
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://hdl.handle.net/11449/257687 |
Resumo: | A cristalografia desempenha papel essencial na elucidação dos mecanismos de ação de proteínas, por oferecer dados em nível atômico. Para elucidar a estrutura de uma macromolécula é fundamental o conhecimento da exata composição do seu cristal, o que geralmente é o caso de proteínas obtidas de forma recombinante. Porém, em diversas áreas de estudos, como na toxinologia, as amostras são geralmente obtidas através da purificação direta de fontes naturais, como por exemplo veneno de serpentes, onde propriedades físico-químicas semelhantes de isoformas podem dificultar seu isolamento. Na incapacidade de determinar uma única sequência em um cristal e na ausência de dados cristalográficos à resolução atômica, não existem métodos que auxiliem na elucidação destas estruturas ab initio. O método SEQUENCE SLIDER foi desenvolvido para avaliar diferentes possibilidades de cadeias laterais em um modelo cristalográfico no âmbito do faseamento no software ARCIMBOLDO e da incerteza da sequência na toxinologia. Nesta última finalidade, SLIDER integra dados de cristalografia, espectrometria de massa e análises filogenéticas. Assim, o objetivo deste trabalho foi otimizar SLIDER através da técnica de aprendizado de máquinas supervisionado eXtreme Gradient Boosting (XGBoost) sobre dados de análise de densidade eletrônica e do ambiente físico-químico de cada resíduo para estimar a atribuição do amino ácido correto. Foram utilizadas 41 estruturas cristalográficas de fosfolipases A2, 15 de receptores de porina e 149 metaloproteases, obtidas de fonte recombinante cuja sequência é conhecida para treinamento e teste da metodologia. Resultados obtidos apresentam acurácia de 94.3% a 98.4% para 16.919 resíduos. É esperado que a aplicação deste método a dados inéditos provenientes de proteínas purificadas a partir de fontes naturais com sequência desconhecida possa melhor caracterizar seus componentes e, consequentemente, auxiliar na compreensão de seus mecanismos de ação e estratégias de inibição. SLIDER ainda poderá auxiliar outros cristalógrafos e biologistas estruturais ao ser disponibilizado à comunidade científica e, utilizado em diferentes sistemas biológicos obtidos de fontes naturais. |
| id |
UNSP_42e4bd5107440e2bc813d482298f0f1d |
|---|---|
| oai_identifier_str |
oai:repositorio.unesp.br:11449/257687 |
| network_acronym_str |
UNSP |
| network_name_str |
Repositório Institucional da UNESP |
| repository_id_str |
|
| spelling |
Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturaisSequence Slider optimization: a method for elucidating crystallographic structures from natural sourcesAprendizado de máquinasSequence SliderToxinologiaXGBoostElucidação de estruturasA cristalografia desempenha papel essencial na elucidação dos mecanismos de ação de proteínas, por oferecer dados em nível atômico. Para elucidar a estrutura de uma macromolécula é fundamental o conhecimento da exata composição do seu cristal, o que geralmente é o caso de proteínas obtidas de forma recombinante. Porém, em diversas áreas de estudos, como na toxinologia, as amostras são geralmente obtidas através da purificação direta de fontes naturais, como por exemplo veneno de serpentes, onde propriedades físico-químicas semelhantes de isoformas podem dificultar seu isolamento. Na incapacidade de determinar uma única sequência em um cristal e na ausência de dados cristalográficos à resolução atômica, não existem métodos que auxiliem na elucidação destas estruturas ab initio. O método SEQUENCE SLIDER foi desenvolvido para avaliar diferentes possibilidades de cadeias laterais em um modelo cristalográfico no âmbito do faseamento no software ARCIMBOLDO e da incerteza da sequência na toxinologia. Nesta última finalidade, SLIDER integra dados de cristalografia, espectrometria de massa e análises filogenéticas. Assim, o objetivo deste trabalho foi otimizar SLIDER através da técnica de aprendizado de máquinas supervisionado eXtreme Gradient Boosting (XGBoost) sobre dados de análise de densidade eletrônica e do ambiente físico-químico de cada resíduo para estimar a atribuição do amino ácido correto. Foram utilizadas 41 estruturas cristalográficas de fosfolipases A2, 15 de receptores de porina e 149 metaloproteases, obtidas de fonte recombinante cuja sequência é conhecida para treinamento e teste da metodologia. Resultados obtidos apresentam acurácia de 94.3% a 98.4% para 16.919 resíduos. É esperado que a aplicação deste método a dados inéditos provenientes de proteínas purificadas a partir de fontes naturais com sequência desconhecida possa melhor caracterizar seus componentes e, consequentemente, auxiliar na compreensão de seus mecanismos de ação e estratégias de inibição. SLIDER ainda poderá auxiliar outros cristalógrafos e biologistas estruturais ao ser disponibilizado à comunidade científica e, utilizado em diferentes sistemas biológicos obtidos de fontes naturais.Crystallography plays an essential role for the understanding of the action mechanisms of proteins, as it offers atomic resolution data. In order to elucidate the structure of a macromolecule, it is fundamental to know its exact crystal composition, which is usually the case for recombinant proteins. However, in several areas of study, such as toxinology, samples are usually obtained through direct purification from natural source, such as snake venom, where similar physico-chemical properties of the toxins can cause its isolation to be a challenge. Thus, in case of the inability to determine a single sequence in a crystal and in the absence of crystallographic data at atomic resolution, there are no methods for aiding ab initio elucidation of structures. The SEQUENCE SLIDER software was developed to evaluate different side chains possibilities for a crystallographic model in the scope of the ARCIMBOLDO phasing method and the sequences uncertainty in toxinology. In this last aim, SLIDER integrates crystallographic, mass spectrometry and phylogenetic data. Therefore, the goal of this work was to optimize SLIDER through application of the supervised machine learning eXtreme Gradient Boosting (XGBoost) with data from electron density and to physico-chemical environment analysis of each residue to estimate the correct amino acid assignment. Train and test data are composed of 41 crystallographic structures of phospholipases A2, 15 porine receptors and 149 metaloproteases, obtained from recombinant source, whose sequence is known. Obtained results show accuracy ranging from 94.3% to 98.4% for 16.919 residues. It is expected that the application of the method to elucidate novel data from proteins purified from natural source with unknown sequence can better characterize their components and, consequently, aid action mechanisms comprehension and inhibition strategies developments. SLIDER may be able to assist other crystallographers and structural biologists as it will be available to the scientific community and, used for different biological systems whose source are natural.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: 88887.509942/2020-00CAPES: 88887.600744/2021-00Universidade Estadual Paulista (Unesp)Fontes, Marcos Roberto de Mattos [UNESP]Universidade Estadual Paulista (Unesp)Borges, Rafael JunqueiraBruno, João Paulo Ballerini [UNESP]2024-10-08T19:45:41Z2024-10-08T19:45:41Z2022-10-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfapplication/pdfBRUNO, João Paulo Ballerini. Otimização do SEQUENCE SLIDER: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais. Orientador(a): Marcos Roberto de Mattos Fontes. Coorientador(a): Rafael Junqueira Borges. Dissertação (Mestrado em Biologia Geral e Aplicada) - Instituto de Biociências, Universidade Estadual Paulista (Unesp), Botucatu, 2022https://hdl.handle.net/11449/25768733004064080P34224662354659226porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2025-10-23T15:43:10Zoai:repositorio.unesp.br:11449/257687Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462025-10-23T15:43:10Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false |
| dc.title.none.fl_str_mv |
Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais Sequence Slider optimization: a method for elucidating crystallographic structures from natural sources |
| title |
Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais |
| spellingShingle |
Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais Bruno, João Paulo Ballerini [UNESP] Aprendizado de máquinas Sequence Slider Toxinologia XGBoost Elucidação de estruturas |
| title_short |
Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais |
| title_full |
Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais |
| title_fullStr |
Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais |
| title_full_unstemmed |
Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais |
| title_sort |
Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais |
| author |
Bruno, João Paulo Ballerini [UNESP] |
| author_facet |
Bruno, João Paulo Ballerini [UNESP] |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Fontes, Marcos Roberto de Mattos [UNESP] Universidade Estadual Paulista (Unesp) Borges, Rafael Junqueira |
| dc.contributor.author.fl_str_mv |
Bruno, João Paulo Ballerini [UNESP] |
| dc.subject.por.fl_str_mv |
Aprendizado de máquinas Sequence Slider Toxinologia XGBoost Elucidação de estruturas |
| topic |
Aprendizado de máquinas Sequence Slider Toxinologia XGBoost Elucidação de estruturas |
| description |
A cristalografia desempenha papel essencial na elucidação dos mecanismos de ação de proteínas, por oferecer dados em nível atômico. Para elucidar a estrutura de uma macromolécula é fundamental o conhecimento da exata composição do seu cristal, o que geralmente é o caso de proteínas obtidas de forma recombinante. Porém, em diversas áreas de estudos, como na toxinologia, as amostras são geralmente obtidas através da purificação direta de fontes naturais, como por exemplo veneno de serpentes, onde propriedades físico-químicas semelhantes de isoformas podem dificultar seu isolamento. Na incapacidade de determinar uma única sequência em um cristal e na ausência de dados cristalográficos à resolução atômica, não existem métodos que auxiliem na elucidação destas estruturas ab initio. O método SEQUENCE SLIDER foi desenvolvido para avaliar diferentes possibilidades de cadeias laterais em um modelo cristalográfico no âmbito do faseamento no software ARCIMBOLDO e da incerteza da sequência na toxinologia. Nesta última finalidade, SLIDER integra dados de cristalografia, espectrometria de massa e análises filogenéticas. Assim, o objetivo deste trabalho foi otimizar SLIDER através da técnica de aprendizado de máquinas supervisionado eXtreme Gradient Boosting (XGBoost) sobre dados de análise de densidade eletrônica e do ambiente físico-químico de cada resíduo para estimar a atribuição do amino ácido correto. Foram utilizadas 41 estruturas cristalográficas de fosfolipases A2, 15 de receptores de porina e 149 metaloproteases, obtidas de fonte recombinante cuja sequência é conhecida para treinamento e teste da metodologia. Resultados obtidos apresentam acurácia de 94.3% a 98.4% para 16.919 resíduos. É esperado que a aplicação deste método a dados inéditos provenientes de proteínas purificadas a partir de fontes naturais com sequência desconhecida possa melhor caracterizar seus componentes e, consequentemente, auxiliar na compreensão de seus mecanismos de ação e estratégias de inibição. SLIDER ainda poderá auxiliar outros cristalógrafos e biologistas estruturais ao ser disponibilizado à comunidade científica e, utilizado em diferentes sistemas biológicos obtidos de fontes naturais. |
| publishDate |
2022 |
| dc.date.none.fl_str_mv |
2022-10-21 2024-10-08T19:45:41Z 2024-10-08T19:45:41Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
BRUNO, João Paulo Ballerini. Otimização do SEQUENCE SLIDER: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais. Orientador(a): Marcos Roberto de Mattos Fontes. Coorientador(a): Rafael Junqueira Borges. Dissertação (Mestrado em Biologia Geral e Aplicada) - Instituto de Biociências, Universidade Estadual Paulista (Unesp), Botucatu, 2022 https://hdl.handle.net/11449/257687 33004064080P3 4224662354659226 |
| identifier_str_mv |
BRUNO, João Paulo Ballerini. Otimização do SEQUENCE SLIDER: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais. Orientador(a): Marcos Roberto de Mattos Fontes. Coorientador(a): Rafael Junqueira Borges. Dissertação (Mestrado em Biologia Geral e Aplicada) - Instituto de Biociências, Universidade Estadual Paulista (Unesp), Botucatu, 2022 33004064080P3 4224662354659226 |
| url |
https://hdl.handle.net/11449/257687 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
| publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP |
| instname_str |
Universidade Estadual Paulista (UNESP) |
| instacron_str |
UNESP |
| institution |
UNESP |
| reponame_str |
Repositório Institucional da UNESP |
| collection |
Repositório Institucional da UNESP |
| repository.name.fl_str_mv |
Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP) |
| repository.mail.fl_str_mv |
repositoriounesp@unesp.br |
| _version_ |
1854954648989859840 |