Exportação concluída — 

Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Bruno, João Paulo Ballerini [UNESP]
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/11449/257687
Resumo: A cristalografia desempenha papel essencial na elucidação dos mecanismos de ação de proteínas, por oferecer dados em nível atômico. Para elucidar a estrutura de uma macromolécula é fundamental o conhecimento da exata composição do seu cristal, o que geralmente é o caso de proteínas obtidas de forma recombinante. Porém, em diversas áreas de estudos, como na toxinologia, as amostras são geralmente obtidas através da purificação direta de fontes naturais, como por exemplo veneno de serpentes, onde propriedades físico-químicas semelhantes de isoformas podem dificultar seu isolamento. Na incapacidade de determinar uma única sequência em um cristal e na ausência de dados cristalográficos à resolução atômica, não existem métodos que auxiliem na elucidação destas estruturas ab initio. O método SEQUENCE SLIDER foi desenvolvido para avaliar diferentes possibilidades de cadeias laterais em um modelo cristalográfico no âmbito do faseamento no software ARCIMBOLDO e da incerteza da sequência na toxinologia. Nesta última finalidade, SLIDER integra dados de cristalografia, espectrometria de massa e análises filogenéticas. Assim, o objetivo deste trabalho foi otimizar SLIDER através da técnica de aprendizado de máquinas supervisionado eXtreme Gradient Boosting (XGBoost) sobre dados de análise de densidade eletrônica e do ambiente físico-químico de cada resíduo para estimar a atribuição do amino ácido correto. Foram utilizadas 41 estruturas cristalográficas de fosfolipases A2, 15 de receptores de porina e 149 metaloproteases, obtidas de fonte recombinante cuja sequência é conhecida para treinamento e teste da metodologia. Resultados obtidos apresentam acurácia de 94.3% a 98.4% para 16.919 resíduos. É esperado que a aplicação deste método a dados inéditos provenientes de proteínas purificadas a partir de fontes naturais com sequência desconhecida possa melhor caracterizar seus componentes e, consequentemente, auxiliar na compreensão de seus mecanismos de ação e estratégias de inibição. SLIDER ainda poderá auxiliar outros cristalógrafos e biologistas estruturais ao ser disponibilizado à comunidade científica e, utilizado em diferentes sistemas biológicos obtidos de fontes naturais.
id UNSP_42e4bd5107440e2bc813d482298f0f1d
oai_identifier_str oai:repositorio.unesp.br:11449/257687
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str
spelling Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturaisSequence Slider optimization: a method for elucidating crystallographic structures from natural sourcesAprendizado de máquinasSequence SliderToxinologiaXGBoostElucidação de estruturasA cristalografia desempenha papel essencial na elucidação dos mecanismos de ação de proteínas, por oferecer dados em nível atômico. Para elucidar a estrutura de uma macromolécula é fundamental o conhecimento da exata composição do seu cristal, o que geralmente é o caso de proteínas obtidas de forma recombinante. Porém, em diversas áreas de estudos, como na toxinologia, as amostras são geralmente obtidas através da purificação direta de fontes naturais, como por exemplo veneno de serpentes, onde propriedades físico-químicas semelhantes de isoformas podem dificultar seu isolamento. Na incapacidade de determinar uma única sequência em um cristal e na ausência de dados cristalográficos à resolução atômica, não existem métodos que auxiliem na elucidação destas estruturas ab initio. O método SEQUENCE SLIDER foi desenvolvido para avaliar diferentes possibilidades de cadeias laterais em um modelo cristalográfico no âmbito do faseamento no software ARCIMBOLDO e da incerteza da sequência na toxinologia. Nesta última finalidade, SLIDER integra dados de cristalografia, espectrometria de massa e análises filogenéticas. Assim, o objetivo deste trabalho foi otimizar SLIDER através da técnica de aprendizado de máquinas supervisionado eXtreme Gradient Boosting (XGBoost) sobre dados de análise de densidade eletrônica e do ambiente físico-químico de cada resíduo para estimar a atribuição do amino ácido correto. Foram utilizadas 41 estruturas cristalográficas de fosfolipases A2, 15 de receptores de porina e 149 metaloproteases, obtidas de fonte recombinante cuja sequência é conhecida para treinamento e teste da metodologia. Resultados obtidos apresentam acurácia de 94.3% a 98.4% para 16.919 resíduos. É esperado que a aplicação deste método a dados inéditos provenientes de proteínas purificadas a partir de fontes naturais com sequência desconhecida possa melhor caracterizar seus componentes e, consequentemente, auxiliar na compreensão de seus mecanismos de ação e estratégias de inibição. SLIDER ainda poderá auxiliar outros cristalógrafos e biologistas estruturais ao ser disponibilizado à comunidade científica e, utilizado em diferentes sistemas biológicos obtidos de fontes naturais.Crystallography plays an essential role for the understanding of the action mechanisms of proteins, as it offers atomic resolution data. In order to elucidate the structure of a macromolecule, it is fundamental to know its exact crystal composition, which is usually the case for recombinant proteins. However, in several areas of study, such as toxinology, samples are usually obtained through direct purification from natural source, such as snake venom, where similar physico-chemical properties of the toxins can cause its isolation to be a challenge. Thus, in case of the inability to determine a single sequence in a crystal and in the absence of crystallographic data at atomic resolution, there are no methods for aiding ab initio elucidation of structures. The SEQUENCE SLIDER software was developed to evaluate different side chains possibilities for a crystallographic model in the scope of the ARCIMBOLDO phasing method and the sequences uncertainty in toxinology. In this last aim, SLIDER integrates crystallographic, mass spectrometry and phylogenetic data. Therefore, the goal of this work was to optimize SLIDER through application of the supervised machine learning eXtreme Gradient Boosting (XGBoost) with data from electron density and to physico-chemical environment analysis of each residue to estimate the correct amino acid assignment. Train and test data are composed of 41 crystallographic structures of phospholipases A2, 15 porine receptors and 149 metaloproteases, obtained from recombinant source, whose sequence is known. Obtained results show accuracy ranging from 94.3% to 98.4% for 16.919 residues. It is expected that the application of the method to elucidate novel data from proteins purified from natural source with unknown sequence can better characterize their components and, consequently, aid action mechanisms comprehension and inhibition strategies developments. SLIDER may be able to assist other crystallographers and structural biologists as it will be available to the scientific community and, used for different biological systems whose source are natural.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: 88887.509942/2020-00CAPES: 88887.600744/2021-00Universidade Estadual Paulista (Unesp)Fontes, Marcos Roberto de Mattos [UNESP]Universidade Estadual Paulista (Unesp)Borges, Rafael JunqueiraBruno, João Paulo Ballerini [UNESP]2024-10-08T19:45:41Z2024-10-08T19:45:41Z2022-10-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfapplication/pdfBRUNO, João Paulo Ballerini. Otimização do SEQUENCE SLIDER: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais. Orientador(a): Marcos Roberto de Mattos Fontes. Coorientador(a): Rafael Junqueira Borges. Dissertação (Mestrado em Biologia Geral e Aplicada) - Instituto de Biociências, Universidade Estadual Paulista (Unesp), Botucatu, 2022https://hdl.handle.net/11449/25768733004064080P34224662354659226porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2025-10-23T15:43:10Zoai:repositorio.unesp.br:11449/257687Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462025-10-23T15:43:10Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais
Sequence Slider optimization: a method for elucidating crystallographic structures from natural sources
title Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais
spellingShingle Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais
Bruno, João Paulo Ballerini [UNESP]
Aprendizado de máquinas
Sequence Slider
Toxinologia
XGBoost
Elucidação de estruturas
title_short Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais
title_full Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais
title_fullStr Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais
title_full_unstemmed Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais
title_sort Otimização do Sequence Slider: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais
author Bruno, João Paulo Ballerini [UNESP]
author_facet Bruno, João Paulo Ballerini [UNESP]
author_role author
dc.contributor.none.fl_str_mv Fontes, Marcos Roberto de Mattos [UNESP]
Universidade Estadual Paulista (Unesp)
Borges, Rafael Junqueira
dc.contributor.author.fl_str_mv Bruno, João Paulo Ballerini [UNESP]
dc.subject.por.fl_str_mv Aprendizado de máquinas
Sequence Slider
Toxinologia
XGBoost
Elucidação de estruturas
topic Aprendizado de máquinas
Sequence Slider
Toxinologia
XGBoost
Elucidação de estruturas
description A cristalografia desempenha papel essencial na elucidação dos mecanismos de ação de proteínas, por oferecer dados em nível atômico. Para elucidar a estrutura de uma macromolécula é fundamental o conhecimento da exata composição do seu cristal, o que geralmente é o caso de proteínas obtidas de forma recombinante. Porém, em diversas áreas de estudos, como na toxinologia, as amostras são geralmente obtidas através da purificação direta de fontes naturais, como por exemplo veneno de serpentes, onde propriedades físico-químicas semelhantes de isoformas podem dificultar seu isolamento. Na incapacidade de determinar uma única sequência em um cristal e na ausência de dados cristalográficos à resolução atômica, não existem métodos que auxiliem na elucidação destas estruturas ab initio. O método SEQUENCE SLIDER foi desenvolvido para avaliar diferentes possibilidades de cadeias laterais em um modelo cristalográfico no âmbito do faseamento no software ARCIMBOLDO e da incerteza da sequência na toxinologia. Nesta última finalidade, SLIDER integra dados de cristalografia, espectrometria de massa e análises filogenéticas. Assim, o objetivo deste trabalho foi otimizar SLIDER através da técnica de aprendizado de máquinas supervisionado eXtreme Gradient Boosting (XGBoost) sobre dados de análise de densidade eletrônica e do ambiente físico-químico de cada resíduo para estimar a atribuição do amino ácido correto. Foram utilizadas 41 estruturas cristalográficas de fosfolipases A2, 15 de receptores de porina e 149 metaloproteases, obtidas de fonte recombinante cuja sequência é conhecida para treinamento e teste da metodologia. Resultados obtidos apresentam acurácia de 94.3% a 98.4% para 16.919 resíduos. É esperado que a aplicação deste método a dados inéditos provenientes de proteínas purificadas a partir de fontes naturais com sequência desconhecida possa melhor caracterizar seus componentes e, consequentemente, auxiliar na compreensão de seus mecanismos de ação e estratégias de inibição. SLIDER ainda poderá auxiliar outros cristalógrafos e biologistas estruturais ao ser disponibilizado à comunidade científica e, utilizado em diferentes sistemas biológicos obtidos de fontes naturais.
publishDate 2022
dc.date.none.fl_str_mv 2022-10-21
2024-10-08T19:45:41Z
2024-10-08T19:45:41Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv BRUNO, João Paulo Ballerini. Otimização do SEQUENCE SLIDER: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais. Orientador(a): Marcos Roberto de Mattos Fontes. Coorientador(a): Rafael Junqueira Borges. Dissertação (Mestrado em Biologia Geral e Aplicada) - Instituto de Biociências, Universidade Estadual Paulista (Unesp), Botucatu, 2022
https://hdl.handle.net/11449/257687
33004064080P3
4224662354659226
identifier_str_mv BRUNO, João Paulo Ballerini. Otimização do SEQUENCE SLIDER: um método de elucidação de estruturas cristalográficas provenientes de fontes naturais. Orientador(a): Marcos Roberto de Mattos Fontes. Coorientador(a): Rafael Junqueira Borges. Dissertação (Mestrado em Biologia Geral e Aplicada) - Instituto de Biociências, Universidade Estadual Paulista (Unesp), Botucatu, 2022
33004064080P3
4224662354659226
url https://hdl.handle.net/11449/257687
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv repositoriounesp@unesp.br
_version_ 1854954648989859840