Classificação estrutural de proteínas por meio de aprendizado não supervisionado

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Monteiro, Cleiton Rodrigues
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
Ciência da Computação
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://locus.ufv.br//handle/123456789/32255
Resumo: A bioinformática estrutural se dedica ao estudo das estruturas tridimensionais de proteínas e macromoléculas. Neste trabalho, o interesse está nas estruturas de pro- teínas. A disponibilização de novas sequências e estruturas proteicas em bases pú- blicas de dados tem ocorrido em um ritmo bastante acelerado, aumentando também a necessidade de métodos automáticos e eficientes para a extração e compreensão desse grande volume de dados. Segundo Gao et al. [2018], a bioinformática é uma ciência de mineração e interpretação de dados biológicos. Para eles, o fluxo con- tínuo e crescente desses dados, assim como a necessidade de abordar problemas biomédicos cada vez mais complexos, tem gerado oportunidades desafiadoras para pesquisadores de mineração de dados e aprendizagem de máquina. Diversas estraté- gias para classificação estrutural de proteínas têm sido propostas nos últimos anos, utilizando descritores baseados em sequência e estrutura. Nesta pesquisa, avaliou-se a possibilidade de classificação estrutural de proteínas utilizando métodos não su- pervisionados associados a características propostas com sucesso em um classificador estrutural bem estabelecido. Foram realizados experimentos utilizando 5 algoritmos de agrupamento de 4 diferentes paradigmas. A qualidade dos grupos foi avaliada por meio do Coeficiente de Silhueta e os rótulos previstos foram comparados às classes e superfamílias da base CATH, por meio do índice Fowlkes Mallows e da verificação de homogeneidade e completude dos grupos. Os resultados mostram a inviabilidade de classificação no nível classe, já que os índices alcançados com Fowlkes Mollows não chegaram a 60%. Por outro lado, eles indicam uma capacidade considerável de classificação no nível superfamília - foi alcançado com o método Complete-Link um índice superior a 70% no agrupamento geral. Os resultados são ainda mais inte- ressantes quando restringe-se o número de grupos, alcançando um índice de 78.5% para topologias com até 25 superfamílias e de 82.8% para topologias com até 5 su- perfamílias. Se considerados ainda, agrupamentos com índice igual ou superior a 85%, eles representam aproximadamente 40% das topologias utilizadas, sendo que deste grupo, quase metade dos agrupamentos (48.19%) obteve um índice de 100% de similaridade, ou seja, em cerca de 20% das topologias, todas as proteínas foram agrupadas corretamente.
id UFV_434569b00a89528befed5825c9204d26
oai_identifier_str oai:locus.ufv.br:123456789/32255
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str
spelling Classificação estrutural de proteínas por meio de aprendizado não supervisionadoProtein structural classification through unsupervised learningBioinformáticaProteínas - EstruturaAnálise por agrupamentoCiência da ComputaçãoA bioinformática estrutural se dedica ao estudo das estruturas tridimensionais de proteínas e macromoléculas. Neste trabalho, o interesse está nas estruturas de pro- teínas. A disponibilização de novas sequências e estruturas proteicas em bases pú- blicas de dados tem ocorrido em um ritmo bastante acelerado, aumentando também a necessidade de métodos automáticos e eficientes para a extração e compreensão desse grande volume de dados. Segundo Gao et al. [2018], a bioinformática é uma ciência de mineração e interpretação de dados biológicos. Para eles, o fluxo con- tínuo e crescente desses dados, assim como a necessidade de abordar problemas biomédicos cada vez mais complexos, tem gerado oportunidades desafiadoras para pesquisadores de mineração de dados e aprendizagem de máquina. Diversas estraté- gias para classificação estrutural de proteínas têm sido propostas nos últimos anos, utilizando descritores baseados em sequência e estrutura. Nesta pesquisa, avaliou-se a possibilidade de classificação estrutural de proteínas utilizando métodos não su- pervisionados associados a características propostas com sucesso em um classificador estrutural bem estabelecido. Foram realizados experimentos utilizando 5 algoritmos de agrupamento de 4 diferentes paradigmas. A qualidade dos grupos foi avaliada por meio do Coeficiente de Silhueta e os rótulos previstos foram comparados às classes e superfamílias da base CATH, por meio do índice Fowlkes Mallows e da verificação de homogeneidade e completude dos grupos. Os resultados mostram a inviabilidade de classificação no nível classe, já que os índices alcançados com Fowlkes Mollows não chegaram a 60%. Por outro lado, eles indicam uma capacidade considerável de classificação no nível superfamília - foi alcançado com o método Complete-Link um índice superior a 70% no agrupamento geral. Os resultados são ainda mais inte- ressantes quando restringe-se o número de grupos, alcançando um índice de 78.5% para topologias com até 25 superfamílias e de 82.8% para topologias com até 5 su- perfamílias. Se considerados ainda, agrupamentos com índice igual ou superior a 85%, eles representam aproximadamente 40% das topologias utilizadas, sendo que deste grupo, quase metade dos agrupamentos (48.19%) obteve um índice de 100% de similaridade, ou seja, em cerca de 20% das topologias, todas as proteínas foram agrupadas corretamente.Structural bioinformatics is dedicated to the study of three-dimensional structures of proteins and macromolecules. In this work, the interest is in protein structures. The availability of new sequences and protein structures in public databases has been occurring at a very fast pace, also increasing the need for automatic and effici- ent methods for extracting and understanding this large volume of data. According to Gao et al. [2018], bioinformatics is a science of mining and interpreting biological data. For them, the continuous and increasing flow of this data, as well as the need to address increasingly complex biomedical problems, has created challenging op- portunities for data mining and machine learning researchers. Several strategies for structural protein classification have been proposed in recent years using sequence and structure based descriptors. In this research, evaluated the possibility of struc- tural protein classification using unsupervised methods associated with successfully proposed characteristics in a well established structural classifier. Experiments were performed using 5 clustering algorithms from 4 different paradigms. The quality of the clusters was evaluated by the Silhouette Coefficient and the predicted labels were compared to the CATH database superfamily classifications using the Fowl- kes Mallows Index and the verification of clusters homogeneity and completeness. The results show the unfeasibility of class level classification, since the rates achie- ved with Fowlkes Mollows did not reach 60%. On the other hand, they indicate a considerable ability to classify at the superfamily level - an Index of over 70% was achieved with the Complete-Link method in the general clustering. The results are even more interesting when restricting the number of clusters, reaching an index of 78.5% for topologies with up to 25 superfamilies and 82.8% for topologies with up to 5 superfamilies. If still considered, clusters with an index equal to or greater than 85%, they represent approximately 40% of the topologies used, and of this group, almost half of the clusterings (48.19%) obtained a 100% similarity index, that is, in about 20% of the topologies, all proteins were clustered correctly.Universidade Federal de ViçosaCiência da ComputaçãoSilveira, Sabrina de Azevedohttp://lattes.cnpq.br/7327899182639244Comarela, Giovanni VentorimMonteiro, Cleiton Rodrigues2024-03-08T15:54:47Z2024-03-08T15:54:47Z2019-06-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfMONTEIRO, Cleiton Rodrigues. Classificação estrutural de proteínas por meio de aprendizado não supervisionado. 2019. 79 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2019.https://locus.ufv.br//handle/123456789/32255porinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFV2024-07-12T06:01:53Zoai:locus.ufv.br:123456789/32255Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452024-07-12T06:01:53LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.none.fl_str_mv Classificação estrutural de proteínas por meio de aprendizado não supervisionado
Protein structural classification through unsupervised learning
title Classificação estrutural de proteínas por meio de aprendizado não supervisionado
spellingShingle Classificação estrutural de proteínas por meio de aprendizado não supervisionado
Monteiro, Cleiton Rodrigues
Bioinformática
Proteínas - Estrutura
Análise por agrupamento
Ciência da Computação
title_short Classificação estrutural de proteínas por meio de aprendizado não supervisionado
title_full Classificação estrutural de proteínas por meio de aprendizado não supervisionado
title_fullStr Classificação estrutural de proteínas por meio de aprendizado não supervisionado
title_full_unstemmed Classificação estrutural de proteínas por meio de aprendizado não supervisionado
title_sort Classificação estrutural de proteínas por meio de aprendizado não supervisionado
author Monteiro, Cleiton Rodrigues
author_facet Monteiro, Cleiton Rodrigues
author_role author
dc.contributor.none.fl_str_mv Silveira, Sabrina de Azevedo
http://lattes.cnpq.br/7327899182639244
Comarela, Giovanni Ventorim
dc.contributor.author.fl_str_mv Monteiro, Cleiton Rodrigues
dc.subject.por.fl_str_mv Bioinformática
Proteínas - Estrutura
Análise por agrupamento
Ciência da Computação
topic Bioinformática
Proteínas - Estrutura
Análise por agrupamento
Ciência da Computação
description A bioinformática estrutural se dedica ao estudo das estruturas tridimensionais de proteínas e macromoléculas. Neste trabalho, o interesse está nas estruturas de pro- teínas. A disponibilização de novas sequências e estruturas proteicas em bases pú- blicas de dados tem ocorrido em um ritmo bastante acelerado, aumentando também a necessidade de métodos automáticos e eficientes para a extração e compreensão desse grande volume de dados. Segundo Gao et al. [2018], a bioinformática é uma ciência de mineração e interpretação de dados biológicos. Para eles, o fluxo con- tínuo e crescente desses dados, assim como a necessidade de abordar problemas biomédicos cada vez mais complexos, tem gerado oportunidades desafiadoras para pesquisadores de mineração de dados e aprendizagem de máquina. Diversas estraté- gias para classificação estrutural de proteínas têm sido propostas nos últimos anos, utilizando descritores baseados em sequência e estrutura. Nesta pesquisa, avaliou-se a possibilidade de classificação estrutural de proteínas utilizando métodos não su- pervisionados associados a características propostas com sucesso em um classificador estrutural bem estabelecido. Foram realizados experimentos utilizando 5 algoritmos de agrupamento de 4 diferentes paradigmas. A qualidade dos grupos foi avaliada por meio do Coeficiente de Silhueta e os rótulos previstos foram comparados às classes e superfamílias da base CATH, por meio do índice Fowlkes Mallows e da verificação de homogeneidade e completude dos grupos. Os resultados mostram a inviabilidade de classificação no nível classe, já que os índices alcançados com Fowlkes Mollows não chegaram a 60%. Por outro lado, eles indicam uma capacidade considerável de classificação no nível superfamília - foi alcançado com o método Complete-Link um índice superior a 70% no agrupamento geral. Os resultados são ainda mais inte- ressantes quando restringe-se o número de grupos, alcançando um índice de 78.5% para topologias com até 25 superfamílias e de 82.8% para topologias com até 5 su- perfamílias. Se considerados ainda, agrupamentos com índice igual ou superior a 85%, eles representam aproximadamente 40% das topologias utilizadas, sendo que deste grupo, quase metade dos agrupamentos (48.19%) obteve um índice de 100% de similaridade, ou seja, em cerca de 20% das topologias, todas as proteínas foram agrupadas corretamente.
publishDate 2019
dc.date.none.fl_str_mv 2019-06-25
2024-03-08T15:54:47Z
2024-03-08T15:54:47Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv MONTEIRO, Cleiton Rodrigues. Classificação estrutural de proteínas por meio de aprendizado não supervisionado. 2019. 79 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2019.
https://locus.ufv.br//handle/123456789/32255
identifier_str_mv MONTEIRO, Cleiton Rodrigues. Classificação estrutural de proteínas por meio de aprendizado não supervisionado. 2019. 79 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2019.
url https://locus.ufv.br//handle/123456789/32255
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
Ciência da Computação
publisher.none.fl_str_mv Universidade Federal de Viçosa
Ciência da Computação
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1855045555301908480