Codificação de Seqüências deAminoácidos e sua Aplicação naClassificação de Proteínas com RedesNeurais Artificiais

Thiago de Souza Rodrigues

Codificação de Seqüências deAminoácidos e sua Aplicação naClassificação de Proteínas com RedesNeurais Artificiais

Detalhes bibliográficos
Ano de defesa:	2007
Autor(a) principal:	Thiago de Souza Rodrigues
Orientador(a):	Antonio de Padua Braga
Banca de defesa:	Ana Tereza Ribeiro Vasconcelos, Adrião Duarte Dória Neto, Walmir Matos Caminhas, Jadson Claudio Belchior
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Minas Gerais
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Classificação de proteínas Redes Neurais Artificiais Sequências de aminoácidos
Link de acesso:	http://hdl.handle.net/1843/GRFO-7JLQW3
Resumo:	Este trabalho visa propor um sistema de codificação de proteínas de modoque seqüências contendo diferentes quantidades de aminoácidos possamser convertidas em vetores de mesma dimensão para serem classificadasfuncionalmente por Redes Neurais Artificiais.O método proposto utiliza janelas deslizantes de tamanhos previamente definidos,que percorrem a seqüência a ser codificada de modo a resultar em um vetor con-tendoinformações sobre a seqüência propriamente dita. O esquema de codifica-çãodeve resultar em vetores não ambíguos, deve considerar a similaridade entreos aminoácidos e deve considerar pequenas regiões de similaridade dando umarelevância proporcional ao tamanho da janela deslizante.Uma comparação entre o método proposto e o método utilizado na literaturaé realizada, onde sequências de aminoácidos correspondentes às proteínas de 10bactérias foram codificadas e utilizadas para treinamento de Redes Neurais Artifi-ciaisa fim de classificar essas seqüências de acordo com as classes funcionais dabase de dados do Cluster of Orthologous Groups (COG).A comparação mostra a superioridade do esquema de codificação proposto vistoque a informação armazenada nos vetores resultantes permitiu que as Redes Neu-raisArtificiais classificassem corretamente os dois conjuntos de sequências de ami-noácidosde acordo com as classes funcionais do COG de várias sequências que nãohaviam sido anteriormente classificadas. As Redes Neurais Artificiais treinadascom os vetores gerados pelo esquema E-SCSW tiveram taxa de acerto que varioude 90, 2% à 100% para as proteínas da Chromobacterium violaceum e de 62, 5% à 100%para as proteínas da Chlamydophila felis.Todas as proteínas, cujos vetores correspondentes foram classificados pelas Re-desNeurais Artificiais de forma diferente com a classificação encontrada nos ban-cosde dados, tiveram sua classificação verificada através do alinhamento realizado pelo CD-Search e a base de dados do COG. As Redes Neurais Artificiais treinadascom os vetores gerados pelo esquema E-SCSW foram capazes de reclassificar cor-retamente184 proteínas da Chromobacterium violaceum e 94 proteínas da Chlamy-dophilafelis as quais haviam sido classificadas de maneira inconsistente nos bancode dados públicos.Este trabalho tem como principal contribuição um novo método de codificaçãode sequências de aminoácidos onde Redes Neurais Artificiais possam utilizar os ve-toresresultantes como conjunto de entrada. A verificação dos resultados mostrouque os bancos de dados públicos possuem algumas inconsistências e que as pro-teínasdepositadas necessitam ser verificadas com uma certa freqüência. O métodode codificação aqui proposto poderia portanto ser utilizado como um complementoaos métodos tradicionais de classificação de proteínas que utilizam como base oalinhamento par-a-par.

Metadados do item

id	UFMG_16f12ac1a690dc49865fce5b5f307521
oai_identifier_str	oai:repositorio.ufmg.br:1843/GRFO-7JLQW3
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Antonio de Padua BragaSantuza Maria Ribeiro TeixeiraSergio Costa OliveiraAna Tereza Ribeiro VasconcelosAdrião Duarte Dória NetoWalmir Matos CaminhasJadson Claudio BelchiorThiago de Souza Rodrigues2019-08-14T15:57:04Z2019-08-14T15:57:04Z2007-05-09http://hdl.handle.net/1843/GRFO-7JLQW3Este trabalho visa propor um sistema de codificação de proteínas de modoque seqüências contendo diferentes quantidades de aminoácidos possamser convertidas em vetores de mesma dimensão para serem classificadasfuncionalmente por Redes Neurais Artificiais.O método proposto utiliza janelas deslizantes de tamanhos previamente definidos,que percorrem a seqüência a ser codificada de modo a resultar em um vetor con-tendoinformações sobre a seqüência propriamente dita. O esquema de codifica-çãodeve resultar em vetores não ambíguos, deve considerar a similaridade entreos aminoácidos e deve considerar pequenas regiões de similaridade dando umarelevância proporcional ao tamanho da janela deslizante.Uma comparação entre o método proposto e o método utilizado na literaturaé realizada, onde sequências de aminoácidos correspondentes às proteínas de 10bactérias foram codificadas e utilizadas para treinamento de Redes Neurais Artifi-ciaisa fim de classificar essas seqüências de acordo com as classes funcionais dabase de dados do Cluster of Orthologous Groups (COG).A comparação mostra a superioridade do esquema de codificação proposto vistoque a informação armazenada nos vetores resultantes permitiu que as Redes Neu-raisArtificiais classificassem corretamente os dois conjuntos de sequências de ami-noácidosde acordo com as classes funcionais do COG de várias sequências que nãohaviam sido anteriormente classificadas. As Redes Neurais Artificiais treinadascom os vetores gerados pelo esquema E-SCSW tiveram taxa de acerto que varioude 90, 2% à 100% para as proteínas da Chromobacterium violaceum e de 62, 5% à 100%para as proteínas da Chlamydophila felis.Todas as proteínas, cujos vetores correspondentes foram classificados pelas Re-desNeurais Artificiais de forma diferente com a classificação encontrada nos ban-cosde dados, tiveram sua classificação verificada através do alinhamento realizado pelo CD-Search e a base de dados do COG. As Redes Neurais Artificiais treinadascom os vetores gerados pelo esquema E-SCSW foram capazes de reclassificar cor-retamente184 proteínas da Chromobacterium violaceum e 94 proteínas da Chlamy-dophilafelis as quais haviam sido classificadas de maneira inconsistente nos bancode dados públicos.Este trabalho tem como principal contribuição um novo método de codificaçãode sequências de aminoácidos onde Redes Neurais Artificiais possam utilizar os ve-toresresultantes como conjunto de entrada. A verificação dos resultados mostrouque os bancos de dados públicos possuem algumas inconsistências e que as pro-teínasdepositadas necessitam ser verificadas com uma certa freqüência. O métodode codificação aqui proposto poderia portanto ser utilizado como um complementoaos métodos tradicionais de classificação de proteínas que utilizam como base oalinhamento par-a-par.This work aims to develop a protein coding system in which sequences withdifferent numbers of amino acids can be converted in vectors with the samedimension to be functionally classified by Artificial Neural Networks.The proposed scheme uses sliding windows with previous defined length. Thesliding windows run over the sequence, and results in a vector containing informa-tionabout the sequence. The coding method must result in unambiguous vectors,must consider the similarity between amino acids and must consider small regionswith similarity in which the sliding windows must have a relevancy proporcional totheir length.In this word we presented a study of similarity and dissimilarity measure bet-weenamino acid sequences, where the pair-to-pair alignment is the metric morefrequently used. Some problems using the pair-to-pair alignment to measure dis-similarityis shown , where other metrics became more effective. In other to usethese metrics it is necessary a coding scheme called Sequence Coding by SlidingWindow, which generates vectors with the same dimension. This coding schemewas used to classify amino acid sequences using Artificial Neural Networks.We present a comparison between both coding schemes, in which amino acidssequences from proteins of 10 bacteria were coded and used to train Artificial NeuralNetworks to classify these sequences according to the Cluster of Orthologous Groups(COG). Two groups of sequences derived from proteins of Chromobacterium vio-laceumand Chlamydophila felis were selected in other to test our method.The comparison shows the superiority of the proposed coding scheme in whichthe information stored in the resulting vectors allows the Artificial Neural Networksto classify the two sets of proteins according the COG functional classes.All sequences that were classified in a different way by the Artificial NeuralNetworks, had its classification verified by CD-Search alignment against the COGdata base. The results showed that some sequences are classified incoherentlyin the public data bases. The Artificial Neural Networks trained with the vectorsgenerated by the E-SCSW scheme were able to classify correctly 184 sequencesderived from Chromobacterium violaceum and 94 from Chlamydophila felis.This work has the main contribution of developing a new protein coding methodin which Artificial Neural Networks are used. The verification of the results showedthat the public repositories contain some inconsistencies and that the amino acidsequences deposited should be verified in a frequent basis. The proposed codifica-tionmethod can thus be used as a complement to the traditional protein classifi-cationmethods which are based in a par-to-par alignment.Universidade Federal de Minas GeraisUFMGSequencia de aminoacidosRedes neurais (Neurobiologia)BioinformáticaClassificação de proteínasRedes Neurais ArtificiaisSequências de aminoácidosCodificação de Seqüências deAminoácidos e sua Aplicação naClassificação de Proteínas com RedesNeurais Artificiaisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALthiago_de_souza_rodrigues.pdfapplication/pdf1360322https://repositorio.ufmg.br/bitstream/1843/GRFO-7JLQW3/1/thiago_de_souza_rodrigues.pdf031bfc4f49b44daf8642bdc291b94b30MD51TEXTthiago_de_souza_rodrigues.pdf.txtthiago_de_souza_rodrigues.pdf.txtExtracted texttext/plain206210https://repositorio.ufmg.br/bitstream/1843/GRFO-7JLQW3/2/thiago_de_souza_rodrigues.pdf.txt2e1f297367c5adf7e0dee140d31e1df3MD521843/GRFO-7JLQW32019-11-14 14:57:59.186oai:repositorio.ufmg.br:1843/GRFO-7JLQW3Repositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T17:57:59Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Codificação de Seqüências deAminoácidos e sua Aplicação naClassificação de Proteínas com RedesNeurais Artificiais
title	Codificação de Seqüências deAminoácidos e sua Aplicação naClassificação de Proteínas com RedesNeurais Artificiais
spellingShingle	Codificação de Seqüências deAminoácidos e sua Aplicação naClassificação de Proteínas com RedesNeurais Artificiais Thiago de Souza Rodrigues Classificação de proteínas Redes Neurais Artificiais Sequências de aminoácidos Sequencia de aminoacidos Redes neurais (Neurobiologia) Bioinformática
title_short	Codificação de Seqüências deAminoácidos e sua Aplicação naClassificação de Proteínas com RedesNeurais Artificiais
title_full	Codificação de Seqüências deAminoácidos e sua Aplicação naClassificação de Proteínas com RedesNeurais Artificiais
title_fullStr	Codificação de Seqüências deAminoácidos e sua Aplicação naClassificação de Proteínas com RedesNeurais Artificiais
title_full_unstemmed	Codificação de Seqüências deAminoácidos e sua Aplicação naClassificação de Proteínas com RedesNeurais Artificiais
title_sort	Codificação de Seqüências deAminoácidos e sua Aplicação naClassificação de Proteínas com RedesNeurais Artificiais
author	Thiago de Souza Rodrigues
author_facet	Thiago de Souza Rodrigues
author_role	author
dc.contributor.advisor1.fl_str_mv	Antonio de Padua Braga
dc.contributor.advisor-co1.fl_str_mv	Santuza Maria Ribeiro Teixeira
dc.contributor.advisor-co2.fl_str_mv	Sergio Costa Oliveira
dc.contributor.referee1.fl_str_mv	Ana Tereza Ribeiro Vasconcelos
dc.contributor.referee2.fl_str_mv	Adrião Duarte Dória Neto
dc.contributor.referee3.fl_str_mv	Walmir Matos Caminhas
dc.contributor.referee4.fl_str_mv	Jadson Claudio Belchior
dc.contributor.author.fl_str_mv	Thiago de Souza Rodrigues
contributor_str_mv	Antonio de Padua Braga Santuza Maria Ribeiro Teixeira Sergio Costa Oliveira Ana Tereza Ribeiro Vasconcelos Adrião Duarte Dória Neto Walmir Matos Caminhas Jadson Claudio Belchior
dc.subject.por.fl_str_mv	Classificação de proteínas Redes Neurais Artificiais Sequências de aminoácidos
topic	Classificação de proteínas Redes Neurais Artificiais Sequências de aminoácidos Sequencia de aminoacidos Redes neurais (Neurobiologia) Bioinformática
dc.subject.other.pt_BR.fl_str_mv	Sequencia de aminoacidos Redes neurais (Neurobiologia) Bioinformática
description	Este trabalho visa propor um sistema de codificação de proteínas de modoque seqüências contendo diferentes quantidades de aminoácidos possamser convertidas em vetores de mesma dimensão para serem classificadasfuncionalmente por Redes Neurais Artificiais.O método proposto utiliza janelas deslizantes de tamanhos previamente definidos,que percorrem a seqüência a ser codificada de modo a resultar em um vetor con-tendoinformações sobre a seqüência propriamente dita. O esquema de codifica-çãodeve resultar em vetores não ambíguos, deve considerar a similaridade entreos aminoácidos e deve considerar pequenas regiões de similaridade dando umarelevância proporcional ao tamanho da janela deslizante.Uma comparação entre o método proposto e o método utilizado na literaturaé realizada, onde sequências de aminoácidos correspondentes às proteínas de 10bactérias foram codificadas e utilizadas para treinamento de Redes Neurais Artifi-ciaisa fim de classificar essas seqüências de acordo com as classes funcionais dabase de dados do Cluster of Orthologous Groups (COG).A comparação mostra a superioridade do esquema de codificação proposto vistoque a informação armazenada nos vetores resultantes permitiu que as Redes Neu-raisArtificiais classificassem corretamente os dois conjuntos de sequências de ami-noácidosde acordo com as classes funcionais do COG de várias sequências que nãohaviam sido anteriormente classificadas. As Redes Neurais Artificiais treinadascom os vetores gerados pelo esquema E-SCSW tiveram taxa de acerto que varioude 90, 2% à 100% para as proteínas da Chromobacterium violaceum e de 62, 5% à 100%para as proteínas da Chlamydophila felis.Todas as proteínas, cujos vetores correspondentes foram classificados pelas Re-desNeurais Artificiais de forma diferente com a classificação encontrada nos ban-cosde dados, tiveram sua classificação verificada através do alinhamento realizado pelo CD-Search e a base de dados do COG. As Redes Neurais Artificiais treinadascom os vetores gerados pelo esquema E-SCSW foram capazes de reclassificar cor-retamente184 proteínas da Chromobacterium violaceum e 94 proteínas da Chlamy-dophilafelis as quais haviam sido classificadas de maneira inconsistente nos bancode dados públicos.Este trabalho tem como principal contribuição um novo método de codificaçãode sequências de aminoácidos onde Redes Neurais Artificiais possam utilizar os ve-toresresultantes como conjunto de entrada. A verificação dos resultados mostrouque os bancos de dados públicos possuem algumas inconsistências e que as pro-teínasdepositadas necessitam ser verificadas com uma certa freqüência. O métodode codificação aqui proposto poderia portanto ser utilizado como um complementoaos métodos tradicionais de classificação de proteínas que utilizam como base oalinhamento par-a-par.
publishDate	2007
dc.date.issued.fl_str_mv	2007-05-09
dc.date.accessioned.fl_str_mv	2019-08-14T15:57:04Z
dc.date.available.fl_str_mv	2019-08-14T15:57:04Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/GRFO-7JLQW3
url	http://hdl.handle.net/1843/GRFO-7JLQW3
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv	UFMG
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/GRFO-7JLQW3/1/thiago_de_souza_rodrigues.pdf https://repositorio.ufmg.br/bitstream/1843/GRFO-7JLQW3/2/thiago_de_souza_rodrigues.pdf.txt
bitstream.checksum.fl_str_mv	031bfc4f49b44daf8642bdc291b94b30 2e1f297367c5adf7e0dee140d31e1df3
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1803589775843655680

Codificação de Seqüências deAminoácidos e sua Aplicação naClassificação de Proteínas com RedesNeurais Artificiais

Registros relacionados