Classificação de elementos transponíveis por redes neurais convolucionais

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Cruz, Murilo Horacio Pereira da
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/5309
Resumo: Transposable elements are the most represented sequences in eukaryotic genomes. They are capable to transpose and produce multiple copies throughout the host genome. By doing so, these sequences can produce a variety of effects on organisms, such as the regulation of gene expression. There are several kinds of these elements, which are classified in a hierarchic way into classes, orders and superfamílies. Few methods of the literature classify these sequences into the deeper levels of the classification hierarchy, such as superfamily. Moreover, most methods use handcrafted features, such as: k-mers; presence of ORF; presence of protein domains; and homology based search. These features could be inneficient for generalization to non homologous sequences and time-consuming. In this work, we introduce an approach, called Transposabel Element Representation Learner (TERL), which is capable to represent 1D sequences into 2D sequence images. Our approach is generic and can be used to classify any type of biological sequence in any level of the classification system, also it is flexible to the type of architecture to use for the classification. In this work we use seven databases to create nine data sets. These data sets were used in a series of 21 experiments designed to assess the performance of the methods TEclass, PASTEC and the proposed approach. TERL obtained an accuracy and F1-score of 0.95 and 0.71 respectively on the classification of 11 superfamilies. Considering accuracy and specificity our approach obtained 0.89 and 0.93 respectively on the classification of order sequences from a data set created with sequences from different organisms and from different databases. These results surpass the metrics obtained by TEclass and PASTEC. Our approach showed great advantage regarding the classification time, which is on average 76 times more efficient than TEclass and four orders of magnitude more efficient than PASTEC.
id UTFPR-12_fa15790918b6928667fdae3b1b8f1a74
oai_identifier_str oai:repositorio.utfpr.edu.br:1/5309
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Classificação de elementos transponíveis por redes neurais convolucionaisGenomaRedes neurais (Neurobiologia)ClassificaçãoGenomesNeural networks (Neurobiology)ClassificationCNPQ::CIENCIAS EXATAS E DA TERRAEngenharia/Tecnologia/GestãoTransposable elements are the most represented sequences in eukaryotic genomes. They are capable to transpose and produce multiple copies throughout the host genome. By doing so, these sequences can produce a variety of effects on organisms, such as the regulation of gene expression. There are several kinds of these elements, which are classified in a hierarchic way into classes, orders and superfamílies. Few methods of the literature classify these sequences into the deeper levels of the classification hierarchy, such as superfamily. Moreover, most methods use handcrafted features, such as: k-mers; presence of ORF; presence of protein domains; and homology based search. These features could be inneficient for generalization to non homologous sequences and time-consuming. In this work, we introduce an approach, called Transposabel Element Representation Learner (TERL), which is capable to represent 1D sequences into 2D sequence images. Our approach is generic and can be used to classify any type of biological sequence in any level of the classification system, also it is flexible to the type of architecture to use for the classification. In this work we use seven databases to create nine data sets. These data sets were used in a series of 21 experiments designed to assess the performance of the methods TEclass, PASTEC and the proposed approach. TERL obtained an accuracy and F1-score of 0.95 and 0.71 respectively on the classification of 11 superfamilies. Considering accuracy and specificity our approach obtained 0.89 and 0.93 respectively on the classification of order sequences from a data set created with sequences from different organisms and from different databases. These results surpass the metrics obtained by TEclass and PASTEC. Our approach showed great advantage regarding the classification time, which is on average 76 times more efficient than TEclass and four orders of magnitude more efficient than PASTEC.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Elementos transponíveis são o tipo de sequência mais presente nos genomas eucarióticos. Estes são capazes de se transpor e produzir múltiplas cópias ao longo do genoma hospedeiro. Devido a estas ações, estas sequências produzem uma variedade de efeitos nos organismos, como por exemplo podem atuar na regulação da expressão gênica. Existem diversos tipos destes elementos, os quais são classificados de maneira hierárquica em classes, ordens e superfamílias. Poucos métodos da literatura abordam a classificação nos níveis mais profundos da hierarquia, como o nível de superfamílias. Além disso, a maioria dos métodos da literatura utilizam características manualmente definidas como: k-mers; presença de ORF; presença de domínios proteicos; e busca por similaridade. Tais características podem ser ineficientes para atingir a generalização dos métodos e computacionalmente custosas. Neste trabalho é apresentada uma abordagem, denominada Transposabel Element Representation Learner (TERL), a qual é capaz de representar sequências 1D em uma imagem 2D da sequência. A abordagem proposta é genérica e pode ser utilizada para classificar qualquer tipo de sequência biológica em qualquer nível do sistema de classificação da mesma, além de ser flexível quanto ao tipo de arquitetura que pode ser utilizada. No presente trabalho sete bases de dados da literatura foram utilizadas para criar nove conjuntos de treinamento e teste. Estes conjuntos foram utilizados em uma série de 21 experimentos conduzidos para avaliar o desempenho da abordagem proposta e dos métodos TEclass e PASTEC da literatura. O TERL foi capaz de obter acurácia e F1-score de 0,95 e 0,71 respectivamente na classificação de 11 superfamílias e acurácia e especificidade de 0,89 e 0,93 respectivamente na classificação a nível de ordem de um conjunto com sequências de diversos organismos e bases de dados. Estes resultados superam os obtidos pelo TEclass e PASTEC. Outra grande vantagem apresentada pela abordagem proposta diz respeito ao tempo de classificação das sequências, sendo que o TERL é em média 76 vezes mais eficiente que o TEclass e quatro ordens de grandeza mais eficiente que o PASTEC.Universidade Tecnológica Federal do ParanáCornelio ProcopioBrasilPrograma de Pós-Graduação em BioinformáticaUTFPRBugatti, Pedro Henriquehttp://lattes.cnpq.br/2177467029991118Paschoal, Alexandre Rossi0000-0002-8887-0582http://lattes.cnpq.br/5834088144837137Fujita, Andréhttp://lattes.cnpq.br/0247990329725342Kashiwabara, Andre Yoshiakihttp://lattes.cnpq.br/3194328548975437Lopes, Fabricio Martinshttp://lattes.cnpq.br/1660070580824436Bugatti, Pedro Henriquehttp://lattes.cnpq.br/2177467029991118Cruz, Murilo Horacio Pereira da2020-10-27T01:06:31Z2020-10-27T01:06:31Z2020-03-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfCRUZ, Murilo Horacio Pereira da. Classificação de elementos transponíveis por redes neurais convolucionais. 2020. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2020.http://repositorio.utfpr.edu.br/jspui/handle/1/5309porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2020-10-27T06:01:09Zoai:repositorio.utfpr.edu.br:1/5309Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2020-10-27T06:01:09Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Classificação de elementos transponíveis por redes neurais convolucionais
title Classificação de elementos transponíveis por redes neurais convolucionais
spellingShingle Classificação de elementos transponíveis por redes neurais convolucionais
Cruz, Murilo Horacio Pereira da
Genoma
Redes neurais (Neurobiologia)
Classificação
Genomes
Neural networks (Neurobiology)
Classification
CNPQ::CIENCIAS EXATAS E DA TERRA
Engenharia/Tecnologia/Gestão
title_short Classificação de elementos transponíveis por redes neurais convolucionais
title_full Classificação de elementos transponíveis por redes neurais convolucionais
title_fullStr Classificação de elementos transponíveis por redes neurais convolucionais
title_full_unstemmed Classificação de elementos transponíveis por redes neurais convolucionais
title_sort Classificação de elementos transponíveis por redes neurais convolucionais
author Cruz, Murilo Horacio Pereira da
author_facet Cruz, Murilo Horacio Pereira da
author_role author
dc.contributor.none.fl_str_mv Bugatti, Pedro Henrique
http://lattes.cnpq.br/2177467029991118
Paschoal, Alexandre Rossi
0000-0002-8887-0582
http://lattes.cnpq.br/5834088144837137
Fujita, André
http://lattes.cnpq.br/0247990329725342
Kashiwabara, Andre Yoshiaki
http://lattes.cnpq.br/3194328548975437
Lopes, Fabricio Martins
http://lattes.cnpq.br/1660070580824436
Bugatti, Pedro Henrique
http://lattes.cnpq.br/2177467029991118
dc.contributor.author.fl_str_mv Cruz, Murilo Horacio Pereira da
dc.subject.por.fl_str_mv Genoma
Redes neurais (Neurobiologia)
Classificação
Genomes
Neural networks (Neurobiology)
Classification
CNPQ::CIENCIAS EXATAS E DA TERRA
Engenharia/Tecnologia/Gestão
topic Genoma
Redes neurais (Neurobiologia)
Classificação
Genomes
Neural networks (Neurobiology)
Classification
CNPQ::CIENCIAS EXATAS E DA TERRA
Engenharia/Tecnologia/Gestão
description Transposable elements are the most represented sequences in eukaryotic genomes. They are capable to transpose and produce multiple copies throughout the host genome. By doing so, these sequences can produce a variety of effects on organisms, such as the regulation of gene expression. There are several kinds of these elements, which are classified in a hierarchic way into classes, orders and superfamílies. Few methods of the literature classify these sequences into the deeper levels of the classification hierarchy, such as superfamily. Moreover, most methods use handcrafted features, such as: k-mers; presence of ORF; presence of protein domains; and homology based search. These features could be inneficient for generalization to non homologous sequences and time-consuming. In this work, we introduce an approach, called Transposabel Element Representation Learner (TERL), which is capable to represent 1D sequences into 2D sequence images. Our approach is generic and can be used to classify any type of biological sequence in any level of the classification system, also it is flexible to the type of architecture to use for the classification. In this work we use seven databases to create nine data sets. These data sets were used in a series of 21 experiments designed to assess the performance of the methods TEclass, PASTEC and the proposed approach. TERL obtained an accuracy and F1-score of 0.95 and 0.71 respectively on the classification of 11 superfamilies. Considering accuracy and specificity our approach obtained 0.89 and 0.93 respectively on the classification of order sequences from a data set created with sequences from different organisms and from different databases. These results surpass the metrics obtained by TEclass and PASTEC. Our approach showed great advantage regarding the classification time, which is on average 76 times more efficient than TEclass and four orders of magnitude more efficient than PASTEC.
publishDate 2020
dc.date.none.fl_str_mv 2020-10-27T01:06:31Z
2020-10-27T01:06:31Z
2020-03-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv CRUZ, Murilo Horacio Pereira da. Classificação de elementos transponíveis por redes neurais convolucionais. 2020. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2020.
http://repositorio.utfpr.edu.br/jspui/handle/1/5309
identifier_str_mv CRUZ, Murilo Horacio Pereira da. Classificação de elementos transponíveis por redes neurais convolucionais. 2020. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2020.
url http://repositorio.utfpr.edu.br/jspui/handle/1/5309
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850498259353600000