RNAplonc: um classificador para identificação de longos RNAs não codificantes em plantas

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Negri, Tatianne da Costa
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/3415
Resumo: Long non-coding RNAs (lncRNAs) correspond to a non-coding RNA class that has gained emerging attention in the last years as a higher layer of regulation for gene expression in cells. There is, however, a lack of specific computational approaches to reliably predict lncRNA in plants, which contrast with the myriad of prediction tools available for mammalian lncRNAs. Given that the biological features and mechanisms generating lncRNAs in the cell are likely different between animals and plants, specific tools for plants is a need for these studies. With this in mind, we present here RNAplonc, a classifier approach for the identification of lncRNAs in plants from mRNA-based data. To build this tool, we used publicly available lncRNA and mRNA sequences from six plant genomes: Arabidopsis thaliana, Cucumis sativus, Glycine max, Oryza sativa, Populus trichocarpa and Setaria italica. This data was extracted from the public databases PLNlncRbase, GreeNC and Phytozome, from which we used 22.543 lncRNAs and 29.960 mRNAs as a training set. We selected 16 features that could best classify lncRNAs from 5.468 features with the REPTree algorithm for lncRNA. After an extensive comparison with tools used for lncRNA identification in plants (CPC) and animals (PLEK and lncRScan-SVM), we found that RNAplonc obtained a better accuracy (92%) in the training dataset when compared to the 77% of accuracy obtained with the CPC tool. We also found that RNAplonc produced more reliable lncRNA predictions from plant transcripts, as estimated for 17 datasets in 13 species from the CANTATAdb, GreeNC and PNRD databases. We also evaluated RNAplonc performance in two case studies that identified lncRNAs from Populus tomentosa and Gossypium, respectively. RNAplonc could correctly identify 98.5% of biologically validated lncRNAs in Populus and 99.1% in Gossypium. RNAplonc, its documentation and training datasets are available at the website: http://rnaplonc.cp.utfpr.edu.br/. We can conclude that RNAplonc retrieves correctly known plant lncRNAs. Moreover, RNAplonc can be a strategy for lncRNA discovery, providing a rich resource of candidate lncRNAs specifically for plants.
id UTFPR-12_6a6ff81045a87f223ab3763349ca2181
oai_identifier_str oai:repositorio.utfpr.edu.br:1/3415
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling RNAplonc: um classificador para identificação de longos RNAs não codificantes em plantasBioinformáticaPlantas - AnáliseBiologia - ClassificaçãoBioinformaticsPlants - AnalysisBiology - ClassificationCNPQ::CIENCIAS EXATAS E DA TERRAGenéticaLong non-coding RNAs (lncRNAs) correspond to a non-coding RNA class that has gained emerging attention in the last years as a higher layer of regulation for gene expression in cells. There is, however, a lack of specific computational approaches to reliably predict lncRNA in plants, which contrast with the myriad of prediction tools available for mammalian lncRNAs. Given that the biological features and mechanisms generating lncRNAs in the cell are likely different between animals and plants, specific tools for plants is a need for these studies. With this in mind, we present here RNAplonc, a classifier approach for the identification of lncRNAs in plants from mRNA-based data. To build this tool, we used publicly available lncRNA and mRNA sequences from six plant genomes: Arabidopsis thaliana, Cucumis sativus, Glycine max, Oryza sativa, Populus trichocarpa and Setaria italica. This data was extracted from the public databases PLNlncRbase, GreeNC and Phytozome, from which we used 22.543 lncRNAs and 29.960 mRNAs as a training set. We selected 16 features that could best classify lncRNAs from 5.468 features with the REPTree algorithm for lncRNA. After an extensive comparison with tools used for lncRNA identification in plants (CPC) and animals (PLEK and lncRScan-SVM), we found that RNAplonc obtained a better accuracy (92%) in the training dataset when compared to the 77% of accuracy obtained with the CPC tool. We also found that RNAplonc produced more reliable lncRNA predictions from plant transcripts, as estimated for 17 datasets in 13 species from the CANTATAdb, GreeNC and PNRD databases. We also evaluated RNAplonc performance in two case studies that identified lncRNAs from Populus tomentosa and Gossypium, respectively. RNAplonc could correctly identify 98.5% of biologically validated lncRNAs in Populus and 99.1% in Gossypium. RNAplonc, its documentation and training datasets are available at the website: http://rnaplonc.cp.utfpr.edu.br/. We can conclude that RNAplonc retrieves correctly known plant lncRNAs. Moreover, RNAplonc can be a strategy for lncRNA discovery, providing a rich resource of candidate lncRNAs specifically for plants.Fundação Araucária de Apoio ao Desenvolvimento Científico e Tecnológico do ParanáUniversidade Tecnológica Federal do Paraná (UTFPR)Longos RNAs não-codificantes (lncRNAs) pertencem a classe dos RNAs que não codificam proteínas e que estão relacionados às diversas funções biológicas, como modificações da cromatina, regulação pós-transcricional, tradução, organização nuclear e diversos processos de desenvolvimento. Atualmente há uma lacuna de abordagens computacionais específicas para a identificação de lncRNAs em plantas, em oposição à variedade de ferramentas disponíveis para mamíferos. Diferente do que ocorre para outras classes de RNAs não-codificantes, a distinção dos lncRNA entre plantas e animais ainda não está esclarecida. Dado este cenário, este trabalho apresenta o RNAplonc, uma abordagem para a identificação de lncRNAs em plantas. A base da construção foram sequências públicas de lncRNAs e mRNAs disponíveis de seis genomas de plantas: Arabidopsis thaliana, Cucumis sativus, Glycine max, Oryza sativa, Populus trichocarpa e Setaria italica. Foram usados 22.543 lncRNAs e 29.960 mRNAs como conjunto de treinamento a partir de bases de dados públicas PLNlncRbase, GreeNC e Phytozome. Ainda, avaliaram-se 5.468 características em 10 algoritmos de aprendizado de máquina. Os resultados obtidos pela análise de sensibilidade e especificidade de classificação permitiram selecionar 16 características com o algoritmo REPTree, alcançando 93% de acertos na classificação de lncRNAs. Em seguida, avaliou-se o desempenho do RNAplonc com uma ferramenta largamente utilizada para a identificação de lncRNA em plantas (CPC) e outras duas aplicadas para animais (PLEK e lncRScan-SVM). O RNAplonc obteve uma sensibilidade de 99,83% na identificação de lncRNAs no conjunto de dados de treinamento quando comparado com a ferramenta CPC. Ainda, avaliou-se o desempenho do RNAplonc em dois estudos de caso independente que identificaram com evidências biológicas lncRNAs em Populus e Gossypium, tendo assim obtido 98,5% e 99,1% dos lncRNAs identificados em Populus e Gossypium, respectivamente. Toda a documentação e os conjuntos de utilizados (treinamento e testes) estão disponíveis no endereço: http://rnaplonc.cp.utfpr.edu.br/. Por fim, acredita-se que o RNAplonc é uma estratégia para contribuir na descoberta de lncRNAs candidatos especificamente para plantas.Universidade Tecnológica Federal do ParanáCornelio ProcopioBrasilPrograma de Pós-Graduação em BioinformáticaUTFPRPaschoal, Alexandre Rossihttp://lattes.cnpq.br/5834088144837137Domingues, Douglas Silvahttp://lattes.cnpq.br/7905667701769534Paschoal, Alexandre RossiVitorello, Claudia Barros MonteiroWalter, Maria Emília Machado TellesNegri, Tatianne da Costa2018-09-04T13:00:53Z2018-09-04T13:00:53Z2017-08-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfNEGRI, Tatianne da Costa. RNAplonc: um classificador para identificação de Longos RNAs não codificantes em plantas. 2017. 47 f. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2017.http://repositorio.utfpr.edu.br/jspui/handle/1/3415porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2018-09-04T13:00:53Zoai:repositorio.utfpr.edu.br:1/3415Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2018-09-04T13:00:53Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv RNAplonc: um classificador para identificação de longos RNAs não codificantes em plantas
title RNAplonc: um classificador para identificação de longos RNAs não codificantes em plantas
spellingShingle RNAplonc: um classificador para identificação de longos RNAs não codificantes em plantas
Negri, Tatianne da Costa
Bioinformática
Plantas - Análise
Biologia - Classificação
Bioinformatics
Plants - Analysis
Biology - Classification
CNPQ::CIENCIAS EXATAS E DA TERRA
Genética
title_short RNAplonc: um classificador para identificação de longos RNAs não codificantes em plantas
title_full RNAplonc: um classificador para identificação de longos RNAs não codificantes em plantas
title_fullStr RNAplonc: um classificador para identificação de longos RNAs não codificantes em plantas
title_full_unstemmed RNAplonc: um classificador para identificação de longos RNAs não codificantes em plantas
title_sort RNAplonc: um classificador para identificação de longos RNAs não codificantes em plantas
author Negri, Tatianne da Costa
author_facet Negri, Tatianne da Costa
author_role author
dc.contributor.none.fl_str_mv Paschoal, Alexandre Rossi
http://lattes.cnpq.br/5834088144837137
Domingues, Douglas Silva
http://lattes.cnpq.br/7905667701769534
Paschoal, Alexandre Rossi
Vitorello, Claudia Barros Monteiro
Walter, Maria Emília Machado Telles
dc.contributor.author.fl_str_mv Negri, Tatianne da Costa
dc.subject.por.fl_str_mv Bioinformática
Plantas - Análise
Biologia - Classificação
Bioinformatics
Plants - Analysis
Biology - Classification
CNPQ::CIENCIAS EXATAS E DA TERRA
Genética
topic Bioinformática
Plantas - Análise
Biologia - Classificação
Bioinformatics
Plants - Analysis
Biology - Classification
CNPQ::CIENCIAS EXATAS E DA TERRA
Genética
description Long non-coding RNAs (lncRNAs) correspond to a non-coding RNA class that has gained emerging attention in the last years as a higher layer of regulation for gene expression in cells. There is, however, a lack of specific computational approaches to reliably predict lncRNA in plants, which contrast with the myriad of prediction tools available for mammalian lncRNAs. Given that the biological features and mechanisms generating lncRNAs in the cell are likely different between animals and plants, specific tools for plants is a need for these studies. With this in mind, we present here RNAplonc, a classifier approach for the identification of lncRNAs in plants from mRNA-based data. To build this tool, we used publicly available lncRNA and mRNA sequences from six plant genomes: Arabidopsis thaliana, Cucumis sativus, Glycine max, Oryza sativa, Populus trichocarpa and Setaria italica. This data was extracted from the public databases PLNlncRbase, GreeNC and Phytozome, from which we used 22.543 lncRNAs and 29.960 mRNAs as a training set. We selected 16 features that could best classify lncRNAs from 5.468 features with the REPTree algorithm for lncRNA. After an extensive comparison with tools used for lncRNA identification in plants (CPC) and animals (PLEK and lncRScan-SVM), we found that RNAplonc obtained a better accuracy (92%) in the training dataset when compared to the 77% of accuracy obtained with the CPC tool. We also found that RNAplonc produced more reliable lncRNA predictions from plant transcripts, as estimated for 17 datasets in 13 species from the CANTATAdb, GreeNC and PNRD databases. We also evaluated RNAplonc performance in two case studies that identified lncRNAs from Populus tomentosa and Gossypium, respectively. RNAplonc could correctly identify 98.5% of biologically validated lncRNAs in Populus and 99.1% in Gossypium. RNAplonc, its documentation and training datasets are available at the website: http://rnaplonc.cp.utfpr.edu.br/. We can conclude that RNAplonc retrieves correctly known plant lncRNAs. Moreover, RNAplonc can be a strategy for lncRNA discovery, providing a rich resource of candidate lncRNAs specifically for plants.
publishDate 2017
dc.date.none.fl_str_mv 2017-08-24
2018-09-04T13:00:53Z
2018-09-04T13:00:53Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv NEGRI, Tatianne da Costa. RNAplonc: um classificador para identificação de Longos RNAs não codificantes em plantas. 2017. 47 f. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2017.
http://repositorio.utfpr.edu.br/jspui/handle/1/3415
identifier_str_mv NEGRI, Tatianne da Costa. RNAplonc: um classificador para identificação de Longos RNAs não codificantes em plantas. 2017. 47 f. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2017.
url http://repositorio.utfpr.edu.br/jspui/handle/1/3415
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850498348358828032