Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: Reinoso Vilca, Fabio Ivan
Orientador(a): Cerqueira, Fábio Ribeiro
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de Viçosa
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Área do conhecimento CNPq:
Link de acesso: http://www.locus.ufv.br/handle/123456789/23926
Resumo: Pequenos RNAs (sRNAs) são RNAs não codificantes (ncRNAs) com um tamanho de 50 a 500 nucleótidos e atuam principalmente como reguladores pós-transcrição. A predição de sRNAs é um problema aberto na bioinformática. As ferramentas computacionais atuais fornecem um alto número de falsos positivos. Desta forma, o desenvolvimento de métodos preditivos computacionais são de grande importância para reduzir o número de sequências putativas que implicam altos custos e tempos de validação em laboratório. Neste trabalho, reunimos uma série de atributos uti- lizados em métodos prévios, baseados em aprendizado de máquina para a predição de ncRNA, a fim de selecionar os melhores para classificar sequências putativas bac- terianas de sRNA. Dos 264 atributos coletados inicialmente, 22 atributos relevantes e não redundantes foram selecionados usando algoritmos de seleção de atributos. Para validar esta proposta, foi usado um conjunto de dados construído com sRNAs validados experimentalmente de diferentes sub-cepas de bactérias consideradas como organismos modelo em genética, assim como seqüências não-sRNA. Finalmente, o algoritmo de Random Forest foi usado com a finalidade de realizar a tarefa de classificação. A primeira validação da abordagem aqui proposta foi em sequências completas de sRNA em 6 conjuntos de testes. A abordagem proposta, apresentou melhores resultados do que a única ferramenta ab initio que pudemos encontrar na literatura. As características diferenciais do método proposto são o baixo custo computacional, redução de dimensionalidade e análise de poder analítico devido aos 22 atributos selecionados. Nossa abordagem atinge uma média de 80% de Precisão, 71,28% de Precisão, 82,11% de Especificidade e uma área sob a curva ROC de 0,879. Além disso, apresentamos um framework para a predição em genoma bacterianos de sRNAs, que apresenta uma taxa 39% menor de Falsos Positivos e o dobro da Especificidade do que o método ab initio acima mencionado.
id UFV_a051119f074c27725a050be336560b66
oai_identifier_str oai:locus.ufv.br:123456789/23926
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str
spelling Silveira, Sabrina de AzevedoReinoso Vilca, Fabio IvanCerqueira, Fábio Ribeiro2019-03-14T14:09:30Z2019-03-14T14:09:30Z2018-02-23REINOSO VILCA, Fabio Ivan. Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna. 2018. 64 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2018.http://www.locus.ufv.br/handle/123456789/23926Pequenos RNAs (sRNAs) são RNAs não codificantes (ncRNAs) com um tamanho de 50 a 500 nucleótidos e atuam principalmente como reguladores pós-transcrição. A predição de sRNAs é um problema aberto na bioinformática. As ferramentas computacionais atuais fornecem um alto número de falsos positivos. Desta forma, o desenvolvimento de métodos preditivos computacionais são de grande importância para reduzir o número de sequências putativas que implicam altos custos e tempos de validação em laboratório. Neste trabalho, reunimos uma série de atributos uti- lizados em métodos prévios, baseados em aprendizado de máquina para a predição de ncRNA, a fim de selecionar os melhores para classificar sequências putativas bac- terianas de sRNA. Dos 264 atributos coletados inicialmente, 22 atributos relevantes e não redundantes foram selecionados usando algoritmos de seleção de atributos. Para validar esta proposta, foi usado um conjunto de dados construído com sRNAs validados experimentalmente de diferentes sub-cepas de bactérias consideradas como organismos modelo em genética, assim como seqüências não-sRNA. Finalmente, o algoritmo de Random Forest foi usado com a finalidade de realizar a tarefa de classificação. A primeira validação da abordagem aqui proposta foi em sequências completas de sRNA em 6 conjuntos de testes. A abordagem proposta, apresentou melhores resultados do que a única ferramenta ab initio que pudemos encontrar na literatura. As características diferenciais do método proposto são o baixo custo computacional, redução de dimensionalidade e análise de poder analítico devido aos 22 atributos selecionados. Nossa abordagem atinge uma média de 80% de Precisão, 71,28% de Precisão, 82,11% de Especificidade e uma área sob a curva ROC de 0,879. Além disso, apresentamos um framework para a predição em genoma bacterianos de sRNAs, que apresenta uma taxa 39% menor de Falsos Positivos e o dobro da Especificidade do que o método ab initio acima mencionado.Bacterial small RNAs (sRNAs) are usually non-coding RNAs (ncRNAs) with a size of 50–500 nucleotides, and act mainly as post-transcriptional regulators. Prediction of sRNAs is a challenging issue in bioinformatics. The current computational tools deliver a high number of false positives. Hence, the development of more precise predictive methods is of fundamental importance to narrow the number of costly and time-consuming sequence validations on the laboratory workbench. In this work, we collected a series of features from the existent computational tools for ncRNA prediction in order to select the best ones for classifying putative bacterial sRNA sequences. Out of the 264 initially-chosen features, 22 relevant and non-redundant features could be selected by using feature-selection algorithms. To validate this proposal we used a dataset built with only experimentally-validated sRNAs from different bacteria sub-strains, considered as model organisms in genetics, as well as non-sRNA sequences. Finally, a Random Forest algorithm was applied for the classification task. Our first validation experiment of this proposal covered the single sequence prediction task, using 6 testing sets. Our pipeline presented better results than the only ab initio method we could find in literature. The differentiating characteristics of our method are the lower computational cost, the dimensionality reduction and the analytic power analysis due to the single 22 features selected. Our approach could reach an average of 80% of Accuracy, 71.28% of Precision, 82.11% of Specificity and an area under the ROC curve of 0.879. Furthermore, we presented a Genome-wide framework to sRNA prediction, obtaining a 39% lower False Positive Ratio and the double of Specificity than the above-mentioned ab initio method.Fundação de Amparo à Pesquisa do Estado de Minas GeraisengUniversidade Federal de ViçosaMineração de dados (Computação)BioinformáticaRNAAprendizado do computadorCiência da ComputaçãoProposal of a data mining pipeline to improve ab initio prediction of bacterial small rnaProposta de uma pipeline de mineração de dados para melhorar a predição ab initio de pequenos rnas bacterianosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal de ViçosaDepartamento de InformáticaMestre em Ciência da ComputaçãoViçosa - MG2018-02-23Mestradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf1741340https://locus.ufv.br//bitstream/123456789/23926/1/texto%20completo.pdff1daa7d3433c81e68b957a36ce98aaecMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/23926/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/239262022-06-28 09:58:16.603oai:locus.ufv.br:123456789/23926Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452022-06-28T12:58:16LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.en.fl_str_mv Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna
dc.title.pt-BR.fl_str_mv Proposta de uma pipeline de mineração de dados para melhorar a predição ab initio de pequenos rnas bacterianos
title Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna
spellingShingle Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna
Reinoso Vilca, Fabio Ivan
Mineração de dados (Computação)
Bioinformática
RNA
Aprendizado do computador
Ciência da Computação
title_short Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna
title_full Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna
title_fullStr Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna
title_full_unstemmed Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna
title_sort Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna
author Reinoso Vilca, Fabio Ivan
author_facet Reinoso Vilca, Fabio Ivan
author_role author
dc.contributor.none.fl_str_mv Silveira, Sabrina de Azevedo
dc.contributor.author.fl_str_mv Reinoso Vilca, Fabio Ivan
dc.contributor.advisor1.fl_str_mv Cerqueira, Fábio Ribeiro
contributor_str_mv Cerqueira, Fábio Ribeiro
dc.subject.pt-BR.fl_str_mv Mineração de dados (Computação)
Bioinformática
RNA
Aprendizado do computador
topic Mineração de dados (Computação)
Bioinformática
RNA
Aprendizado do computador
Ciência da Computação
dc.subject.cnpq.fl_str_mv Ciência da Computação
description Pequenos RNAs (sRNAs) são RNAs não codificantes (ncRNAs) com um tamanho de 50 a 500 nucleótidos e atuam principalmente como reguladores pós-transcrição. A predição de sRNAs é um problema aberto na bioinformática. As ferramentas computacionais atuais fornecem um alto número de falsos positivos. Desta forma, o desenvolvimento de métodos preditivos computacionais são de grande importância para reduzir o número de sequências putativas que implicam altos custos e tempos de validação em laboratório. Neste trabalho, reunimos uma série de atributos uti- lizados em métodos prévios, baseados em aprendizado de máquina para a predição de ncRNA, a fim de selecionar os melhores para classificar sequências putativas bac- terianas de sRNA. Dos 264 atributos coletados inicialmente, 22 atributos relevantes e não redundantes foram selecionados usando algoritmos de seleção de atributos. Para validar esta proposta, foi usado um conjunto de dados construído com sRNAs validados experimentalmente de diferentes sub-cepas de bactérias consideradas como organismos modelo em genética, assim como seqüências não-sRNA. Finalmente, o algoritmo de Random Forest foi usado com a finalidade de realizar a tarefa de classificação. A primeira validação da abordagem aqui proposta foi em sequências completas de sRNA em 6 conjuntos de testes. A abordagem proposta, apresentou melhores resultados do que a única ferramenta ab initio que pudemos encontrar na literatura. As características diferenciais do método proposto são o baixo custo computacional, redução de dimensionalidade e análise de poder analítico devido aos 22 atributos selecionados. Nossa abordagem atinge uma média de 80% de Precisão, 71,28% de Precisão, 82,11% de Especificidade e uma área sob a curva ROC de 0,879. Além disso, apresentamos um framework para a predição em genoma bacterianos de sRNAs, que apresenta uma taxa 39% menor de Falsos Positivos e o dobro da Especificidade do que o método ab initio acima mencionado.
publishDate 2018
dc.date.issued.fl_str_mv 2018-02-23
dc.date.accessioned.fl_str_mv 2019-03-14T14:09:30Z
dc.date.available.fl_str_mv 2019-03-14T14:09:30Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv REINOSO VILCA, Fabio Ivan. Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna. 2018. 64 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2018.
dc.identifier.uri.fl_str_mv http://www.locus.ufv.br/handle/123456789/23926
identifier_str_mv REINOSO VILCA, Fabio Ivan. Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna. 2018. 64 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2018.
url http://www.locus.ufv.br/handle/123456789/23926
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv https://locus.ufv.br//bitstream/123456789/23926/1/texto%20completo.pdf
https://locus.ufv.br//bitstream/123456789/23926/2/license.txt
bitstream.checksum.fl_str_mv f1daa7d3433c81e68b957a36ce98aaec
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1794528717527056384