Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna
Ano de defesa: | 2018 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | eng |
Instituição de defesa: |
Universidade Federal de Viçosa
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Área do conhecimento CNPq: | |
Link de acesso: | http://www.locus.ufv.br/handle/123456789/23926 |
Resumo: | Pequenos RNAs (sRNAs) são RNAs não codificantes (ncRNAs) com um tamanho de 50 a 500 nucleótidos e atuam principalmente como reguladores pós-transcrição. A predição de sRNAs é um problema aberto na bioinformática. As ferramentas computacionais atuais fornecem um alto número de falsos positivos. Desta forma, o desenvolvimento de métodos preditivos computacionais são de grande importância para reduzir o número de sequências putativas que implicam altos custos e tempos de validação em laboratório. Neste trabalho, reunimos uma série de atributos uti- lizados em métodos prévios, baseados em aprendizado de máquina para a predição de ncRNA, a fim de selecionar os melhores para classificar sequências putativas bac- terianas de sRNA. Dos 264 atributos coletados inicialmente, 22 atributos relevantes e não redundantes foram selecionados usando algoritmos de seleção de atributos. Para validar esta proposta, foi usado um conjunto de dados construído com sRNAs validados experimentalmente de diferentes sub-cepas de bactérias consideradas como organismos modelo em genética, assim como seqüências não-sRNA. Finalmente, o algoritmo de Random Forest foi usado com a finalidade de realizar a tarefa de classificação. A primeira validação da abordagem aqui proposta foi em sequências completas de sRNA em 6 conjuntos de testes. A abordagem proposta, apresentou melhores resultados do que a única ferramenta ab initio que pudemos encontrar na literatura. As características diferenciais do método proposto são o baixo custo computacional, redução de dimensionalidade e análise de poder analítico devido aos 22 atributos selecionados. Nossa abordagem atinge uma média de 80% de Precisão, 71,28% de Precisão, 82,11% de Especificidade e uma área sob a curva ROC de 0,879. Além disso, apresentamos um framework para a predição em genoma bacterianos de sRNAs, que apresenta uma taxa 39% menor de Falsos Positivos e o dobro da Especificidade do que o método ab initio acima mencionado. |
id |
UFV_a051119f074c27725a050be336560b66 |
---|---|
oai_identifier_str |
oai:locus.ufv.br:123456789/23926 |
network_acronym_str |
UFV |
network_name_str |
LOCUS Repositório Institucional da UFV |
repository_id_str |
|
spelling |
Silveira, Sabrina de AzevedoReinoso Vilca, Fabio IvanCerqueira, Fábio Ribeiro2019-03-14T14:09:30Z2019-03-14T14:09:30Z2018-02-23REINOSO VILCA, Fabio Ivan. Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna. 2018. 64 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2018.http://www.locus.ufv.br/handle/123456789/23926Pequenos RNAs (sRNAs) são RNAs não codificantes (ncRNAs) com um tamanho de 50 a 500 nucleótidos e atuam principalmente como reguladores pós-transcrição. A predição de sRNAs é um problema aberto na bioinformática. As ferramentas computacionais atuais fornecem um alto número de falsos positivos. Desta forma, o desenvolvimento de métodos preditivos computacionais são de grande importância para reduzir o número de sequências putativas que implicam altos custos e tempos de validação em laboratório. Neste trabalho, reunimos uma série de atributos uti- lizados em métodos prévios, baseados em aprendizado de máquina para a predição de ncRNA, a fim de selecionar os melhores para classificar sequências putativas bac- terianas de sRNA. Dos 264 atributos coletados inicialmente, 22 atributos relevantes e não redundantes foram selecionados usando algoritmos de seleção de atributos. Para validar esta proposta, foi usado um conjunto de dados construído com sRNAs validados experimentalmente de diferentes sub-cepas de bactérias consideradas como organismos modelo em genética, assim como seqüências não-sRNA. Finalmente, o algoritmo de Random Forest foi usado com a finalidade de realizar a tarefa de classificação. A primeira validação da abordagem aqui proposta foi em sequências completas de sRNA em 6 conjuntos de testes. A abordagem proposta, apresentou melhores resultados do que a única ferramenta ab initio que pudemos encontrar na literatura. As características diferenciais do método proposto são o baixo custo computacional, redução de dimensionalidade e análise de poder analítico devido aos 22 atributos selecionados. Nossa abordagem atinge uma média de 80% de Precisão, 71,28% de Precisão, 82,11% de Especificidade e uma área sob a curva ROC de 0,879. Além disso, apresentamos um framework para a predição em genoma bacterianos de sRNAs, que apresenta uma taxa 39% menor de Falsos Positivos e o dobro da Especificidade do que o método ab initio acima mencionado.Bacterial small RNAs (sRNAs) are usually non-coding RNAs (ncRNAs) with a size of 50–500 nucleotides, and act mainly as post-transcriptional regulators. Prediction of sRNAs is a challenging issue in bioinformatics. The current computational tools deliver a high number of false positives. Hence, the development of more precise predictive methods is of fundamental importance to narrow the number of costly and time-consuming sequence validations on the laboratory workbench. In this work, we collected a series of features from the existent computational tools for ncRNA prediction in order to select the best ones for classifying putative bacterial sRNA sequences. Out of the 264 initially-chosen features, 22 relevant and non-redundant features could be selected by using feature-selection algorithms. To validate this proposal we used a dataset built with only experimentally-validated sRNAs from different bacteria sub-strains, considered as model organisms in genetics, as well as non-sRNA sequences. Finally, a Random Forest algorithm was applied for the classification task. Our first validation experiment of this proposal covered the single sequence prediction task, using 6 testing sets. Our pipeline presented better results than the only ab initio method we could find in literature. The differentiating characteristics of our method are the lower computational cost, the dimensionality reduction and the analytic power analysis due to the single 22 features selected. Our approach could reach an average of 80% of Accuracy, 71.28% of Precision, 82.11% of Specificity and an area under the ROC curve of 0.879. Furthermore, we presented a Genome-wide framework to sRNA prediction, obtaining a 39% lower False Positive Ratio and the double of Specificity than the above-mentioned ab initio method.Fundação de Amparo à Pesquisa do Estado de Minas GeraisengUniversidade Federal de ViçosaMineração de dados (Computação)BioinformáticaRNAAprendizado do computadorCiência da ComputaçãoProposal of a data mining pipeline to improve ab initio prediction of bacterial small rnaProposta de uma pipeline de mineração de dados para melhorar a predição ab initio de pequenos rnas bacterianosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal de ViçosaDepartamento de InformáticaMestre em Ciência da ComputaçãoViçosa - MG2018-02-23Mestradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf1741340https://locus.ufv.br//bitstream/123456789/23926/1/texto%20completo.pdff1daa7d3433c81e68b957a36ce98aaecMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/23926/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/239262022-06-28 09:58:16.603oai:locus.ufv.br:123456789/23926Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452022-06-28T12:58:16LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false |
dc.title.en.fl_str_mv |
Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna |
dc.title.pt-BR.fl_str_mv |
Proposta de uma pipeline de mineração de dados para melhorar a predição ab initio de pequenos rnas bacterianos |
title |
Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna |
spellingShingle |
Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna Reinoso Vilca, Fabio Ivan Mineração de dados (Computação) Bioinformática RNA Aprendizado do computador Ciência da Computação |
title_short |
Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna |
title_full |
Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna |
title_fullStr |
Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna |
title_full_unstemmed |
Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna |
title_sort |
Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna |
author |
Reinoso Vilca, Fabio Ivan |
author_facet |
Reinoso Vilca, Fabio Ivan |
author_role |
author |
dc.contributor.none.fl_str_mv |
Silveira, Sabrina de Azevedo |
dc.contributor.author.fl_str_mv |
Reinoso Vilca, Fabio Ivan |
dc.contributor.advisor1.fl_str_mv |
Cerqueira, Fábio Ribeiro |
contributor_str_mv |
Cerqueira, Fábio Ribeiro |
dc.subject.pt-BR.fl_str_mv |
Mineração de dados (Computação) Bioinformática RNA Aprendizado do computador |
topic |
Mineração de dados (Computação) Bioinformática RNA Aprendizado do computador Ciência da Computação |
dc.subject.cnpq.fl_str_mv |
Ciência da Computação |
description |
Pequenos RNAs (sRNAs) são RNAs não codificantes (ncRNAs) com um tamanho de 50 a 500 nucleótidos e atuam principalmente como reguladores pós-transcrição. A predição de sRNAs é um problema aberto na bioinformática. As ferramentas computacionais atuais fornecem um alto número de falsos positivos. Desta forma, o desenvolvimento de métodos preditivos computacionais são de grande importância para reduzir o número de sequências putativas que implicam altos custos e tempos de validação em laboratório. Neste trabalho, reunimos uma série de atributos uti- lizados em métodos prévios, baseados em aprendizado de máquina para a predição de ncRNA, a fim de selecionar os melhores para classificar sequências putativas bac- terianas de sRNA. Dos 264 atributos coletados inicialmente, 22 atributos relevantes e não redundantes foram selecionados usando algoritmos de seleção de atributos. Para validar esta proposta, foi usado um conjunto de dados construído com sRNAs validados experimentalmente de diferentes sub-cepas de bactérias consideradas como organismos modelo em genética, assim como seqüências não-sRNA. Finalmente, o algoritmo de Random Forest foi usado com a finalidade de realizar a tarefa de classificação. A primeira validação da abordagem aqui proposta foi em sequências completas de sRNA em 6 conjuntos de testes. A abordagem proposta, apresentou melhores resultados do que a única ferramenta ab initio que pudemos encontrar na literatura. As características diferenciais do método proposto são o baixo custo computacional, redução de dimensionalidade e análise de poder analítico devido aos 22 atributos selecionados. Nossa abordagem atinge uma média de 80% de Precisão, 71,28% de Precisão, 82,11% de Especificidade e uma área sob a curva ROC de 0,879. Além disso, apresentamos um framework para a predição em genoma bacterianos de sRNAs, que apresenta uma taxa 39% menor de Falsos Positivos e o dobro da Especificidade do que o método ab initio acima mencionado. |
publishDate |
2018 |
dc.date.issued.fl_str_mv |
2018-02-23 |
dc.date.accessioned.fl_str_mv |
2019-03-14T14:09:30Z |
dc.date.available.fl_str_mv |
2019-03-14T14:09:30Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
REINOSO VILCA, Fabio Ivan. Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna. 2018. 64 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2018. |
dc.identifier.uri.fl_str_mv |
http://www.locus.ufv.br/handle/123456789/23926 |
identifier_str_mv |
REINOSO VILCA, Fabio Ivan. Proposal of a data mining pipeline to improve ab initio prediction of bacterial small rna. 2018. 64 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2018. |
url |
http://www.locus.ufv.br/handle/123456789/23926 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.source.none.fl_str_mv |
reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV |
instname_str |
Universidade Federal de Viçosa (UFV) |
instacron_str |
UFV |
institution |
UFV |
reponame_str |
LOCUS Repositório Institucional da UFV |
collection |
LOCUS Repositório Institucional da UFV |
bitstream.url.fl_str_mv |
https://locus.ufv.br//bitstream/123456789/23926/1/texto%20completo.pdf https://locus.ufv.br//bitstream/123456789/23926/2/license.txt |
bitstream.checksum.fl_str_mv |
f1daa7d3433c81e68b957a36ce98aaec 8a4605be74aa9ea9d79846c1fba20a33 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV) |
repository.mail.fl_str_mv |
fabiojreis@ufv.br |
_version_ |
1801213835127816192 |