Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs
| Ano de defesa: | 2015 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de Viçosa
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://www.locus.ufv.br/handle/123456789/7585 |
Resumo: | Os microRNAs (miRNAs) são importantes reguladores da expressão gênica em plantas e animais. Assim, miRNAs estão envolvidos na maioria dos processos biológicos, tor- nando o estudo dessas moléculas um dos temas mais relevantes da biologia molecular atualmente. Uma estratégia para encontrar novos miRNAs é procurar seus precursores (pre-miRNAs), que são estruturas ligeiramente maiores (70-120 nt) e têm uma estru- tura secundária na forma de hairpin (grampo de cabelo). No entanto, caracterizar pre-miRNAs in vivo ainda é uma tarefa complexa. Como consequência disto, méto- dos in silico foram desenvolvidos para prever a localização genômica de pre-miRNAs. No entanto, as ferramentas computacionais atuais têm problemas de seletividade, isto é, uma grande quantidade de falsos positivos é reportada. Este trabalho apresenta uma extensão do método desenvolvido por Tempel e Tahi, 2012, com o objetivo de melhorar a seletividade através da técnica de aprendizagem de máquina denominada Random Forest, combinada com o método SMOTE, que lida com conjuntos de dados desbalanceados. Comparando o método proposto com outras importantes abordagens na literatura, mostramos que os procedimentos descritos neste trabalho puderam me- lhorar substancialmente a seletividade, sem comprometer a sensibilidade. Para três conjuntos de dados utilizados nos experimentos realizados, a abordagem proposta al- cançou pelo menos 97 % de sensibilidade e proporcionou um aumento de duas, vinte e seis vezes na seletividade, respectivamente, em comparação com os resultados de ferramentas computacionais atuais. |
| id |
UFV_b9f441bbaf2a66a7d5f759f46842ca41 |
|---|---|
| oai_identifier_str |
oai:locus.ufv.br:123456789/7585 |
| network_acronym_str |
UFV |
| network_name_str |
LOCUS Repositório Institucional da UFV |
| repository_id_str |
|
| spelling |
Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAsMirnacle: machine learning with SMOTE and random forest for improving se- lectivity in pre-miRNA ab initio predictionAprendizado do computadorBioinformáticaBiologia molecularÁcido ribonucleicoCiência da ComputaçãoOs microRNAs (miRNAs) são importantes reguladores da expressão gênica em plantas e animais. Assim, miRNAs estão envolvidos na maioria dos processos biológicos, tor- nando o estudo dessas moléculas um dos temas mais relevantes da biologia molecular atualmente. Uma estratégia para encontrar novos miRNAs é procurar seus precursores (pre-miRNAs), que são estruturas ligeiramente maiores (70-120 nt) e têm uma estru- tura secundária na forma de hairpin (grampo de cabelo). No entanto, caracterizar pre-miRNAs in vivo ainda é uma tarefa complexa. Como consequência disto, méto- dos in silico foram desenvolvidos para prever a localização genômica de pre-miRNAs. No entanto, as ferramentas computacionais atuais têm problemas de seletividade, isto é, uma grande quantidade de falsos positivos é reportada. Este trabalho apresenta uma extensão do método desenvolvido por Tempel e Tahi, 2012, com o objetivo de melhorar a seletividade através da técnica de aprendizagem de máquina denominada Random Forest, combinada com o método SMOTE, que lida com conjuntos de dados desbalanceados. Comparando o método proposto com outras importantes abordagens na literatura, mostramos que os procedimentos descritos neste trabalho puderam me- lhorar substancialmente a seletividade, sem comprometer a sensibilidade. Para três conjuntos de dados utilizados nos experimentos realizados, a abordagem proposta al- cançou pelo menos 97 % de sensibilidade e proporcionou um aumento de duas, vinte e seis vezes na seletividade, respectivamente, em comparação com os resultados de ferramentas computacionais atuais.MicroRNAs (miRNAs) are key gene expression regulators in plants and animals. Thus, miRNAs are involved in the majority of biological process, making the study of these molecules one of the most relevant topics of molecular biology nowadays. A strategy to find new miRNAs is to search for its precursors (pre-miRNAs), which are slightly lar- ger structures (70-120 nt) and have a hairpin structural form. However, characterizing pre-miRNAs in vivo is still a complex task. As a consequence, in silico methods were developed to predict the genomic location of pre-miRNAs. Nevertheless, the current computational tools have problems of selectivity, i.e., a higher number of false positives is reported. This work presents an extension of the method developed by Tempel and Tahi, 2012, with the aim of improving selectivity through machine learning techniques, namely, random forests combined with the SMOTE method that copes with imbalance datasets. Comparing our method with other important approaches in the literature, we have shown that our procedures could substantially improve selectivity without com- promising sensibility. For three datasets used in our experiments, our method achieved at least 97% of sensitivity and could deliver a two-fold, 20-fold, and 6-fold increase in selectivity, respectively, compared with the best results of current computational tools.Universidade Federal de ViçosaCerqueira, Fábio Ribeirohttp://lattes.cnpq.br/1307057738481189Oliveira, Alcione de PaivaMarques, Yuri Bento2016-04-29T11:11:26Z2016-04-29T11:11:26Z2015-12-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfMARQUES, Yuri Bento. Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs. 2015. 72 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2015.http://www.locus.ufv.br/handle/123456789/7585porinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFV2016-05-02T08:09:52Zoai:locus.ufv.br:123456789/7585Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452016-05-02T08:09:52LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false |
| dc.title.none.fl_str_mv |
Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs Mirnacle: machine learning with SMOTE and random forest for improving se- lectivity in pre-miRNA ab initio prediction |
| title |
Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs |
| spellingShingle |
Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs Marques, Yuri Bento Aprendizado do computador Bioinformática Biologia molecular Ácido ribonucleico Ciência da Computação |
| title_short |
Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs |
| title_full |
Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs |
| title_fullStr |
Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs |
| title_full_unstemmed |
Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs |
| title_sort |
Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs |
| author |
Marques, Yuri Bento |
| author_facet |
Marques, Yuri Bento |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Cerqueira, Fábio Ribeiro http://lattes.cnpq.br/1307057738481189 Oliveira, Alcione de Paiva |
| dc.contributor.author.fl_str_mv |
Marques, Yuri Bento |
| dc.subject.por.fl_str_mv |
Aprendizado do computador Bioinformática Biologia molecular Ácido ribonucleico Ciência da Computação |
| topic |
Aprendizado do computador Bioinformática Biologia molecular Ácido ribonucleico Ciência da Computação |
| description |
Os microRNAs (miRNAs) são importantes reguladores da expressão gênica em plantas e animais. Assim, miRNAs estão envolvidos na maioria dos processos biológicos, tor- nando o estudo dessas moléculas um dos temas mais relevantes da biologia molecular atualmente. Uma estratégia para encontrar novos miRNAs é procurar seus precursores (pre-miRNAs), que são estruturas ligeiramente maiores (70-120 nt) e têm uma estru- tura secundária na forma de hairpin (grampo de cabelo). No entanto, caracterizar pre-miRNAs in vivo ainda é uma tarefa complexa. Como consequência disto, méto- dos in silico foram desenvolvidos para prever a localização genômica de pre-miRNAs. No entanto, as ferramentas computacionais atuais têm problemas de seletividade, isto é, uma grande quantidade de falsos positivos é reportada. Este trabalho apresenta uma extensão do método desenvolvido por Tempel e Tahi, 2012, com o objetivo de melhorar a seletividade através da técnica de aprendizagem de máquina denominada Random Forest, combinada com o método SMOTE, que lida com conjuntos de dados desbalanceados. Comparando o método proposto com outras importantes abordagens na literatura, mostramos que os procedimentos descritos neste trabalho puderam me- lhorar substancialmente a seletividade, sem comprometer a sensibilidade. Para três conjuntos de dados utilizados nos experimentos realizados, a abordagem proposta al- cançou pelo menos 97 % de sensibilidade e proporcionou um aumento de duas, vinte e seis vezes na seletividade, respectivamente, em comparação com os resultados de ferramentas computacionais atuais. |
| publishDate |
2015 |
| dc.date.none.fl_str_mv |
2015-12-08 2016-04-29T11:11:26Z 2016-04-29T11:11:26Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
MARQUES, Yuri Bento. Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs. 2015. 72 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2015. http://www.locus.ufv.br/handle/123456789/7585 |
| identifier_str_mv |
MARQUES, Yuri Bento. Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs. 2015. 72 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2015. |
| url |
http://www.locus.ufv.br/handle/123456789/7585 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
| publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
| dc.source.none.fl_str_mv |
reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV |
| instname_str |
Universidade Federal de Viçosa (UFV) |
| instacron_str |
UFV |
| institution |
UFV |
| reponame_str |
LOCUS Repositório Institucional da UFV |
| collection |
LOCUS Repositório Institucional da UFV |
| repository.name.fl_str_mv |
LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV) |
| repository.mail.fl_str_mv |
fabiojreis@ufv.br |
| _version_ |
1855045577813786624 |