Análise de dados de RNA-Seq com diferentes números de fatores e repetições
Ano de defesa: | 2015 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Viçosa
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://www.locus.ufv.br/handle/123456789/7174 |
Resumo: | A tecnologia RNA-Seq mostrou-se ser revolucionária para o estudo de expressão gênica. Porém, mais estudos na literatura sobre a análise de dados de RNA-Seq são necessários, até mesmo porque se trata de um método de elevado custo. Devido a este alto custo, é importante o aproveitamento das amostras disponíveis para concluir sobre mais fatores e suas interações. Este trabalho tem como objetivo realizar um comparativo do desempenho da análise de identificação de DEGs (genes diferencialmente expressos) em experimentos com diferentes números de fatores e repetições, mas todos com o mesmo número de amostras, ou seja, com o mesmo custo. Para as análises, foram simulados conjuntos de dados provenientes de experimentos com diferentes números de fatores e repetições. Para a realização dessas simulações foi utilizado o pacote TCC, desenvolvido para o software livre R, para a normalização dos dados também foi utilizado o TCC, e para a identificação dos DEGs foi utilizado o pacote DESeq, também desenvolvido para o R. Por último, o desempenho das análises de cada experimento foi calculado utilizando-se curvas ROC (Receiver Operating Characteristics), usando-se o pacote ROCR, também disponível para o R. Após o cumprimento da metodologia, pôde-se observar que, na ausência de interação entre fatores, não ocorre perda de desempenho das análises ao adicionar mais fatores, e, quando existe interação entre fatores, ocorre essa perda. Portanto, o uso de mais fatores, ao custo de se ter menos repetições, pode ser vantajoso. |
id |
UFV_117ef439be886362d23fd6b8b218dd9f |
---|---|
oai_identifier_str |
oai:locus.ufv.br:123456789/7174 |
network_acronym_str |
UFV |
network_name_str |
LOCUS Repositório Institucional da UFV |
repository_id_str |
|
spelling |
Análise de dados de RNA-Seq com diferentes números de fatores e repetiçõesAnalysis of RNA-Seq data with different numbers of factors and replicatesBiologia molecularExpressão gênicaBioinformáticaAnálise de dados (Estatísticas)BiometriaCiências AgráriasA tecnologia RNA-Seq mostrou-se ser revolucionária para o estudo de expressão gênica. Porém, mais estudos na literatura sobre a análise de dados de RNA-Seq são necessários, até mesmo porque se trata de um método de elevado custo. Devido a este alto custo, é importante o aproveitamento das amostras disponíveis para concluir sobre mais fatores e suas interações. Este trabalho tem como objetivo realizar um comparativo do desempenho da análise de identificação de DEGs (genes diferencialmente expressos) em experimentos com diferentes números de fatores e repetições, mas todos com o mesmo número de amostras, ou seja, com o mesmo custo. Para as análises, foram simulados conjuntos de dados provenientes de experimentos com diferentes números de fatores e repetições. Para a realização dessas simulações foi utilizado o pacote TCC, desenvolvido para o software livre R, para a normalização dos dados também foi utilizado o TCC, e para a identificação dos DEGs foi utilizado o pacote DESeq, também desenvolvido para o R. Por último, o desempenho das análises de cada experimento foi calculado utilizando-se curvas ROC (Receiver Operating Characteristics), usando-se o pacote ROCR, também disponível para o R. Após o cumprimento da metodologia, pôde-se observar que, na ausência de interação entre fatores, não ocorre perda de desempenho das análises ao adicionar mais fatores, e, quando existe interação entre fatores, ocorre essa perda. Portanto, o uso de mais fatores, ao custo de se ter menos repetições, pode ser vantajoso.The RNA-Seq technology show to be revolutionary for gene expression studies. However, more studies in literature about the analysis of RNA-Seq data are necessary, even because it is a costly method. Because of that high cost, it is important to take the full advantage of the available samples to conclude about more factors and its interactions. The aim of this work is to perform a comparative of the performance of DEGs (differential expression genes) identification analysis in experiments with different numbers of factors and replicates, but all of them with the same number of samples, or, in other words, with the same cost. For the analysis, was simulated a dataset from experiments with different numbers of factors and replicates. The package TCC, developed to the free software R, was used to perform that simulation. For the normalization of the data, TCC was also used, and for the DEGs identification the package DESeq was used, also developed to R. Finally, the performance of the analysis of each experiment was calculated with the use of ROC (Receiver Operating Characteristics) Curves, using the package ROCR, also available for R. After the implementation of the methodology, it was possible to observe that, when absence of interactions between factors, do not occur loss of analysis's performance when more factors are added, and, when there are interactions of factors, that loss happens. Therefore, the use of more factors, to the cost of having less replicates, may be advantageous.Fundação de Amparo à Pesquisa do Estado de Minas GeraisUniversidade Federal de ViçosaPeternelli, Luiz Alexandrehttp://lattes.cnpq.br/7804746265517309Nascimento, MoysesSouza, Vladimir Barbosa Carlos de2016-01-12T15:37:38Z2016-01-12T15:37:38Z2015-07-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSOUZA, Vladimir Barbosa Carlos de. Análise de dados de RNA-Seq com diferentes números de fatores e repetições. 2015. 74 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2015.http://www.locus.ufv.br/handle/123456789/7174porinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFV2016-04-12T02:16:47Zoai:locus.ufv.br:123456789/7174Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452016-04-12T02:16:47LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false |
dc.title.none.fl_str_mv |
Análise de dados de RNA-Seq com diferentes números de fatores e repetições Analysis of RNA-Seq data with different numbers of factors and replicates |
title |
Análise de dados de RNA-Seq com diferentes números de fatores e repetições |
spellingShingle |
Análise de dados de RNA-Seq com diferentes números de fatores e repetições Souza, Vladimir Barbosa Carlos de Biologia molecular Expressão gênica Bioinformática Análise de dados (Estatísticas) Biometria Ciências Agrárias |
title_short |
Análise de dados de RNA-Seq com diferentes números de fatores e repetições |
title_full |
Análise de dados de RNA-Seq com diferentes números de fatores e repetições |
title_fullStr |
Análise de dados de RNA-Seq com diferentes números de fatores e repetições |
title_full_unstemmed |
Análise de dados de RNA-Seq com diferentes números de fatores e repetições |
title_sort |
Análise de dados de RNA-Seq com diferentes números de fatores e repetições |
author |
Souza, Vladimir Barbosa Carlos de |
author_facet |
Souza, Vladimir Barbosa Carlos de |
author_role |
author |
dc.contributor.none.fl_str_mv |
Peternelli, Luiz Alexandre http://lattes.cnpq.br/7804746265517309 Nascimento, Moyses |
dc.contributor.author.fl_str_mv |
Souza, Vladimir Barbosa Carlos de |
dc.subject.por.fl_str_mv |
Biologia molecular Expressão gênica Bioinformática Análise de dados (Estatísticas) Biometria Ciências Agrárias |
topic |
Biologia molecular Expressão gênica Bioinformática Análise de dados (Estatísticas) Biometria Ciências Agrárias |
description |
A tecnologia RNA-Seq mostrou-se ser revolucionária para o estudo de expressão gênica. Porém, mais estudos na literatura sobre a análise de dados de RNA-Seq são necessários, até mesmo porque se trata de um método de elevado custo. Devido a este alto custo, é importante o aproveitamento das amostras disponíveis para concluir sobre mais fatores e suas interações. Este trabalho tem como objetivo realizar um comparativo do desempenho da análise de identificação de DEGs (genes diferencialmente expressos) em experimentos com diferentes números de fatores e repetições, mas todos com o mesmo número de amostras, ou seja, com o mesmo custo. Para as análises, foram simulados conjuntos de dados provenientes de experimentos com diferentes números de fatores e repetições. Para a realização dessas simulações foi utilizado o pacote TCC, desenvolvido para o software livre R, para a normalização dos dados também foi utilizado o TCC, e para a identificação dos DEGs foi utilizado o pacote DESeq, também desenvolvido para o R. Por último, o desempenho das análises de cada experimento foi calculado utilizando-se curvas ROC (Receiver Operating Characteristics), usando-se o pacote ROCR, também disponível para o R. Após o cumprimento da metodologia, pôde-se observar que, na ausência de interação entre fatores, não ocorre perda de desempenho das análises ao adicionar mais fatores, e, quando existe interação entre fatores, ocorre essa perda. Portanto, o uso de mais fatores, ao custo de se ter menos repetições, pode ser vantajoso. |
publishDate |
2015 |
dc.date.none.fl_str_mv |
2015-07-22 2016-01-12T15:37:38Z 2016-01-12T15:37:38Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
SOUZA, Vladimir Barbosa Carlos de. Análise de dados de RNA-Seq com diferentes números de fatores e repetições. 2015. 74 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2015. http://www.locus.ufv.br/handle/123456789/7174 |
identifier_str_mv |
SOUZA, Vladimir Barbosa Carlos de. Análise de dados de RNA-Seq com diferentes números de fatores e repetições. 2015. 74 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2015. |
url |
http://www.locus.ufv.br/handle/123456789/7174 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.source.none.fl_str_mv |
reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV |
instname_str |
Universidade Federal de Viçosa (UFV) |
instacron_str |
UFV |
institution |
UFV |
reponame_str |
LOCUS Repositório Institucional da UFV |
collection |
LOCUS Repositório Institucional da UFV |
repository.name.fl_str_mv |
LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV) |
repository.mail.fl_str_mv |
fabiojreis@ufv.br |
_version_ |
1829585219516104704 |