Análise de dados de RNA-Seq com diferentes números de fatores e repetições
Ano de defesa: | 2015 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Viçosa
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Área do conhecimento CNPq: | |
Link de acesso: | http://www.locus.ufv.br/handle/123456789/7174 |
Resumo: | A tecnologia RNA-Seq mostrou-se ser revolucionária para o estudo de expressão gênica. Porém, mais estudos na literatura sobre a análise de dados de RNA-Seq são necessários, até mesmo porque se trata de um método de elevado custo. Devido a este alto custo, é importante o aproveitamento das amostras disponíveis para concluir sobre mais fatores e suas interações. Este trabalho tem como objetivo realizar um comparativo do desempenho da análise de identificação de DEGs (genes diferencialmente expressos) em experimentos com diferentes números de fatores e repetições, mas todos com o mesmo número de amostras, ou seja, com o mesmo custo. Para as análises, foram simulados conjuntos de dados provenientes de experimentos com diferentes números de fatores e repetições. Para a realização dessas simulações foi utilizado o pacote TCC, desenvolvido para o software livre R, para a normalização dos dados também foi utilizado o TCC, e para a identificação dos DEGs foi utilizado o pacote DESeq, também desenvolvido para o R. Por último, o desempenho das análises de cada experimento foi calculado utilizando-se curvas ROC (Receiver Operating Characteristics), usando-se o pacote ROCR, também disponível para o R. Após o cumprimento da metodologia, pôde-se observar que, na ausência de interação entre fatores, não ocorre perda de desempenho das análises ao adicionar mais fatores, e, quando existe interação entre fatores, ocorre essa perda. Portanto, o uso de mais fatores, ao custo de se ter menos repetições, pode ser vantajoso. |
id |
UFV_117ef439be886362d23fd6b8b218dd9f |
---|---|
oai_identifier_str |
oai:locus.ufv.br:123456789/7174 |
network_acronym_str |
UFV |
network_name_str |
LOCUS Repositório Institucional da UFV |
repository_id_str |
|
spelling |
Nascimento, MoysesSouza, Vladimir Barbosa Carlos dehttp://lattes.cnpq.br/7804746265517309Peternelli, Luiz Alexandre2016-01-12T15:37:38Z2016-01-12T15:37:38Z2015-07-22SOUZA, Vladimir Barbosa Carlos de. Análise de dados de RNA-Seq com diferentes números de fatores e repetições. 2015. 74 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2015.http://www.locus.ufv.br/handle/123456789/7174A tecnologia RNA-Seq mostrou-se ser revolucionária para o estudo de expressão gênica. Porém, mais estudos na literatura sobre a análise de dados de RNA-Seq são necessários, até mesmo porque se trata de um método de elevado custo. Devido a este alto custo, é importante o aproveitamento das amostras disponíveis para concluir sobre mais fatores e suas interações. Este trabalho tem como objetivo realizar um comparativo do desempenho da análise de identificação de DEGs (genes diferencialmente expressos) em experimentos com diferentes números de fatores e repetições, mas todos com o mesmo número de amostras, ou seja, com o mesmo custo. Para as análises, foram simulados conjuntos de dados provenientes de experimentos com diferentes números de fatores e repetições. Para a realização dessas simulações foi utilizado o pacote TCC, desenvolvido para o software livre R, para a normalização dos dados também foi utilizado o TCC, e para a identificação dos DEGs foi utilizado o pacote DESeq, também desenvolvido para o R. Por último, o desempenho das análises de cada experimento foi calculado utilizando-se curvas ROC (Receiver Operating Characteristics), usando-se o pacote ROCR, também disponível para o R. Após o cumprimento da metodologia, pôde-se observar que, na ausência de interação entre fatores, não ocorre perda de desempenho das análises ao adicionar mais fatores, e, quando existe interação entre fatores, ocorre essa perda. Portanto, o uso de mais fatores, ao custo de se ter menos repetições, pode ser vantajoso.The RNA-Seq technology show to be revolutionary for gene expression studies. However, more studies in literature about the analysis of RNA-Seq data are necessary, even because it is a costly method. Because of that high cost, it is important to take the full advantage of the available samples to conclude about more factors and its interactions. The aim of this work is to perform a comparative of the performance of DEGs (differential expression genes) identification analysis in experiments with different numbers of factors and replicates, but all of them with the same number of samples, or, in other words, with the same cost. For the analysis, was simulated a dataset from experiments with different numbers of factors and replicates. The package TCC, developed to the free software R, was used to perform that simulation. For the normalization of the data, TCC was also used, and for the DEGs identification the package DESeq was used, also developed to R. Finally, the performance of the analysis of each experiment was calculated with the use of ROC (Receiver Operating Characteristics) Curves, using the package ROCR, also available for R. After the implementation of the methodology, it was possible to observe that, when absence of interactions between factors, do not occur loss of analysis's performance when more factors are added, and, when there are interactions of factors, that loss happens. Therefore, the use of more factors, to the cost of having less replicates, may be advantageous.Fundação de Amparo à Pesquisa do Estado de Minas GeraisporUniversidade Federal de ViçosaBiologia molecularExpressão gênicaBioinformáticaAnálise de dados (Estatísticas)BiometriaCiências AgráriasAnálise de dados de RNA-Seq com diferentes números de fatores e repetiçõesAnalysis of RNA-Seq data with different numbers of factors and replicatesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal de ViçosaDepartamento de EstatísticaMestre em Estatística Aplicada e BiometriaViçosa - MG2015-07-22Mestradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf951571https://locus.ufv.br//bitstream/123456789/7174/1/texto%20completo.pdf4dbc5e1f76cd2f929b03b81a421aa366MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/7174/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52TEXTtexto completo.pdf.txttexto completo.pdf.txtExtracted texttext/plain143925https://locus.ufv.br//bitstream/123456789/7174/3/texto%20completo.pdf.txt36506118d4187aeda913267054ec763dMD53THUMBNAILtexto completo.pdf.jpgtexto completo.pdf.jpgIM Thumbnailimage/jpeg3470https://locus.ufv.br//bitstream/123456789/7174/4/texto%20completo.pdf.jpg810745cc32759821de6d2598877d75a3MD54123456789/71742016-04-11 23:16:47.308oai:locus.ufv.br:123456789/7174Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452016-04-12T02:16:47LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false |
dc.title.pt-BR.fl_str_mv |
Análise de dados de RNA-Seq com diferentes números de fatores e repetições |
dc.title.en.fl_str_mv |
Analysis of RNA-Seq data with different numbers of factors and replicates |
title |
Análise de dados de RNA-Seq com diferentes números de fatores e repetições |
spellingShingle |
Análise de dados de RNA-Seq com diferentes números de fatores e repetições Souza, Vladimir Barbosa Carlos de Biologia molecular Expressão gênica Bioinformática Análise de dados (Estatísticas) Biometria Ciências Agrárias |
title_short |
Análise de dados de RNA-Seq com diferentes números de fatores e repetições |
title_full |
Análise de dados de RNA-Seq com diferentes números de fatores e repetições |
title_fullStr |
Análise de dados de RNA-Seq com diferentes números de fatores e repetições |
title_full_unstemmed |
Análise de dados de RNA-Seq com diferentes números de fatores e repetições |
title_sort |
Análise de dados de RNA-Seq com diferentes números de fatores e repetições |
author |
Souza, Vladimir Barbosa Carlos de |
author_facet |
Souza, Vladimir Barbosa Carlos de |
author_role |
author |
dc.contributor.authorLattes.pt-BR.fl_str_mv |
http://lattes.cnpq.br/7804746265517309 |
dc.contributor.none.fl_str_mv |
Nascimento, Moyses |
dc.contributor.author.fl_str_mv |
Souza, Vladimir Barbosa Carlos de |
dc.contributor.advisor1.fl_str_mv |
Peternelli, Luiz Alexandre |
contributor_str_mv |
Peternelli, Luiz Alexandre |
dc.subject.pt-BR.fl_str_mv |
Biologia molecular Expressão gênica Bioinformática Análise de dados (Estatísticas) Biometria |
topic |
Biologia molecular Expressão gênica Bioinformática Análise de dados (Estatísticas) Biometria Ciências Agrárias |
dc.subject.cnpq.fl_str_mv |
Ciências Agrárias |
description |
A tecnologia RNA-Seq mostrou-se ser revolucionária para o estudo de expressão gênica. Porém, mais estudos na literatura sobre a análise de dados de RNA-Seq são necessários, até mesmo porque se trata de um método de elevado custo. Devido a este alto custo, é importante o aproveitamento das amostras disponíveis para concluir sobre mais fatores e suas interações. Este trabalho tem como objetivo realizar um comparativo do desempenho da análise de identificação de DEGs (genes diferencialmente expressos) em experimentos com diferentes números de fatores e repetições, mas todos com o mesmo número de amostras, ou seja, com o mesmo custo. Para as análises, foram simulados conjuntos de dados provenientes de experimentos com diferentes números de fatores e repetições. Para a realização dessas simulações foi utilizado o pacote TCC, desenvolvido para o software livre R, para a normalização dos dados também foi utilizado o TCC, e para a identificação dos DEGs foi utilizado o pacote DESeq, também desenvolvido para o R. Por último, o desempenho das análises de cada experimento foi calculado utilizando-se curvas ROC (Receiver Operating Characteristics), usando-se o pacote ROCR, também disponível para o R. Após o cumprimento da metodologia, pôde-se observar que, na ausência de interação entre fatores, não ocorre perda de desempenho das análises ao adicionar mais fatores, e, quando existe interação entre fatores, ocorre essa perda. Portanto, o uso de mais fatores, ao custo de se ter menos repetições, pode ser vantajoso. |
publishDate |
2015 |
dc.date.issued.fl_str_mv |
2015-07-22 |
dc.date.accessioned.fl_str_mv |
2016-01-12T15:37:38Z |
dc.date.available.fl_str_mv |
2016-01-12T15:37:38Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SOUZA, Vladimir Barbosa Carlos de. Análise de dados de RNA-Seq com diferentes números de fatores e repetições. 2015. 74 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2015. |
dc.identifier.uri.fl_str_mv |
http://www.locus.ufv.br/handle/123456789/7174 |
identifier_str_mv |
SOUZA, Vladimir Barbosa Carlos de. Análise de dados de RNA-Seq com diferentes números de fatores e repetições. 2015. 74 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2015. |
url |
http://www.locus.ufv.br/handle/123456789/7174 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.source.none.fl_str_mv |
reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV |
instname_str |
Universidade Federal de Viçosa (UFV) |
instacron_str |
UFV |
institution |
UFV |
reponame_str |
LOCUS Repositório Institucional da UFV |
collection |
LOCUS Repositório Institucional da UFV |
bitstream.url.fl_str_mv |
https://locus.ufv.br//bitstream/123456789/7174/1/texto%20completo.pdf https://locus.ufv.br//bitstream/123456789/7174/2/license.txt https://locus.ufv.br//bitstream/123456789/7174/3/texto%20completo.pdf.txt https://locus.ufv.br//bitstream/123456789/7174/4/texto%20completo.pdf.jpg |
bitstream.checksum.fl_str_mv |
4dbc5e1f76cd2f929b03b81a421aa366 8a4605be74aa9ea9d79846c1fba20a33 36506118d4187aeda913267054ec763d 810745cc32759821de6d2598877d75a3 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV) |
repository.mail.fl_str_mv |
fabiojreis@ufv.br |
_version_ |
1801213712257777664 |