Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa

Detalhes bibliográficos
Ano de defesa: 2011
Autor(a) principal: Paula, Fernanda Vital de
Orientador(a): Silva, Fabyano Fonseca e lattes
Banca de defesa: Cecon, Paulo Roberto lattes, Santos, Gérson Rodrigues dos lattes, Caetano, Sidney Martins lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
Programa de Pós-Graduação: Mestrado em Estatística Aplicada e Biometria
Departamento: Estatística Aplicada e Biometria
País: BR
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://locus.ufv.br/handle/123456789/4038
Resumo: Expressed sequence tags (ESTs) surveys are a fundamental tools to identify genes in sequencing studies of various organisms. Given a EST preliminary sample from a certain cDNA library, several prediction statistical problems can arise. Particularly, to calculate the number of genes, Δ (t), which may be discovered in a future EST sample t times larger than the original sample is interesting. This and other ststistics, presented by Susko and Roger (2004), such as coverage and number of necessary readings to discover a new gene are useful for direct sequencing protocols by calculating the degree of redundancy of a cDNA library. This calculation seeks to maximize the obtaining of genes during a EST sequencing, however this is still seen as a costly procedure and adequacy techniques for reducing such costs is of fundamental importance. The present work has as objective to present the theoretical aspects of the methodology proposed by Susko and Roger (2004), to implement computationally the methodology in the free software R and mainly to propose a bayesian approach for estimating Δ (t). All the methodology was applied to two data sets: the first concerns two cDNA libraries from Mastigamoeba balamuthi organism and the second concerns two cDNA libraries from skin of F2 (Holstein × Gyr) bovine infested with the ticks Riphicephalus (Boophilus) microplus. For both data sets the interval estimates obtained for Δ (t) were significantly more accurate when the Bayesian inference was used, indicating that it is an aviable alternative for studies related to the calculation of the redundancy in analysis of ESTs.
id UFV_9b36db2de351423c6df617fece8836d3
oai_identifier_str oai:locus.ufv.br:123456789/4038
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str
spelling Paula, Fernanda Vital dehttp://lattes.cnpq.br/9279556456110004Nascimento, Carlos Souza dohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4734058H3Silva, Fabyano Fonseca ehttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4766260Z2Cecon, Paulo Robertohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788114T5Santos, Gérson Rodrigues doshttp://lattes.cnpq.br/0674757734832405Caetano, Sidney Martinshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4706384A92015-03-26T13:32:11Z2011-11-032015-03-26T13:32:11Z2011-02-11PAULA, Fernanda Vital de. Statistical methods applied to expressed sequence tag data analisys. 2011. 68 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa, 2011.http://locus.ufv.br/handle/123456789/4038Expressed sequence tags (ESTs) surveys are a fundamental tools to identify genes in sequencing studies of various organisms. Given a EST preliminary sample from a certain cDNA library, several prediction statistical problems can arise. Particularly, to calculate the number of genes, Δ (t), which may be discovered in a future EST sample t times larger than the original sample is interesting. This and other ststistics, presented by Susko and Roger (2004), such as coverage and number of necessary readings to discover a new gene are useful for direct sequencing protocols by calculating the degree of redundancy of a cDNA library. This calculation seeks to maximize the obtaining of genes during a EST sequencing, however this is still seen as a costly procedure and adequacy techniques for reducing such costs is of fundamental importance. The present work has as objective to present the theoretical aspects of the methodology proposed by Susko and Roger (2004), to implement computationally the methodology in the free software R and mainly to propose a bayesian approach for estimating Δ (t). All the methodology was applied to two data sets: the first concerns two cDNA libraries from Mastigamoeba balamuthi organism and the second concerns two cDNA libraries from skin of F2 (Holstein × Gyr) bovine infested with the ticks Riphicephalus (Boophilus) microplus. For both data sets the interval estimates obtained for Δ (t) were significantly more accurate when the Bayesian inference was used, indicating that it is an aviable alternative for studies related to the calculation of the redundancy in analysis of ESTs.Pesquisas de Expressed Sequence Tags (ESTs) são uma ferramenta fundamental para identificação de genes em estudos de seqüenciamento de vários organismos. Dado uma amostra preliminar de EST de uma certa biblioteca de cDNA, vários problemas estatísticos de predição podem surgir. Em particular, é de interesse calcular o número de genes, Δ(t), que podem ser descobertos em uma amostra futura de EST t vezes maior que a amostra original. Esta e outras estatísticas, apresentadas por Susko e Roger (2004), tais como cobertura e o número de leituras necessárias para se descobrir um novo gene são úteis para direcionar protocolos de sequenciamento por meio do cálculo do grau de redundância de uma biblioteca de cDNA. Este cálculo visa maximizar a obtenção de genes durante um sequenciamento de ESTs, porém, este ainda é visto como um procedimento de custo elevado e adequações de técnicas para redução de tal custo é de fundamental importância. O presente trabalho tem como objetivo apresentar os aspectos teóricos da metodologia proposta por Susko e Roger (2004), implementá-la computacionalmente no software livre R e principalmente propor uma abordagem bayesiana para a estimação de Δ(t). Toda a metodologia foi aplicada a dois conjuntos de dados: o primeiro diz respeito a duas bibliotecas de cDNA referentes ao organismo Mastigamoeba Balamuthi e o segundo a duas bibliotecas de cDNA referentes à pele de bovinos F2 (Holandês × Gir) infestados pelo carrapato Riphicephalus (Boophilus) microplus. Para os dois conjuntos de dados as estimativas por intervalo obtidas para Δ(t) foram consideravelmente mais precisas quando se utilizou a inferência bayesiana, indicando que a mesma apresenta-se como uma alternativa viável para estudos relacionados ao cálculo da redundância em análises de ESTs.Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorapplication/pdfporUniversidade Federal de ViçosaMestrado em Estatística Aplicada e BiometriaUFVBREstatística Aplicada e BiometriaBiblioteca de cDNA, Inferência bayesianaMCMCcDNA libraryBayesian inferenceMCMCCNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICAMétodos estatísticos aplicados à análise de dados de etiqueta de sequência expressaStatistical methods applied to expressed sequence tag data analisysinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdfapplication/pdf1269139https://locus.ufv.br//bitstream/123456789/4038/1/texto%20completo.pdffdc7582f5126976de599ae9dd1f052cdMD51TEXTtexto completo.pdf.txttexto completo.pdf.txtExtracted texttext/plain119230https://locus.ufv.br//bitstream/123456789/4038/2/texto%20completo.pdf.txt23e591036598f622fd458e03e64a4709MD52THUMBNAILtexto completo.pdf.jpgtexto completo.pdf.jpgIM Thumbnailimage/jpeg3581https://locus.ufv.br//bitstream/123456789/4038/3/texto%20completo.pdf.jpg363a4bdbb437848538fa7a7d65003d58MD53123456789/40382016-04-09 23:17:58.47oai:locus.ufv.br:123456789/4038Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452016-04-10T02:17:58LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.por.fl_str_mv Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa
dc.title.alternative.eng.fl_str_mv Statistical methods applied to expressed sequence tag data analisys
title Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa
spellingShingle Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa
Paula, Fernanda Vital de
Biblioteca de cDNA, Inferência bayesiana
MCMC
cDNA library
Bayesian inference
MCMC
CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA
title_short Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa
title_full Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa
title_fullStr Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa
title_full_unstemmed Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa
title_sort Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa
author Paula, Fernanda Vital de
author_facet Paula, Fernanda Vital de
author_role author
dc.contributor.authorLattes.por.fl_str_mv http://lattes.cnpq.br/9279556456110004
dc.contributor.author.fl_str_mv Paula, Fernanda Vital de
dc.contributor.advisor-co1.fl_str_mv Nascimento, Carlos Souza do
dc.contributor.advisor-co1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4734058H3
dc.contributor.advisor1.fl_str_mv Silva, Fabyano Fonseca e
dc.contributor.advisor1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4766260Z2
dc.contributor.referee1.fl_str_mv Cecon, Paulo Roberto
dc.contributor.referee1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788114T5
dc.contributor.referee2.fl_str_mv Santos, Gérson Rodrigues dos
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/0674757734832405
dc.contributor.referee3.fl_str_mv Caetano, Sidney Martins
dc.contributor.referee3Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4706384A9
contributor_str_mv Nascimento, Carlos Souza do
Silva, Fabyano Fonseca e
Cecon, Paulo Roberto
Santos, Gérson Rodrigues dos
Caetano, Sidney Martins
dc.subject.por.fl_str_mv Biblioteca de cDNA, Inferência bayesiana
MCMC
topic Biblioteca de cDNA, Inferência bayesiana
MCMC
cDNA library
Bayesian inference
MCMC
CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA
dc.subject.eng.fl_str_mv cDNA library
Bayesian inference
MCMC
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA
description Expressed sequence tags (ESTs) surveys are a fundamental tools to identify genes in sequencing studies of various organisms. Given a EST preliminary sample from a certain cDNA library, several prediction statistical problems can arise. Particularly, to calculate the number of genes, Δ (t), which may be discovered in a future EST sample t times larger than the original sample is interesting. This and other ststistics, presented by Susko and Roger (2004), such as coverage and number of necessary readings to discover a new gene are useful for direct sequencing protocols by calculating the degree of redundancy of a cDNA library. This calculation seeks to maximize the obtaining of genes during a EST sequencing, however this is still seen as a costly procedure and adequacy techniques for reducing such costs is of fundamental importance. The present work has as objective to present the theoretical aspects of the methodology proposed by Susko and Roger (2004), to implement computationally the methodology in the free software R and mainly to propose a bayesian approach for estimating Δ (t). All the methodology was applied to two data sets: the first concerns two cDNA libraries from Mastigamoeba balamuthi organism and the second concerns two cDNA libraries from skin of F2 (Holstein × Gyr) bovine infested with the ticks Riphicephalus (Boophilus) microplus. For both data sets the interval estimates obtained for Δ (t) were significantly more accurate when the Bayesian inference was used, indicating that it is an aviable alternative for studies related to the calculation of the redundancy in analysis of ESTs.
publishDate 2011
dc.date.available.fl_str_mv 2011-11-03
2015-03-26T13:32:11Z
dc.date.issued.fl_str_mv 2011-02-11
dc.date.accessioned.fl_str_mv 2015-03-26T13:32:11Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv PAULA, Fernanda Vital de. Statistical methods applied to expressed sequence tag data analisys. 2011. 68 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa, 2011.
dc.identifier.uri.fl_str_mv http://locus.ufv.br/handle/123456789/4038
identifier_str_mv PAULA, Fernanda Vital de. Statistical methods applied to expressed sequence tag data analisys. 2011. 68 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa, 2011.
url http://locus.ufv.br/handle/123456789/4038
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.publisher.program.fl_str_mv Mestrado em Estatística Aplicada e Biometria
dc.publisher.initials.fl_str_mv UFV
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Estatística Aplicada e Biometria
publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv https://locus.ufv.br//bitstream/123456789/4038/1/texto%20completo.pdf
https://locus.ufv.br//bitstream/123456789/4038/2/texto%20completo.pdf.txt
https://locus.ufv.br//bitstream/123456789/4038/3/texto%20completo.pdf.jpg
bitstream.checksum.fl_str_mv fdc7582f5126976de599ae9dd1f052cd
23e591036598f622fd458e03e64a4709
363a4bdbb437848538fa7a7d65003d58
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1794528685196312576