Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa

Detalhes bibliográficos
Ano de defesa: 2011
Autor(a) principal: Paula, Fernanda Vital de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
BR
Estatística Aplicada e Biometria
Mestrado em Estatística Aplicada e Biometria
UFV
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://locus.ufv.br/handle/123456789/4038
Resumo: Pesquisas de Expressed Sequence Tags (ESTs) são uma ferramenta fundamental para identificação de genes em estudos de seqüenciamento de vários organismos. Dado uma amostra preliminar de EST de uma certa biblioteca de cDNA, vários problemas estatísticos de predição podem surgir. Em particular, é de interesse calcular o número de genes, Δ(t), que podem ser descobertos em uma amostra futura de EST t vezes maior que a amostra original. Esta e outras estatísticas, apresentadas por Susko e Roger (2004), tais como cobertura e o número de leituras necessárias para se descobrir um novo gene são úteis para direcionar protocolos de sequenciamento por meio do cálculo do grau de redundância de uma biblioteca de cDNA. Este cálculo visa maximizar a obtenção de genes durante um sequenciamento de ESTs, porém, este ainda é visto como um procedimento de custo elevado e adequações de técnicas para redução de tal custo é de fundamental importância. O presente trabalho tem como objetivo apresentar os aspectos teóricos da metodologia proposta por Susko e Roger (2004), implementá-la computacionalmente no software livre R e principalmente propor uma abordagem bayesiana para a estimação de Δ(t). Toda a metodologia foi aplicada a dois conjuntos de dados: o primeiro diz respeito a duas bibliotecas de cDNA referentes ao organismo Mastigamoeba Balamuthi e o segundo a duas bibliotecas de cDNA referentes à pele de bovinos F2 (Holandês × Gir) infestados pelo carrapato Riphicephalus (Boophilus) microplus. Para os dois conjuntos de dados as estimativas por intervalo obtidas para Δ(t) foram consideravelmente mais precisas quando se utilizou a inferência bayesiana, indicando que a mesma apresenta-se como uma alternativa viável para estudos relacionados ao cálculo da redundância em análises de ESTs.
id UFV_9b36db2de351423c6df617fece8836d3
oai_identifier_str oai:locus.ufv.br:123456789/4038
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str
spelling Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressaStatistical methods applied to expressed sequence tag data analisysBiblioteca de cDNA, Inferência bayesianaMCMCcDNA libraryBayesian inferenceMCMCCNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICAPesquisas de Expressed Sequence Tags (ESTs) são uma ferramenta fundamental para identificação de genes em estudos de seqüenciamento de vários organismos. Dado uma amostra preliminar de EST de uma certa biblioteca de cDNA, vários problemas estatísticos de predição podem surgir. Em particular, é de interesse calcular o número de genes, Δ(t), que podem ser descobertos em uma amostra futura de EST t vezes maior que a amostra original. Esta e outras estatísticas, apresentadas por Susko e Roger (2004), tais como cobertura e o número de leituras necessárias para se descobrir um novo gene são úteis para direcionar protocolos de sequenciamento por meio do cálculo do grau de redundância de uma biblioteca de cDNA. Este cálculo visa maximizar a obtenção de genes durante um sequenciamento de ESTs, porém, este ainda é visto como um procedimento de custo elevado e adequações de técnicas para redução de tal custo é de fundamental importância. O presente trabalho tem como objetivo apresentar os aspectos teóricos da metodologia proposta por Susko e Roger (2004), implementá-la computacionalmente no software livre R e principalmente propor uma abordagem bayesiana para a estimação de Δ(t). Toda a metodologia foi aplicada a dois conjuntos de dados: o primeiro diz respeito a duas bibliotecas de cDNA referentes ao organismo Mastigamoeba Balamuthi e o segundo a duas bibliotecas de cDNA referentes à pele de bovinos F2 (Holandês × Gir) infestados pelo carrapato Riphicephalus (Boophilus) microplus. Para os dois conjuntos de dados as estimativas por intervalo obtidas para Δ(t) foram consideravelmente mais precisas quando se utilizou a inferência bayesiana, indicando que a mesma apresenta-se como uma alternativa viável para estudos relacionados ao cálculo da redundância em análises de ESTs.Expressed sequence tags (ESTs) surveys are a fundamental tools to identify genes in sequencing studies of various organisms. Given a EST preliminary sample from a certain cDNA library, several prediction statistical problems can arise. Particularly, to calculate the number of genes, Δ (t), which may be discovered in a future EST sample t times larger than the original sample is interesting. This and other ststistics, presented by Susko and Roger (2004), such as coverage and number of necessary readings to discover a new gene are useful for direct sequencing protocols by calculating the degree of redundancy of a cDNA library. This calculation seeks to maximize the obtaining of genes during a EST sequencing, however this is still seen as a costly procedure and adequacy techniques for reducing such costs is of fundamental importance. The present work has as objective to present the theoretical aspects of the methodology proposed by Susko and Roger (2004), to implement computationally the methodology in the free software R and mainly to propose a bayesian approach for estimating Δ (t). All the methodology was applied to two data sets: the first concerns two cDNA libraries from Mastigamoeba balamuthi organism and the second concerns two cDNA libraries from skin of F2 (Holstein × Gyr) bovine infested with the ticks Riphicephalus (Boophilus) microplus. For both data sets the interval estimates obtained for Δ (t) were significantly more accurate when the Bayesian inference was used, indicating that it is an aviable alternative for studies related to the calculation of the redundancy in analysis of ESTs.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade Federal de ViçosaBREstatística Aplicada e BiometriaMestrado em Estatística Aplicada e BiometriaUFVhttp://lattes.cnpq.br/9279556456110004Nascimento, Carlos Souza dohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4734058H3Silva, Fabyano Fonseca ehttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4766260Z2Cecon, Paulo Robertohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788114T5Santos, Gérson Rodrigues doshttp://lattes.cnpq.br/0674757734832405Caetano, Sidney Martinshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4706384A9Paula, Fernanda Vital de2015-03-26T13:32:11Z2011-11-032015-03-26T13:32:11Z2011-02-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfapplication/pdfPAULA, Fernanda Vital de. Statistical methods applied to expressed sequence tag data analisys. 2011. 68 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa, 2011.http://locus.ufv.br/handle/123456789/4038porinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFV2016-04-10T02:17:58Zoai:locus.ufv.br:123456789/4038Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452016-04-10T02:17:58LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.none.fl_str_mv Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa
Statistical methods applied to expressed sequence tag data analisys
title Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa
spellingShingle Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa
Paula, Fernanda Vital de
Biblioteca de cDNA, Inferência bayesiana
MCMC
cDNA library
Bayesian inference
MCMC
CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA
title_short Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa
title_full Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa
title_fullStr Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa
title_full_unstemmed Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa
title_sort Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa
author Paula, Fernanda Vital de
author_facet Paula, Fernanda Vital de
author_role author
dc.contributor.none.fl_str_mv http://lattes.cnpq.br/9279556456110004
Nascimento, Carlos Souza do
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4734058H3
Silva, Fabyano Fonseca e
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4766260Z2
Cecon, Paulo Roberto
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788114T5
Santos, Gérson Rodrigues dos
http://lattes.cnpq.br/0674757734832405
Caetano, Sidney Martins
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4706384A9
dc.contributor.author.fl_str_mv Paula, Fernanda Vital de
dc.subject.por.fl_str_mv Biblioteca de cDNA, Inferência bayesiana
MCMC
cDNA library
Bayesian inference
MCMC
CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA
topic Biblioteca de cDNA, Inferência bayesiana
MCMC
cDNA library
Bayesian inference
MCMC
CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA
description Pesquisas de Expressed Sequence Tags (ESTs) são uma ferramenta fundamental para identificação de genes em estudos de seqüenciamento de vários organismos. Dado uma amostra preliminar de EST de uma certa biblioteca de cDNA, vários problemas estatísticos de predição podem surgir. Em particular, é de interesse calcular o número de genes, Δ(t), que podem ser descobertos em uma amostra futura de EST t vezes maior que a amostra original. Esta e outras estatísticas, apresentadas por Susko e Roger (2004), tais como cobertura e o número de leituras necessárias para se descobrir um novo gene são úteis para direcionar protocolos de sequenciamento por meio do cálculo do grau de redundância de uma biblioteca de cDNA. Este cálculo visa maximizar a obtenção de genes durante um sequenciamento de ESTs, porém, este ainda é visto como um procedimento de custo elevado e adequações de técnicas para redução de tal custo é de fundamental importância. O presente trabalho tem como objetivo apresentar os aspectos teóricos da metodologia proposta por Susko e Roger (2004), implementá-la computacionalmente no software livre R e principalmente propor uma abordagem bayesiana para a estimação de Δ(t). Toda a metodologia foi aplicada a dois conjuntos de dados: o primeiro diz respeito a duas bibliotecas de cDNA referentes ao organismo Mastigamoeba Balamuthi e o segundo a duas bibliotecas de cDNA referentes à pele de bovinos F2 (Holandês × Gir) infestados pelo carrapato Riphicephalus (Boophilus) microplus. Para os dois conjuntos de dados as estimativas por intervalo obtidas para Δ(t) foram consideravelmente mais precisas quando se utilizou a inferência bayesiana, indicando que a mesma apresenta-se como uma alternativa viável para estudos relacionados ao cálculo da redundância em análises de ESTs.
publishDate 2011
dc.date.none.fl_str_mv 2011-11-03
2011-02-11
2015-03-26T13:32:11Z
2015-03-26T13:32:11Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv PAULA, Fernanda Vital de. Statistical methods applied to expressed sequence tag data analisys. 2011. 68 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa, 2011.
http://locus.ufv.br/handle/123456789/4038
identifier_str_mv PAULA, Fernanda Vital de. Statistical methods applied to expressed sequence tag data analisys. 2011. 68 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa, 2011.
url http://locus.ufv.br/handle/123456789/4038
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
BR
Estatística Aplicada e Biometria
Mestrado em Estatística Aplicada e Biometria
UFV
publisher.none.fl_str_mv Universidade Federal de Viçosa
BR
Estatística Aplicada e Biometria
Mestrado em Estatística Aplicada e Biometria
UFV
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1833927163540144128