Identificação estatística de regiões codificadoras de proteínas em seqüências de DNA

Detalhes bibliográficos
Ano de defesa: 2005
Autor(a) principal: Capua, Renatha Oliva
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Programa de Pós-Graduação em Computação
Computação
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
DNA
Link de acesso: https://app.uff.br/riuff/handle/1/17899
Resumo: The large number of genome sequencing projects in progress and the resulting increase in the volume of uncharacterized data has motivated the search for more precise and efficient computacional methods for identifying the structures that compose the DNA of living beings. In particular, due to its great importance, the search for protein coding regions has been the focus of research for at least twenty years. Coding regions carry in its nucleotides the information necessary to the cellular structures to produce proteins, fundamental component of most living organisms. The identification of coding regions in DNA sequences is still a difficult problem since the complex cellular mechanisms involved in the process of protein production are not completely known. In this dissertation, we have developed a statistical method for the identification of protein coding regions. The method is based on Bayes s theorem applied to strings of k consecutive DNA bases, where k is a parameter specified by the user. To compute the conditional and a priori probabilities needed by Bayes s theorem, we use certain hypotheses on the independence of codons and bases, and on the minimum size of coding and non-coding regions, that reduce the computational cost and the size of probability tables. In performed tests the proposed method has presented promising results.
id UFF-2_4bdbec37e997092df1586b5b463907bf
oai_identifier_str oai:app.uff.br:1/17899
network_acronym_str UFF-2
network_name_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str
spelling Identificação estatística de regiões codificadoras de proteínas em seqüências de DNACiência da computaçãoInteligência artificialBiologia computacionalDNAAnálise de seqüênciasTeorema de BayesRegiões codificadorasSeqüências codificadoras de proteínasReconhecimento de padrõesBioinformáticaProtein coding sequencesBayes s theoremPattern recognitionBioinformaticsCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAOThe large number of genome sequencing projects in progress and the resulting increase in the volume of uncharacterized data has motivated the search for more precise and efficient computacional methods for identifying the structures that compose the DNA of living beings. In particular, due to its great importance, the search for protein coding regions has been the focus of research for at least twenty years. Coding regions carry in its nucleotides the information necessary to the cellular structures to produce proteins, fundamental component of most living organisms. The identification of coding regions in DNA sequences is still a difficult problem since the complex cellular mechanisms involved in the process of protein production are not completely known. In this dissertation, we have developed a statistical method for the identification of protein coding regions. The method is based on Bayes s theorem applied to strings of k consecutive DNA bases, where k is a parameter specified by the user. To compute the conditional and a priori probabilities needed by Bayes s theorem, we use certain hypotheses on the independence of codons and bases, and on the minimum size of coding and non-coding regions, that reduce the computational cost and the size of probability tables. In performed tests the proposed method has presented promising results.O elevado número de projetos de seqüenciamento de genomas em andamento e a conseqüente geração de grandes quantidades de dados descaracterizados tem motivado a busca por métodoscomputacionais mais precisos e eficientes para a identificação das estruturas que compõem o DNA dos seres vivos. Em especial, devido a sua grande importância, destaca-se a busca por regiões codificadoras de proteínas, que vem sendo o foco de pesquisas há pelo menos vinte anos. Estas regiões armazenam em seus nucleotídeos a informação necessária às estruturas celulares para a fabricação das proteínas, componente fundamental da maioria dos organismos vivos. A identificação das regiões codificadoras nas seqüências de DNA ainda é um problema de difícil solução, uma vez que os complexos mecanismos celulares envolvidos no processo de fabricação das proteínas não são completamente conhecidos. Neste trabalho, desenvolvemos um método estatístico para a identificação das regiões codificadoras de proteínas. O método é baseado no teorema de Bayes aplicado a trechos de k bases consecutivas do DNA, onde k é um parâmetro especificado pelo usuário. Para o cálculo das probabilidades condicionais e a priori necessárias para o teorema de Bayes, usamos certas hipóteses sobre independência de bases e códons, e sobre o tamanho mínimo de regiões codificadoras e não-codificadoras, que reduzem o custo computacional e o tamanho das tabelas de probabilidade. Em testes realizados, o método proposto apresentou resultados promissores.Programa de Pós-Graduação em ComputaçãoComputaçãoLeitão, Helena Cristina da GamaCPF:01123245322http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4785003Z6Stolfi, JorgeCPF:38560908972http://lattes.cnpq.br/6824400602221355Figueiredo, Celina Miraglia Herrera deCPF:41320908122http://lattes.cnpq.br/3957046121364560Meidanis, JoaoCPF:41538729022http://lattes.cnpq.br/1313385414995585Carvalho, Alexandre Plastino deCPF:30090875322http://lattes.cnpq.br/4985266524417261Capua, Renatha Oliva2021-03-10T20:43:03Z2008-06-162021-03-10T20:43:03Z2005-11-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://app.uff.br/riuff/handle/1/17899porCC-BY-SAinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2021-03-10T20:43:03Zoai:app.uff.br:1/17899Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202021-03-10T20:43:03Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv Identificação estatística de regiões codificadoras de proteínas em seqüências de DNA
title Identificação estatística de regiões codificadoras de proteínas em seqüências de DNA
spellingShingle Identificação estatística de regiões codificadoras de proteínas em seqüências de DNA
Capua, Renatha Oliva
Ciência da computação
Inteligência artificial
Biologia computacional
DNA
Análise de seqüências
Teorema de Bayes
Regiões codificadoras
Seqüências codificadoras de proteínas
Reconhecimento de padrões
Bioinformática
Protein coding sequences
Bayes s theorem
Pattern recognition
Bioinformatics
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO
title_short Identificação estatística de regiões codificadoras de proteínas em seqüências de DNA
title_full Identificação estatística de regiões codificadoras de proteínas em seqüências de DNA
title_fullStr Identificação estatística de regiões codificadoras de proteínas em seqüências de DNA
title_full_unstemmed Identificação estatística de regiões codificadoras de proteínas em seqüências de DNA
title_sort Identificação estatística de regiões codificadoras de proteínas em seqüências de DNA
author Capua, Renatha Oliva
author_facet Capua, Renatha Oliva
author_role author
dc.contributor.none.fl_str_mv Leitão, Helena Cristina da Gama
CPF:01123245322
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4785003Z6
Stolfi, Jorge
CPF:38560908972
http://lattes.cnpq.br/6824400602221355
Figueiredo, Celina Miraglia Herrera de
CPF:41320908122
http://lattes.cnpq.br/3957046121364560
Meidanis, Joao
CPF:41538729022
http://lattes.cnpq.br/1313385414995585
Carvalho, Alexandre Plastino de
CPF:30090875322
http://lattes.cnpq.br/4985266524417261
dc.contributor.author.fl_str_mv Capua, Renatha Oliva
dc.subject.por.fl_str_mv Ciência da computação
Inteligência artificial
Biologia computacional
DNA
Análise de seqüências
Teorema de Bayes
Regiões codificadoras
Seqüências codificadoras de proteínas
Reconhecimento de padrões
Bioinformática
Protein coding sequences
Bayes s theorem
Pattern recognition
Bioinformatics
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO
topic Ciência da computação
Inteligência artificial
Biologia computacional
DNA
Análise de seqüências
Teorema de Bayes
Regiões codificadoras
Seqüências codificadoras de proteínas
Reconhecimento de padrões
Bioinformática
Protein coding sequences
Bayes s theorem
Pattern recognition
Bioinformatics
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO
description The large number of genome sequencing projects in progress and the resulting increase in the volume of uncharacterized data has motivated the search for more precise and efficient computacional methods for identifying the structures that compose the DNA of living beings. In particular, due to its great importance, the search for protein coding regions has been the focus of research for at least twenty years. Coding regions carry in its nucleotides the information necessary to the cellular structures to produce proteins, fundamental component of most living organisms. The identification of coding regions in DNA sequences is still a difficult problem since the complex cellular mechanisms involved in the process of protein production are not completely known. In this dissertation, we have developed a statistical method for the identification of protein coding regions. The method is based on Bayes s theorem applied to strings of k consecutive DNA bases, where k is a parameter specified by the user. To compute the conditional and a priori probabilities needed by Bayes s theorem, we use certain hypotheses on the independence of codons and bases, and on the minimum size of coding and non-coding regions, that reduce the computational cost and the size of probability tables. In performed tests the proposed method has presented promising results.
publishDate 2005
dc.date.none.fl_str_mv 2005-11-21
2008-06-16
2021-03-10T20:43:03Z
2021-03-10T20:43:03Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://app.uff.br/riuff/handle/1/17899
url https://app.uff.br/riuff/handle/1/17899
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC-BY-SA
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Programa de Pós-Graduação em Computação
Computação
publisher.none.fl_str_mv Programa de Pós-Graduação em Computação
Computação
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)
instname:Universidade Federal Fluminense (UFF)
instacron:UFF
instname_str Universidade Federal Fluminense (UFF)
instacron_str UFF
institution UFF
reponame_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv riuff@id.uff.br
_version_ 1802135786850615296