Um algoritmo quase-linear para arvores PQR e um esquema para clustering de sequencias expressas de cana-de-açucar

Detalhes bibliográficos
Ano de defesa: 2002
Autor(a) principal: Telles, Guilherme Pimentel, 1972-
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: [s.n.]
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/20.500.12733/1593865
Resumo: Orientador : João Meidanis
id UNICAMP-30_62bcd72dc7ec2f8df261b1da6ee2beb7
oai_identifier_str oai::280939
network_acronym_str UNICAMP-30
network_name_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository_id_str
spelling Um algoritmo quase-linear para arvores PQR e um esquema para clustering de sequencias expressas de cana-de-açucarEstruturas de dados (Computação)AlgoritmosGenomasCana-de-açúcarSequência de nucleotídeosOrientador : João MeidanisTese (doutorado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: Nesta tese apresentamos um algoritmo quase-linear para construir árvores PQR e o esquema para clustering de seqüências expressas que foi usado no projeto SUCEST (Sugarcane EST project).Uma árvore PQR é uma estrutura de dados capaz de resolver o problema dos uns consecutivos e outros problemas, como mapeamento físico de DNA, reconhecimento de grafos intervalo, otimização de circuitos lógicos e recuperação de dados. As árvores PQR são uma generalização das árvores PQ de Booth e Lueker e estão fundamentadas em propriedades algébricas sólidas. O algoritmo que apresentamos nesta tese se baseia nessas propriedades e é formado por um conjunto pequeno de padrões que modificam a árvore. Nosso algoritmo é mais eficiente que o algoritmo quadrático proposto originalmente por Meidanis e Munuera ao definir as árvores PQR e, embora não seja linear como o algoritmo para construir árvores PQ, acreditamos que ele contribui em direção a uma solução definitiva para o problema dos uns consecutivos. Clustering é o problema de categorização de um conjunto de objetos quando nem o número nem a composição das categorias é conhecido antecipadamente. Seqüências expressas ou ESTs (expressed sequence tags) são amostras de genes ativos extraídas das células de um organismo. Em um projeto genoma EST são obtidas milhares dessas seqüências que serão usadas como fonte para investigações por cientistas interessados nos processos celulares do organismo. O clustering de seqüências expressas é necessário para avaliar e reduzir a redundância do conjunto de ESTs. Nesta tese apresentamos o esquema de clustering usado no projeto da cana-de-açúcar, que produziu aproximadamente 300.000 ESTs. O esquema que apresentamos substituiu um esquema pré-existente e se caracteriza por uma limpeza prévia intensiva dos ESTs e pelo uso de um montador de genomas para agrupá-los. Acreditamos que este esquema possa ser utilizado em outros projetos do gêneroAbstract: In this thesis we introduce an almost-linear algorithm for building PQR trees and the method for expressed sequence tags clustering used in the SUCEST project (Sugarcane EST Project). A PQR tree is a structure that can be used to solve many problems, as the consecutive ones problem, DNA physical mapping, interval graphs recognition and data retrieval. PQR trees are a generalization of Booth and Lueker's PQ trees, and are founded on solid algebraic properties. The algorithm we present in this work is based on such properties and is composed by a small set of well-organized patterns. Our algorithm is more efficient than the quadratic one proposed by Meidanis and Munuera, who defined the PQR trees, and, although not linear as the algorithm for PQ trees construction, we believe that it contributes for a definite solution for the consecutive ones problem. Clustering is the problem of categorizing a set of objects when neither the number of categories nor the composition of the categories is known. Expressed sequence tags (ESTs) are samples from active genes extracted from cells of an organism. In an EST project, thousands of ESTs are produced and used as a source for research. Clustering ESTs is necessary to reduce the redundancy in the set of sequences. In this thesis we introduce the method used in the Sugarcane EST Project, that produced almost 300,000 sequences. The method we introduce in this work replaced another one that had problems. Our scheme include an intensive trimming of the ESTs and the use of a genome assembler for the whole set of sequences. We believe that our scheme may be used in other EST projectsDoutoradoDoutor em Ciência da Computação[s.n.]Meidanis, João, 1960-Laber, Eduardo SanyMandel, ArnaldoMoura, Arnaldo VieiraStolfi, JorgeUniversidade Estadual de Campinas (UNICAMP). Instituto de ComputaçãoPrograma de Pós-Graduação não informadoUNIVERSIDADE ESTADUAL DE CAMPINASTelles, Guilherme Pimentel, 1972-20032002-12-12T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdf90p. : il.(Broch.)https://hdl.handle.net/20.500.12733/1593865TELLES, Guilherme Pimentel. Um algoritmo quase-linear para arvores PQR e um esquema para clustering de sequencias expressas de cana-de-açucar. 2003. 90p. Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1593865. Acesso em: 27 fev. 2025.https://repositorio.unicamp.br/acervo/detalhe/280939porreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2022-06-21T11:36:25Zoai::280939Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2022-06-21T11:36:25Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false
dc.title.none.fl_str_mv Um algoritmo quase-linear para arvores PQR e um esquema para clustering de sequencias expressas de cana-de-açucar
title Um algoritmo quase-linear para arvores PQR e um esquema para clustering de sequencias expressas de cana-de-açucar
spellingShingle Um algoritmo quase-linear para arvores PQR e um esquema para clustering de sequencias expressas de cana-de-açucar
Telles, Guilherme Pimentel, 1972-
Estruturas de dados (Computação)
Algoritmos
Genomas
Cana-de-açúcar
Sequência de nucleotídeos
title_short Um algoritmo quase-linear para arvores PQR e um esquema para clustering de sequencias expressas de cana-de-açucar
title_full Um algoritmo quase-linear para arvores PQR e um esquema para clustering de sequencias expressas de cana-de-açucar
title_fullStr Um algoritmo quase-linear para arvores PQR e um esquema para clustering de sequencias expressas de cana-de-açucar
title_full_unstemmed Um algoritmo quase-linear para arvores PQR e um esquema para clustering de sequencias expressas de cana-de-açucar
title_sort Um algoritmo quase-linear para arvores PQR e um esquema para clustering de sequencias expressas de cana-de-açucar
author Telles, Guilherme Pimentel, 1972-
author_facet Telles, Guilherme Pimentel, 1972-
author_role author
dc.contributor.none.fl_str_mv Meidanis, João, 1960-
Laber, Eduardo Sany
Mandel, Arnaldo
Moura, Arnaldo Vieira
Stolfi, Jorge
Universidade Estadual de Campinas (UNICAMP). Instituto de Computação
Programa de Pós-Graduação não informado
UNIVERSIDADE ESTADUAL DE CAMPINAS
dc.contributor.author.fl_str_mv Telles, Guilherme Pimentel, 1972-
dc.subject.por.fl_str_mv Estruturas de dados (Computação)
Algoritmos
Genomas
Cana-de-açúcar
Sequência de nucleotídeos
topic Estruturas de dados (Computação)
Algoritmos
Genomas
Cana-de-açúcar
Sequência de nucleotídeos
description Orientador : João Meidanis
publishDate 2002
dc.date.none.fl_str_mv 2002-12-12T00:00:00Z
2003
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv (Broch.)
https://hdl.handle.net/20.500.12733/1593865
TELLES, Guilherme Pimentel. Um algoritmo quase-linear para arvores PQR e um esquema para clustering de sequencias expressas de cana-de-açucar. 2003. 90p. Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1593865. Acesso em: 27 fev. 2025.
identifier_str_mv (Broch.)
TELLES, Guilherme Pimentel. Um algoritmo quase-linear para arvores PQR e um esquema para clustering de sequencias expressas de cana-de-açucar. 2003. 90p. Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1593865. Acesso em: 27 fev. 2025.
url https://hdl.handle.net/20.500.12733/1593865
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://repositorio.unicamp.br/acervo/detalhe/280939
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
90p. : il.
dc.publisher.none.fl_str_mv [s.n.]
publisher.none.fl_str_mv [s.n.]
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
instname:Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
instname_str Universidade Estadual de Campinas (UNICAMP)
instacron_str UNICAMP
institution UNICAMP
reponame_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
collection Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)
repository.mail.fl_str_mv sbubd@unicamp.br
_version_ 1829137263019163648