Análise da classificação metagenômica baseada em composição

Detalhes bibliográficos
Ano de defesa: 2011
Autor(a) principal: Higashi, Susan
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
BR
LNCC
Programa de Pós-Graduação em Modelagem Computacional
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://tede.lncc.br/handle/tede/33
Resumo: A metagenômica é o estudo do material genético extraído diretamente de comunidades microbianas. Ao invés de estudar as espécies microbianas isoladamente, como ocorre nos estudos genômicos convencionais, a metagenômica considera as interações entre os microorganismos de determinado habitat e a inuência de tais interações sobre a comunidade microbiana. Um dos passos fundamentais de um estudo metagenômico é a chamada classificação taxonômica, isto é, a identificação das espécies das quais o material genético foi obtido. O processo de classificação taxonômica envolve uma série de decisões de projeto. Atualmente, no contexto da metagenômica, tais decisões são tomadas de maneira quase intuitiva, sem nenhum embasamento teórico ou empírico. A proposta deste trabalho é preencher essa lacuna. Em particular, procura-se analisar o impacto dos seguintes parâmetros sobre a precisão de uma classificação taxonômica: (i) o comprimento das subseqüências usadas na codificação dos metagenomas; (ii) a medida de distância utilizada para medir a similaridade das seqüências; e (iii) a estratégia de classificação, que pode ser a convencional, em que as seqüências são classificadas isoladamente, ou a hierárquica, em que o processo de classificação leva em consideração o contexto taxonômico de cada fragmento. Para realizar tal estudo, foi adotado um classificador simples que realiza a categorização baseando-se no grau de semelhança entre a seqüência em questão e o seu vizinho mais próximo { ou seja, o popular k-NN com k = 1. A escolha pelo 1-NN justifica-se pelo fato de esse classificador incorporar um nível mínimo de viés ao processo de classificação, tendo em vista que esse modelo não faz qualquer suposição a respeito da distribuição dos dados. Foi realizado um experimento computacional de larga escala em que todos os genomas microbianos seqüenciados até Janeiro de 2010 foram utilizados como dados. A partir de uma análise extensiva dos resultados, chegou-se às seguintes conclusões. Subseqüências de pequeno comprimento geram altos erros de classificação, pois codificam de forma semelhante fragmentos metagenômicos distintos. Por outro lado, subseqüências muito longas representam de forma diferente metagenomas semelhantes, e isso também resulta em erros de classificacão altos. Em relação a noção de distância adotada, ao contrário do esperado, a variação das métricas não alterou de forma significativa a precisão do classificador. Finalmente, a estratégia hierárquica de classificação mostrou-se mais eficaz do que a convencional, o que está de acordo com as expectativas iniciais.
id LNCC_f561a48a48b6bf7ae8d57a1593335a15
oai_identifier_str oai:tede-server.lncc.br:tede/33
network_acronym_str LNCC
network_name_str Biblioteca Digital de Teses e Dissertações do LNCC
repository_id_str
spelling Análise da classificação metagenômica baseada em composiçãoMetagenomics analysis of the classification based on compositionGenomaMetagenômicaClassificação baseada em composição,Classificaçãotaxonômica.CNPQ::CIENCIAS BIOLOGICAS::GENETICAA metagenômica é o estudo do material genético extraído diretamente de comunidades microbianas. Ao invés de estudar as espécies microbianas isoladamente, como ocorre nos estudos genômicos convencionais, a metagenômica considera as interações entre os microorganismos de determinado habitat e a inuência de tais interações sobre a comunidade microbiana. Um dos passos fundamentais de um estudo metagenômico é a chamada classificação taxonômica, isto é, a identificação das espécies das quais o material genético foi obtido. O processo de classificação taxonômica envolve uma série de decisões de projeto. Atualmente, no contexto da metagenômica, tais decisões são tomadas de maneira quase intuitiva, sem nenhum embasamento teórico ou empírico. A proposta deste trabalho é preencher essa lacuna. Em particular, procura-se analisar o impacto dos seguintes parâmetros sobre a precisão de uma classificação taxonômica: (i) o comprimento das subseqüências usadas na codificação dos metagenomas; (ii) a medida de distância utilizada para medir a similaridade das seqüências; e (iii) a estratégia de classificação, que pode ser a convencional, em que as seqüências são classificadas isoladamente, ou a hierárquica, em que o processo de classificação leva em consideração o contexto taxonômico de cada fragmento. Para realizar tal estudo, foi adotado um classificador simples que realiza a categorização baseando-se no grau de semelhança entre a seqüência em questão e o seu vizinho mais próximo { ou seja, o popular k-NN com k = 1. A escolha pelo 1-NN justifica-se pelo fato de esse classificador incorporar um nível mínimo de viés ao processo de classificação, tendo em vista que esse modelo não faz qualquer suposição a respeito da distribuição dos dados. Foi realizado um experimento computacional de larga escala em que todos os genomas microbianos seqüenciados até Janeiro de 2010 foram utilizados como dados. A partir de uma análise extensiva dos resultados, chegou-se às seguintes conclusões. Subseqüências de pequeno comprimento geram altos erros de classificação, pois codificam de forma semelhante fragmentos metagenômicos distintos. Por outro lado, subseqüências muito longas representam de forma diferente metagenomas semelhantes, e isso também resulta em erros de classificacão altos. Em relação a noção de distância adotada, ao contrário do esperado, a variação das métricas não alterou de forma significativa a precisão do classificador. Finalmente, a estratégia hierárquica de classificação mostrou-se mais eficaz do que a convencional, o que está de acordo com as expectativas iniciais.Coordenacao de Aperfeicoamento de Pessoal de Nivel SuperiorLaboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BRLNCCPrograma de Pós-Graduação em Modelagem ComputacionalVasconcelos, Ana Tereza RibeiroCPF:81737963787http://lattes.cnpq.br/8989199088323836Barreto, André da Mota SallesCPF:01248201663A.M.S.BarretoBarbosa, Helio José CorrêaCPF:194 306 716 34http://lattes.cnpq.br/0375745110240885Thompson, Fabiano LopesCPF:77140389004http://lattes.cnpq.br/4148145822928884Higashi, Susan2015-03-04T18:50:35Z2011-11-032011-03-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfHIGASHI, Susan. Metagenomics analysis of the classification based on composition. 2011. 104 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2011.https://tede.lncc.br/handle/tede/33porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2023-06-02T13:19:58Zoai:tede-server.lncc.br:tede/33Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-06-02T13:19:58Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false
dc.title.none.fl_str_mv Análise da classificação metagenômica baseada em composição
Metagenomics analysis of the classification based on composition
title Análise da classificação metagenômica baseada em composição
spellingShingle Análise da classificação metagenômica baseada em composição
Higashi, Susan
Genoma
Metagenômica
Classificação baseada em composição,Classificaçãotaxonômica.
CNPQ::CIENCIAS BIOLOGICAS::GENETICA
title_short Análise da classificação metagenômica baseada em composição
title_full Análise da classificação metagenômica baseada em composição
title_fullStr Análise da classificação metagenômica baseada em composição
title_full_unstemmed Análise da classificação metagenômica baseada em composição
title_sort Análise da classificação metagenômica baseada em composição
author Higashi, Susan
author_facet Higashi, Susan
author_role author
dc.contributor.none.fl_str_mv Vasconcelos, Ana Tereza Ribeiro
CPF:81737963787
http://lattes.cnpq.br/8989199088323836
Barreto, André da Mota Salles
CPF:01248201663
A.M.S.Barreto
Barbosa, Helio José Corrêa
CPF:194 306 716 34
http://lattes.cnpq.br/0375745110240885
Thompson, Fabiano Lopes
CPF:77140389004
http://lattes.cnpq.br/4148145822928884
dc.contributor.author.fl_str_mv Higashi, Susan
dc.subject.por.fl_str_mv Genoma
Metagenômica
Classificação baseada em composição,Classificaçãotaxonômica.
CNPQ::CIENCIAS BIOLOGICAS::GENETICA
topic Genoma
Metagenômica
Classificação baseada em composição,Classificaçãotaxonômica.
CNPQ::CIENCIAS BIOLOGICAS::GENETICA
description A metagenômica é o estudo do material genético extraído diretamente de comunidades microbianas. Ao invés de estudar as espécies microbianas isoladamente, como ocorre nos estudos genômicos convencionais, a metagenômica considera as interações entre os microorganismos de determinado habitat e a inuência de tais interações sobre a comunidade microbiana. Um dos passos fundamentais de um estudo metagenômico é a chamada classificação taxonômica, isto é, a identificação das espécies das quais o material genético foi obtido. O processo de classificação taxonômica envolve uma série de decisões de projeto. Atualmente, no contexto da metagenômica, tais decisões são tomadas de maneira quase intuitiva, sem nenhum embasamento teórico ou empírico. A proposta deste trabalho é preencher essa lacuna. Em particular, procura-se analisar o impacto dos seguintes parâmetros sobre a precisão de uma classificação taxonômica: (i) o comprimento das subseqüências usadas na codificação dos metagenomas; (ii) a medida de distância utilizada para medir a similaridade das seqüências; e (iii) a estratégia de classificação, que pode ser a convencional, em que as seqüências são classificadas isoladamente, ou a hierárquica, em que o processo de classificação leva em consideração o contexto taxonômico de cada fragmento. Para realizar tal estudo, foi adotado um classificador simples que realiza a categorização baseando-se no grau de semelhança entre a seqüência em questão e o seu vizinho mais próximo { ou seja, o popular k-NN com k = 1. A escolha pelo 1-NN justifica-se pelo fato de esse classificador incorporar um nível mínimo de viés ao processo de classificação, tendo em vista que esse modelo não faz qualquer suposição a respeito da distribuição dos dados. Foi realizado um experimento computacional de larga escala em que todos os genomas microbianos seqüenciados até Janeiro de 2010 foram utilizados como dados. A partir de uma análise extensiva dos resultados, chegou-se às seguintes conclusões. Subseqüências de pequeno comprimento geram altos erros de classificação, pois codificam de forma semelhante fragmentos metagenômicos distintos. Por outro lado, subseqüências muito longas representam de forma diferente metagenomas semelhantes, e isso também resulta em erros de classificacão altos. Em relação a noção de distância adotada, ao contrário do esperado, a variação das métricas não alterou de forma significativa a precisão do classificador. Finalmente, a estratégia hierárquica de classificação mostrou-se mais eficaz do que a convencional, o que está de acordo com as expectativas iniciais.
publishDate 2011
dc.date.none.fl_str_mv 2011-11-03
2011-03-15
2015-03-04T18:50:35Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv HIGASHI, Susan. Metagenomics analysis of the classification based on composition. 2011. 104 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2011.
https://tede.lncc.br/handle/tede/33
identifier_str_mv HIGASHI, Susan. Metagenomics analysis of the classification based on composition. 2011. 104 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2011.
url https://tede.lncc.br/handle/tede/33
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
BR
LNCC
Programa de Pós-Graduação em Modelagem Computacional
publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
BR
LNCC
Programa de Pós-Graduação em Modelagem Computacional
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do LNCC
instname:Laboratório Nacional de Computação Científica (LNCC)
instacron:LNCC
instname_str Laboratório Nacional de Computação Científica (LNCC)
instacron_str LNCC
institution LNCC
reponame_str Biblioteca Digital de Teses e Dissertações do LNCC
collection Biblioteca Digital de Teses e Dissertações do LNCC
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)
repository.mail.fl_str_mv library@lncc.br||library@lncc.br
_version_ 1832738026246111232