Análise da classificação metagenômica baseada em composição
| Ano de defesa: | 2011 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) BR LNCC Programa de Pós-Graduação em Modelagem Computacional |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://tede.lncc.br/handle/tede/33 |
Resumo: | A metagenômica é o estudo do material genético extraído diretamente de comunidades microbianas. Ao invés de estudar as espécies microbianas isoladamente, como ocorre nos estudos genômicos convencionais, a metagenômica considera as interações entre os microorganismos de determinado habitat e a inuência de tais interações sobre a comunidade microbiana. Um dos passos fundamentais de um estudo metagenômico é a chamada classificação taxonômica, isto é, a identificação das espécies das quais o material genético foi obtido. O processo de classificação taxonômica envolve uma série de decisões de projeto. Atualmente, no contexto da metagenômica, tais decisões são tomadas de maneira quase intuitiva, sem nenhum embasamento teórico ou empírico. A proposta deste trabalho é preencher essa lacuna. Em particular, procura-se analisar o impacto dos seguintes parâmetros sobre a precisão de uma classificação taxonômica: (i) o comprimento das subseqüências usadas na codificação dos metagenomas; (ii) a medida de distância utilizada para medir a similaridade das seqüências; e (iii) a estratégia de classificação, que pode ser a convencional, em que as seqüências são classificadas isoladamente, ou a hierárquica, em que o processo de classificação leva em consideração o contexto taxonômico de cada fragmento. Para realizar tal estudo, foi adotado um classificador simples que realiza a categorização baseando-se no grau de semelhança entre a seqüência em questão e o seu vizinho mais próximo { ou seja, o popular k-NN com k = 1. A escolha pelo 1-NN justifica-se pelo fato de esse classificador incorporar um nível mínimo de viés ao processo de classificação, tendo em vista que esse modelo não faz qualquer suposição a respeito da distribuição dos dados. Foi realizado um experimento computacional de larga escala em que todos os genomas microbianos seqüenciados até Janeiro de 2010 foram utilizados como dados. A partir de uma análise extensiva dos resultados, chegou-se às seguintes conclusões. Subseqüências de pequeno comprimento geram altos erros de classificação, pois codificam de forma semelhante fragmentos metagenômicos distintos. Por outro lado, subseqüências muito longas representam de forma diferente metagenomas semelhantes, e isso também resulta em erros de classificacão altos. Em relação a noção de distância adotada, ao contrário do esperado, a variação das métricas não alterou de forma significativa a precisão do classificador. Finalmente, a estratégia hierárquica de classificação mostrou-se mais eficaz do que a convencional, o que está de acordo com as expectativas iniciais. |
| id |
LNCC_f561a48a48b6bf7ae8d57a1593335a15 |
|---|---|
| oai_identifier_str |
oai:tede-server.lncc.br:tede/33 |
| network_acronym_str |
LNCC |
| network_name_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
| repository_id_str |
|
| spelling |
Análise da classificação metagenômica baseada em composiçãoMetagenomics analysis of the classification based on compositionGenomaMetagenômicaClassificação baseada em composição,Classificaçãotaxonômica.CNPQ::CIENCIAS BIOLOGICAS::GENETICAA metagenômica é o estudo do material genético extraído diretamente de comunidades microbianas. Ao invés de estudar as espécies microbianas isoladamente, como ocorre nos estudos genômicos convencionais, a metagenômica considera as interações entre os microorganismos de determinado habitat e a inuência de tais interações sobre a comunidade microbiana. Um dos passos fundamentais de um estudo metagenômico é a chamada classificação taxonômica, isto é, a identificação das espécies das quais o material genético foi obtido. O processo de classificação taxonômica envolve uma série de decisões de projeto. Atualmente, no contexto da metagenômica, tais decisões são tomadas de maneira quase intuitiva, sem nenhum embasamento teórico ou empírico. A proposta deste trabalho é preencher essa lacuna. Em particular, procura-se analisar o impacto dos seguintes parâmetros sobre a precisão de uma classificação taxonômica: (i) o comprimento das subseqüências usadas na codificação dos metagenomas; (ii) a medida de distância utilizada para medir a similaridade das seqüências; e (iii) a estratégia de classificação, que pode ser a convencional, em que as seqüências são classificadas isoladamente, ou a hierárquica, em que o processo de classificação leva em consideração o contexto taxonômico de cada fragmento. Para realizar tal estudo, foi adotado um classificador simples que realiza a categorização baseando-se no grau de semelhança entre a seqüência em questão e o seu vizinho mais próximo { ou seja, o popular k-NN com k = 1. A escolha pelo 1-NN justifica-se pelo fato de esse classificador incorporar um nível mínimo de viés ao processo de classificação, tendo em vista que esse modelo não faz qualquer suposição a respeito da distribuição dos dados. Foi realizado um experimento computacional de larga escala em que todos os genomas microbianos seqüenciados até Janeiro de 2010 foram utilizados como dados. A partir de uma análise extensiva dos resultados, chegou-se às seguintes conclusões. Subseqüências de pequeno comprimento geram altos erros de classificação, pois codificam de forma semelhante fragmentos metagenômicos distintos. Por outro lado, subseqüências muito longas representam de forma diferente metagenomas semelhantes, e isso também resulta em erros de classificacão altos. Em relação a noção de distância adotada, ao contrário do esperado, a variação das métricas não alterou de forma significativa a precisão do classificador. Finalmente, a estratégia hierárquica de classificação mostrou-se mais eficaz do que a convencional, o que está de acordo com as expectativas iniciais.Coordenacao de Aperfeicoamento de Pessoal de Nivel SuperiorLaboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BRLNCCPrograma de Pós-Graduação em Modelagem ComputacionalVasconcelos, Ana Tereza RibeiroCPF:81737963787http://lattes.cnpq.br/8989199088323836Barreto, André da Mota SallesCPF:01248201663A.M.S.BarretoBarbosa, Helio José CorrêaCPF:194 306 716 34http://lattes.cnpq.br/0375745110240885Thompson, Fabiano LopesCPF:77140389004http://lattes.cnpq.br/4148145822928884Higashi, Susan2015-03-04T18:50:35Z2011-11-032011-03-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfHIGASHI, Susan. Metagenomics analysis of the classification based on composition. 2011. 104 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2011.https://tede.lncc.br/handle/tede/33porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2023-06-02T13:19:58Zoai:tede-server.lncc.br:tede/33Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-06-02T13:19:58Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false |
| dc.title.none.fl_str_mv |
Análise da classificação metagenômica baseada em composição Metagenomics analysis of the classification based on composition |
| title |
Análise da classificação metagenômica baseada em composição |
| spellingShingle |
Análise da classificação metagenômica baseada em composição Higashi, Susan Genoma Metagenômica Classificação baseada em composição,Classificaçãotaxonômica. CNPQ::CIENCIAS BIOLOGICAS::GENETICA |
| title_short |
Análise da classificação metagenômica baseada em composição |
| title_full |
Análise da classificação metagenômica baseada em composição |
| title_fullStr |
Análise da classificação metagenômica baseada em composição |
| title_full_unstemmed |
Análise da classificação metagenômica baseada em composição |
| title_sort |
Análise da classificação metagenômica baseada em composição |
| author |
Higashi, Susan |
| author_facet |
Higashi, Susan |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Vasconcelos, Ana Tereza Ribeiro CPF:81737963787 http://lattes.cnpq.br/8989199088323836 Barreto, André da Mota Salles CPF:01248201663 A.M.S.Barreto Barbosa, Helio José Corrêa CPF:194 306 716 34 http://lattes.cnpq.br/0375745110240885 Thompson, Fabiano Lopes CPF:77140389004 http://lattes.cnpq.br/4148145822928884 |
| dc.contributor.author.fl_str_mv |
Higashi, Susan |
| dc.subject.por.fl_str_mv |
Genoma Metagenômica Classificação baseada em composição,Classificaçãotaxonômica. CNPQ::CIENCIAS BIOLOGICAS::GENETICA |
| topic |
Genoma Metagenômica Classificação baseada em composição,Classificaçãotaxonômica. CNPQ::CIENCIAS BIOLOGICAS::GENETICA |
| description |
A metagenômica é o estudo do material genético extraído diretamente de comunidades microbianas. Ao invés de estudar as espécies microbianas isoladamente, como ocorre nos estudos genômicos convencionais, a metagenômica considera as interações entre os microorganismos de determinado habitat e a inuência de tais interações sobre a comunidade microbiana. Um dos passos fundamentais de um estudo metagenômico é a chamada classificação taxonômica, isto é, a identificação das espécies das quais o material genético foi obtido. O processo de classificação taxonômica envolve uma série de decisões de projeto. Atualmente, no contexto da metagenômica, tais decisões são tomadas de maneira quase intuitiva, sem nenhum embasamento teórico ou empírico. A proposta deste trabalho é preencher essa lacuna. Em particular, procura-se analisar o impacto dos seguintes parâmetros sobre a precisão de uma classificação taxonômica: (i) o comprimento das subseqüências usadas na codificação dos metagenomas; (ii) a medida de distância utilizada para medir a similaridade das seqüências; e (iii) a estratégia de classificação, que pode ser a convencional, em que as seqüências são classificadas isoladamente, ou a hierárquica, em que o processo de classificação leva em consideração o contexto taxonômico de cada fragmento. Para realizar tal estudo, foi adotado um classificador simples que realiza a categorização baseando-se no grau de semelhança entre a seqüência em questão e o seu vizinho mais próximo { ou seja, o popular k-NN com k = 1. A escolha pelo 1-NN justifica-se pelo fato de esse classificador incorporar um nível mínimo de viés ao processo de classificação, tendo em vista que esse modelo não faz qualquer suposição a respeito da distribuição dos dados. Foi realizado um experimento computacional de larga escala em que todos os genomas microbianos seqüenciados até Janeiro de 2010 foram utilizados como dados. A partir de uma análise extensiva dos resultados, chegou-se às seguintes conclusões. Subseqüências de pequeno comprimento geram altos erros de classificação, pois codificam de forma semelhante fragmentos metagenômicos distintos. Por outro lado, subseqüências muito longas representam de forma diferente metagenomas semelhantes, e isso também resulta em erros de classificacão altos. Em relação a noção de distância adotada, ao contrário do esperado, a variação das métricas não alterou de forma significativa a precisão do classificador. Finalmente, a estratégia hierárquica de classificação mostrou-se mais eficaz do que a convencional, o que está de acordo com as expectativas iniciais. |
| publishDate |
2011 |
| dc.date.none.fl_str_mv |
2011-11-03 2011-03-15 2015-03-04T18:50:35Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
HIGASHI, Susan. Metagenomics analysis of the classification based on composition. 2011. 104 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2011. https://tede.lncc.br/handle/tede/33 |
| identifier_str_mv |
HIGASHI, Susan. Metagenomics analysis of the classification based on composition. 2011. 104 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2011. |
| url |
https://tede.lncc.br/handle/tede/33 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) BR LNCC Programa de Pós-Graduação em Modelagem Computacional |
| publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) BR LNCC Programa de Pós-Graduação em Modelagem Computacional |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do LNCC instname:Laboratório Nacional de Computação Científica (LNCC) instacron:LNCC |
| instname_str |
Laboratório Nacional de Computação Científica (LNCC) |
| instacron_str |
LNCC |
| institution |
LNCC |
| reponame_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
| collection |
Biblioteca Digital de Teses e Dissertações do LNCC |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC) |
| repository.mail.fl_str_mv |
library@lncc.br||library@lncc.br |
| _version_ |
1832738026246111232 |