Avaliação da utilização de índices de similaridade genômica global para classificação de espécies patogênicas emergentes do gênero Corynebacterium

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Alves, Daniele Almeida
Orientador(a): Pacheco, Luis Gustavo Carvalho
Banca de defesa: Castro, Thiago Luiz de Paula, Neto, Aristóteles Góes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal da Bahia
Programa de Pós-Graduação: Programa de Pós-graduação em Biotecnologia
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.ufba.br/ri/handle/ri/33104
Resumo: Índices de Similaridade Genômica Global têm sido amplamente utilizados nos últimos anos para classificação taxonômica de bactérias. Entre estes, a Identidade Média de Nucleotídeos por BLAST (ANIb) é amplamente considerada como o índice mais preciso para a circunscrição de espécies bacterianas, quando se considera um limite 95-96% de identidade. No entanto, o uso exclusivo de ANIb para esta identificação pode gerar resultados confusos para alguns grupos bacterianos intimamente relacionados, como muitos patógenos de Corynebacterium spp. Nesse trabalho desenvolvemos e avaliamos o desempenho de um classificador de espécies desenvolvido internamente, com base nos valores de correlação entre diferentes índices de parentesco do genoma, para classificar sequências genômicas do grupo Corynebacterium diphtheriae. Para isso, 213 sequências genômicas correspondentes a três espécies de Corynebacterium intimamente relacionadas foram recuperadas do NCBI Genoma DB: 188 classificados como C. diphtheriae e 03 isolados de C. diphtheriae subsp. lausannense; 10 como Corynebacterium belfantii; 01 como Corynebacterium rouxii e 11 classificados como C. diphtheriae obtidos do Arquivo Europeu de Nucleotídeos. Os padrões de uso de tetranucleotídeos (TETRA) e ANIb foram calculados no servidor Web JSpecies através de comparações par-a-par entre os genomas avaliados. As matrizes resultantes foram mescladas para gerar uma matriz com os valores concatenados de ANIb e TETRA para cada bactéria, representando uma forma de impressão digital, que foi então utilizada para calcular os valores de correlação de Spearman entre os genomas através de uma estratégia própria desenvolvido no ambiente estatístico R. Análise de sequência multilocus utilizando os genes: atpA, gyrA, dnaE, dnaK, fusA, leuA e rpoB e análises de decomposição dividida foram usados para confirmar as relações entre as várias espécies. No total, 45.369 comparações genoma a genoma compuseram a matriz de impressão digital das bactérias que foi usada para construir um dendrograma com clados bem definidos (> 95% de confiança de bootstrap). Os grupos contendo C. belfantii e C. rouxii foi claramente distinguido por esta estratégia, em oposição ao uso de ANIb sozinho que não foi capaz de diferenciar as espécies C. diphtheriae subsp. lausannense CHUV2995 e C. belfantii. Adicionalmente, observamos que nossos resultados são corroborados pela MLSA, evidenciando a classificação errada no NCBI. Com os resultados supracitados nós concluímos que o classificador desenvolvido internamente que integra diferentes índices foi a ferramenta mais eficiente para a circunscrição de espécies no grupo C. diphtheriae, quando comparada para ANIb sozinho. Antecipamos que esta nova estratégia pode ser extrapolada para melhorar a identificação baseada no genoma de outros patógenos bacterianos clinicamente importantes.
id UFBA-2_53930887035f64b16479843174dbeb2d
oai_identifier_str oai:repositorio.ufba.br:ri/33104
network_acronym_str UFBA-2
network_name_str Repositório Institucional da UFBA
repository_id_str
spelling Alves, Daniele AlmeidaAlves, Daniele AlmeidaPacheco, Luis Gustavo CarvalhoAguiar, Eric Roberto Guimarães RochaCastro, Thiago Luiz de PaulaNeto, Aristóteles Góes2021-03-23T17:47:22Z2021-03-23T17:47:22Z2021-03-232020-10-08http://repositorio.ufba.br/ri/handle/ri/33104Índices de Similaridade Genômica Global têm sido amplamente utilizados nos últimos anos para classificação taxonômica de bactérias. Entre estes, a Identidade Média de Nucleotídeos por BLAST (ANIb) é amplamente considerada como o índice mais preciso para a circunscrição de espécies bacterianas, quando se considera um limite 95-96% de identidade. No entanto, o uso exclusivo de ANIb para esta identificação pode gerar resultados confusos para alguns grupos bacterianos intimamente relacionados, como muitos patógenos de Corynebacterium spp. Nesse trabalho desenvolvemos e avaliamos o desempenho de um classificador de espécies desenvolvido internamente, com base nos valores de correlação entre diferentes índices de parentesco do genoma, para classificar sequências genômicas do grupo Corynebacterium diphtheriae. Para isso, 213 sequências genômicas correspondentes a três espécies de Corynebacterium intimamente relacionadas foram recuperadas do NCBI Genoma DB: 188 classificados como C. diphtheriae e 03 isolados de C. diphtheriae subsp. lausannense; 10 como Corynebacterium belfantii; 01 como Corynebacterium rouxii e 11 classificados como C. diphtheriae obtidos do Arquivo Europeu de Nucleotídeos. Os padrões de uso de tetranucleotídeos (TETRA) e ANIb foram calculados no servidor Web JSpecies através de comparações par-a-par entre os genomas avaliados. As matrizes resultantes foram mescladas para gerar uma matriz com os valores concatenados de ANIb e TETRA para cada bactéria, representando uma forma de impressão digital, que foi então utilizada para calcular os valores de correlação de Spearman entre os genomas através de uma estratégia própria desenvolvido no ambiente estatístico R. Análise de sequência multilocus utilizando os genes: atpA, gyrA, dnaE, dnaK, fusA, leuA e rpoB e análises de decomposição dividida foram usados para confirmar as relações entre as várias espécies. No total, 45.369 comparações genoma a genoma compuseram a matriz de impressão digital das bactérias que foi usada para construir um dendrograma com clados bem definidos (> 95% de confiança de bootstrap). Os grupos contendo C. belfantii e C. rouxii foi claramente distinguido por esta estratégia, em oposição ao uso de ANIb sozinho que não foi capaz de diferenciar as espécies C. diphtheriae subsp. lausannense CHUV2995 e C. belfantii. Adicionalmente, observamos que nossos resultados são corroborados pela MLSA, evidenciando a classificação errada no NCBI. Com os resultados supracitados nós concluímos que o classificador desenvolvido internamente que integra diferentes índices foi a ferramenta mais eficiente para a circunscrição de espécies no grupo C. diphtheriae, quando comparada para ANIb sozinho. Antecipamos que esta nova estratégia pode ser extrapolada para melhorar a identificação baseada no genoma de outros patógenos bacterianos clinicamente importantes.Overall genome-relatedness indexes (OGRIs) have been extensively used in recent years for taxonomic classification of bacteria. Among these, Average Nucleotide Identity by BLAST (ANIb) is widely regarded as the most accurate index for bacterial species circumscription, when considering a species boundary of ca. 95-96% identity. However, the sole use of ANIb for species identification may render confusing results for some closely related bacterial groups, such as many pathogenic Corynebacterium spp. In this work we develop and evaluate performance of an in-house developed species-classifier, based on the correlation values between different genome relatedness indexes, to correctly classify genomic sequences from the Corynebacterium diphtheriae group. For that, 213 genomic sequences corresponding to three closely related Corynebacterium species were retrieved from NCBI’s Genome DB: 188 classified in NCBI Taxonomy as Corynebacterium diphtheriae, including the reference strain NCTC11397 and 03 isolates of C. diphtheriae subsp. Lausannense; 10 as Corynebacterium belfantii; 01 as Corynebacterium rouxii and 11 classified as C. diphtheriae obtained from the European Nucleotide Archive. Tetranucleotide usage patterns (TETRA) and average nucleotide identities by BLAST (ANIb) were calculated through the JSpecies Web server application and compared all-vs-all. Resulting matrices were then merged to generate a single fingerprint matrix, which was used to calculate the Spearman’s correlation values among bacterial genomes using an in-house script developed on R software. MLSA (genes: atpA, gyrA, dnaE, dnaK, fusA, leuA e rpoB) and split-decomposition analyses were used to confirm relationships between the various species. In total, 45,369 genome-to-genome comparisons composed the fingerprint matrix that was used to build a dendogram with well-defined clades (> 95% boostrap confidence). The groups containing C. belfantii and C. rouxii were clearly distinguished by this strategy, as opposed to the use of ANIb alone that was unable to differentiate the C. diphtheriae subsp. lausannense strain CHUV2995 and C. belfantii. Additionally, we observed that our results are corroborated by the MLSA, highlighting the wrong classification in the NCBI. With the aforementioned results we concluded that the classifier developed internally that integrates different OGRIs was the most efficient tool for the circumscription of species in the group C. diphtheriae, when compared to ANIb alone. We anticipate that this new strategy can be extrapolated to improve the genome based on identification of other clinically important bacterial pathogens.Submitted by DANIELE ALVES (daniele.aalves@hotmail.com) on 2021-03-22T18:08:30Z No. of bitstreams: 1 03_11_Dissertacao_Daniele_Almeida_Alves.pdf: 3978391 bytes, checksum: 8c317d187b25fb0b6afff2a693c66002 (MD5)Approved for entry into archive by Delba Rosa (delba@ufba.br) on 2021-03-23T17:47:22Z (GMT) No. of bitstreams: 1 03_11_Dissertacao_Daniele_Almeida_Alves.pdf: 3978391 bytes, checksum: 8c317d187b25fb0b6afff2a693c66002 (MD5)Made available in DSpace on 2021-03-23T17:47:22Z (GMT). No. of bitstreams: 1 03_11_Dissertacao_Daniele_Almeida_Alves.pdf: 3978391 bytes, checksum: 8c317d187b25fb0b6afff2a693c66002 (MD5)Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESCiências BiológicasPatógenos emergentesTaxonomia genômicaIdentidade média de nucleotídeosPadrões tetranucleotídicosCorynebacterium sppAvaliação da utilização de índices de similaridade genômica global para classificação de espécies patogênicas emergentes do gênero Corynebacteriuminfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal da BahiaPrograma de Pós-graduação em BiotecnologiaUFBABrasilinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFBAinstname:Universidade Federal da Bahia (UFBA)instacron:UFBAORIGINAL03_11_Dissertacao_Daniele_Almeida_Alves.pdf03_11_Dissertacao_Daniele_Almeida_Alves.pdfapplication/pdf3978391https://repositorio.ufba.br/bitstream/ri/33104/1/03_11_Dissertacao_Daniele_Almeida_Alves.pdf8c317d187b25fb0b6afff2a693c66002MD51LICENSElicense.txtlicense.txttext/plain1442https://repositorio.ufba.br/bitstream/ri/33104/2/license.txt817035eff4c4c7dda1d546e170ee2a1aMD52TEXT03_11_Dissertacao_Daniele_Almeida_Alves.pdf.txt03_11_Dissertacao_Daniele_Almeida_Alves.pdf.txtExtracted texttext/plain107306https://repositorio.ufba.br/bitstream/ri/33104/3/03_11_Dissertacao_Daniele_Almeida_Alves.pdf.txtca6890ca87fe0f2c7ac047f78b469b62MD53ri/331042022-07-05 14:03:50.206oai:repositorio.ufba.br:ri/33104VGVybW8gZGUgTGljZW7vv71hLCBu77+9byBleGNsdXNpdm8sIHBhcmEgbyBkZXDvv71zaXRvIG5vIFJlcG9zaXTvv71yaW8gSW5zdGl0dWNpb25hbCBkYSBVRkJBLgoKIFBlbG8gcHJvY2Vzc28gZGUgc3VibWlzc8ODwqNvIGRlIGRvY3VtZW50b3MsIG8gYXV0b3Igb3Ugc2V1IHJlcHJlc2VudGFudGUgbGVnYWwsIGFvIGFjZWl0YXIgZXNzZSB0ZXJtbyBkZSBsaWNlbsODwqdhLCBjb25jZWRlIGFvIFJlcG9zaXTDg8KzcmlvIEluc3RpdHVjaW9uYWwgZGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGEgQmFoaWEgbyBkaXJlaXRvIGRlIG1hbnRlciB1bWEgY8ODwrNwaWEgZW0gc2V1IHJlcG9zaXTDg8KzcmlvIGNvbSBhIGZpbmFsaWRhZGUsIHByaW1laXJhLCBkZSBwcmVzZXJ2YcODwqfDg8Kjby4gCgpFc3NlcyB0ZXJtb3MsIG7Dg8KjbyBleGNsdXNpdm9zLCBtYW50w4PCqW0gb3MgZGlyZWl0b3MgZGUgYXV0b3IvY29weXJpZ2h0LCBtYXMgZW50ZW5kZSBvIGRvY3VtZW50byBjb21vIHBhcnRlIGRvIGFjZXJ2byBpbnRlbGVjdHVhbCBkZXNzYSBVbml2ZXJzaWRhZGUuCgogUGFyYSBvcyBkb2N1bWVudG9zIHB1YmxpY2Fkb3MgY29tIHJlcGFzc2UgZGUgZGlyZWl0b3MgZGUgZGlzdHJpYnVpw4PCp8ODwqNvLCBlc3NlIHRlcm1vIGRlIGxpY2Vuw4PCp2EgZW50ZW5kZSBxdWU6CgogTWFudGVuZG8gb3MgZGlyZWl0b3MgYXV0b3JhaXMsIHJlcGFzc2Fkb3MgYSB0ZXJjZWlyb3MsIGVtIGNhc28gZGUgcHVibGljYcODwqfDg8K1ZXMsIG8gcmVwb3NpdMODwrNyaW8gcG9kZSByZXN0cmluZ2lyIG8gYWNlc3NvIGFvIHRleHRvIGludGVncmFsLCBtYXMgbGliZXJhIGFzIGluZm9ybWHDg8Knw4PCtWVzIHNvYnJlIG8gZG9jdW1lbnRvIChNZXRhZGFkb3MgZGVzY3JpdGl2b3MpLgoKIERlc3RhIGZvcm1hLCBhdGVuZGVuZG8gYW9zIGFuc2Vpb3MgZGVzc2EgdW5pdmVyc2lkYWRlIGVtIG1hbnRlciBzdWEgcHJvZHXDg8Knw4PCo28gY2llbnTDg8KtZmljYSBjb20gYXMgcmVzdHJpw4PCp8ODwrVlcyBpbXBvc3RhcyBwZWxvcyBlZGl0b3JlcyBkZSBwZXJpw4PCs2RpY29zLgoKIFBhcmEgYXMgcHVibGljYcODwqfDg8K1ZXMgc2VtIGluaWNpYXRpdmFzIHF1ZSBzZWd1ZW0gYSBwb2zDg8KtdGljYSBkZSBBY2Vzc28gQWJlcnRvLCBvcyBkZXDDg8Kzc2l0b3MgY29tcHVsc8ODwrNyaW9zIG5lc3NlIHJlcG9zaXTDg8KzcmlvIG1hbnTDg8KpbSBvcyBkaXJlaXRvcyBhdXRvcmFpcywgbWFzIG1hbnTDg8KpbSBhY2Vzc28gaXJyZXN0cml0byBhb3MgbWV0YWRhZG9zIGUgdGV4dG8gY29tcGxldG8uIEFzc2ltLCBhIGFjZWl0YcODwqfDg8KjbyBkZXNzZSB0ZXJtbyBuw4PCo28gbmVjZXNzaXRhIGRlIGNvbnNlbnRpbWVudG8gcG9yIHBhcnRlIGRlIGF1dG9yZXMvZGV0ZW50b3JlcyBkb3MgZGlyZWl0b3MsIHBvciBlc3RhcmVtIGVtIGluaWNpYXRpdmFzIGRlIGFjZXNzbyBhYmVydG8uCg==Repositório InstitucionalPUBhttp://192.188.11.11:8080/oai/requestopendoar:19322022-07-05T17:03:50Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)false
dc.title.pt_BR.fl_str_mv Avaliação da utilização de índices de similaridade genômica global para classificação de espécies patogênicas emergentes do gênero Corynebacterium
title Avaliação da utilização de índices de similaridade genômica global para classificação de espécies patogênicas emergentes do gênero Corynebacterium
spellingShingle Avaliação da utilização de índices de similaridade genômica global para classificação de espécies patogênicas emergentes do gênero Corynebacterium
Alves, Daniele Almeida
Ciências Biológicas
Patógenos emergentes
Taxonomia genômica
Identidade média de nucleotídeos
Padrões tetranucleotídicos
Corynebacterium spp
title_short Avaliação da utilização de índices de similaridade genômica global para classificação de espécies patogênicas emergentes do gênero Corynebacterium
title_full Avaliação da utilização de índices de similaridade genômica global para classificação de espécies patogênicas emergentes do gênero Corynebacterium
title_fullStr Avaliação da utilização de índices de similaridade genômica global para classificação de espécies patogênicas emergentes do gênero Corynebacterium
title_full_unstemmed Avaliação da utilização de índices de similaridade genômica global para classificação de espécies patogênicas emergentes do gênero Corynebacterium
title_sort Avaliação da utilização de índices de similaridade genômica global para classificação de espécies patogênicas emergentes do gênero Corynebacterium
author Alves, Daniele Almeida
author_facet Alves, Daniele Almeida
author_role author
dc.contributor.author.fl_str_mv Alves, Daniele Almeida
Alves, Daniele Almeida
dc.contributor.advisor1.fl_str_mv Pacheco, Luis Gustavo Carvalho
dc.contributor.advisor-co1.fl_str_mv Aguiar, Eric Roberto Guimarães Rocha
dc.contributor.referee1.fl_str_mv Castro, Thiago Luiz de Paula
Neto, Aristóteles Góes
contributor_str_mv Pacheco, Luis Gustavo Carvalho
Aguiar, Eric Roberto Guimarães Rocha
Castro, Thiago Luiz de Paula
Neto, Aristóteles Góes
dc.subject.cnpq.fl_str_mv Ciências Biológicas
topic Ciências Biológicas
Patógenos emergentes
Taxonomia genômica
Identidade média de nucleotídeos
Padrões tetranucleotídicos
Corynebacterium spp
dc.subject.por.fl_str_mv Patógenos emergentes
Taxonomia genômica
Identidade média de nucleotídeos
Padrões tetranucleotídicos
Corynebacterium spp
description Índices de Similaridade Genômica Global têm sido amplamente utilizados nos últimos anos para classificação taxonômica de bactérias. Entre estes, a Identidade Média de Nucleotídeos por BLAST (ANIb) é amplamente considerada como o índice mais preciso para a circunscrição de espécies bacterianas, quando se considera um limite 95-96% de identidade. No entanto, o uso exclusivo de ANIb para esta identificação pode gerar resultados confusos para alguns grupos bacterianos intimamente relacionados, como muitos patógenos de Corynebacterium spp. Nesse trabalho desenvolvemos e avaliamos o desempenho de um classificador de espécies desenvolvido internamente, com base nos valores de correlação entre diferentes índices de parentesco do genoma, para classificar sequências genômicas do grupo Corynebacterium diphtheriae. Para isso, 213 sequências genômicas correspondentes a três espécies de Corynebacterium intimamente relacionadas foram recuperadas do NCBI Genoma DB: 188 classificados como C. diphtheriae e 03 isolados de C. diphtheriae subsp. lausannense; 10 como Corynebacterium belfantii; 01 como Corynebacterium rouxii e 11 classificados como C. diphtheriae obtidos do Arquivo Europeu de Nucleotídeos. Os padrões de uso de tetranucleotídeos (TETRA) e ANIb foram calculados no servidor Web JSpecies através de comparações par-a-par entre os genomas avaliados. As matrizes resultantes foram mescladas para gerar uma matriz com os valores concatenados de ANIb e TETRA para cada bactéria, representando uma forma de impressão digital, que foi então utilizada para calcular os valores de correlação de Spearman entre os genomas através de uma estratégia própria desenvolvido no ambiente estatístico R. Análise de sequência multilocus utilizando os genes: atpA, gyrA, dnaE, dnaK, fusA, leuA e rpoB e análises de decomposição dividida foram usados para confirmar as relações entre as várias espécies. No total, 45.369 comparações genoma a genoma compuseram a matriz de impressão digital das bactérias que foi usada para construir um dendrograma com clados bem definidos (> 95% de confiança de bootstrap). Os grupos contendo C. belfantii e C. rouxii foi claramente distinguido por esta estratégia, em oposição ao uso de ANIb sozinho que não foi capaz de diferenciar as espécies C. diphtheriae subsp. lausannense CHUV2995 e C. belfantii. Adicionalmente, observamos que nossos resultados são corroborados pela MLSA, evidenciando a classificação errada no NCBI. Com os resultados supracitados nós concluímos que o classificador desenvolvido internamente que integra diferentes índices foi a ferramenta mais eficiente para a circunscrição de espécies no grupo C. diphtheriae, quando comparada para ANIb sozinho. Antecipamos que esta nova estratégia pode ser extrapolada para melhorar a identificação baseada no genoma de outros patógenos bacterianos clinicamente importantes.
publishDate 2020
dc.date.submitted.none.fl_str_mv 2020-10-08
dc.date.accessioned.fl_str_mv 2021-03-23T17:47:22Z
dc.date.available.fl_str_mv 2021-03-23T17:47:22Z
dc.date.issued.fl_str_mv 2021-03-23
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://repositorio.ufba.br/ri/handle/ri/33104
url http://repositorio.ufba.br/ri/handle/ri/33104
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal da Bahia
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Biotecnologia
dc.publisher.initials.fl_str_mv UFBA
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal da Bahia
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFBA
instname:Universidade Federal da Bahia (UFBA)
instacron:UFBA
instname_str Universidade Federal da Bahia (UFBA)
instacron_str UFBA
institution UFBA
reponame_str Repositório Institucional da UFBA
collection Repositório Institucional da UFBA
bitstream.url.fl_str_mv https://repositorio.ufba.br/bitstream/ri/33104/1/03_11_Dissertacao_Daniele_Almeida_Alves.pdf
https://repositorio.ufba.br/bitstream/ri/33104/2/license.txt
https://repositorio.ufba.br/bitstream/ri/33104/3/03_11_Dissertacao_Daniele_Almeida_Alves.pdf.txt
bitstream.checksum.fl_str_mv 8c317d187b25fb0b6afff2a693c66002
817035eff4c4c7dda1d546e170ee2a1a
ca6890ca87fe0f2c7ac047f78b469b62
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)
repository.mail.fl_str_mv
_version_ 1801503073478115328