Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Patera, Andressa Caroline
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso embargado
Idioma: por
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/32829
Resumo: High-throughput sequencing platforms make it possible to generate huge amounts of data extremely quickly. However, sequencing methodologies are highly sensitive to errors, making the process of obtaining data highly dependent on bioinformatics tools. The challenge of identifying allelic variants in the processing of sequencing data encompasses the alignment of sequences with the reference genome of the target species. Variations in genetic variants, acquired through diverse approaches to polymorphism identification, may impart direct impacts upon the utilization of such data in genetic studies, including associative mapping and genomic selection.The present study aimed to compare two variant calling approaches (Fast-GBS and BWA/BFCTools) to determine their impact on the identification of single polymorphism nucleotides (SNPs) in a panel of 250 cotton (Gossypium hirsutum) genotypes of which 72 correspond to genotypes from TMG's germplasm bank (single-end sequences obtained by GBS with Ion Torrent sequencing) and 178 come from a study in the literature (paired-end sequences obtained by Illumina sequencing). The results were compared by surveying the total number of SNPs recovered, as well as the number of SNPs recovered per chromosome. Other metrics used were the SNP-Score (capable of weighting the number of SNP occurrences per allele calling pipeline), computational time and principal component analysis. The Fast-GBS pipeline retrieved a total of 417,975 SNPs for the TMG raw data subset and 38,685,370 SNPs for the literature raw data subset. We can identify that there are 24,402 SNPs in common across all datasets when the BWA/BCFTools pipeline was used and 15,348 SNPs in common across all datasets when the Fast-GBS pipeline used. At the end of these analyses, it was possible to conclude that the Fast-GBS pipeline has a better computational performance and that paired-end sequences suffer little influence from the software used to call alleles, due to its high precision. For single-end sequences, Fast-GBS pipeline performed better for raw sequencing data and BWA/BCFTools performed better with filtered data. The results obtained reinforce the need to consider several aspects when choosing methods for analysis.
id UTFPR-12_98c7afd62ccef8ad9b3376132945f019
oai_identifier_str oai:repositorio.utfpr.edu.br:1/32829
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutumComparative analysis of single nucleotide polymorphism identification strategies in gossypium hirsutumSequenciamento de nucleotídeoBioinformáticaPolimorfismo (Genética)Nucleotide sequenceBioinformaticsGenetic polymorphismsCNPQ::ENGENHARIASEngenharia/Tecnologia/GestãoHigh-throughput sequencing platforms make it possible to generate huge amounts of data extremely quickly. However, sequencing methodologies are highly sensitive to errors, making the process of obtaining data highly dependent on bioinformatics tools. The challenge of identifying allelic variants in the processing of sequencing data encompasses the alignment of sequences with the reference genome of the target species. Variations in genetic variants, acquired through diverse approaches to polymorphism identification, may impart direct impacts upon the utilization of such data in genetic studies, including associative mapping and genomic selection.The present study aimed to compare two variant calling approaches (Fast-GBS and BWA/BFCTools) to determine their impact on the identification of single polymorphism nucleotides (SNPs) in a panel of 250 cotton (Gossypium hirsutum) genotypes of which 72 correspond to genotypes from TMG's germplasm bank (single-end sequences obtained by GBS with Ion Torrent sequencing) and 178 come from a study in the literature (paired-end sequences obtained by Illumina sequencing). The results were compared by surveying the total number of SNPs recovered, as well as the number of SNPs recovered per chromosome. Other metrics used were the SNP-Score (capable of weighting the number of SNP occurrences per allele calling pipeline), computational time and principal component analysis. The Fast-GBS pipeline retrieved a total of 417,975 SNPs for the TMG raw data subset and 38,685,370 SNPs for the literature raw data subset. We can identify that there are 24,402 SNPs in common across all datasets when the BWA/BCFTools pipeline was used and 15,348 SNPs in common across all datasets when the Fast-GBS pipeline used. At the end of these analyses, it was possible to conclude that the Fast-GBS pipeline has a better computational performance and that paired-end sequences suffer little influence from the software used to call alleles, due to its high precision. For single-end sequences, Fast-GBS pipeline performed better for raw sequencing data and BWA/BCFTools performed better with filtered data. The results obtained reinforce the need to consider several aspects when choosing methods for analysis.Plataformas de sequenciamento de alto rendimento viabilizam a geração de enorme quantidade de dados de forma extremamente rápida. No entanto, metodologias de sequenciamento são altamente sensíveis a erros, tornando o processo de obtenção de dados altamente dependente de ferramentas de bioinformática. A identificação de variantes alélicas é um importante desafio no processamento de dados de sequenciamento, o qual inclui o alinhamento das sequências com o genoma de referência da espécie alvo. A diferença nas variantes genéticas, obtida através de várias abordagens de identificação de polimorfismos, pode causar impactos diretos no uso desses dados em estudos genéticos. Esses impactos podem ser observados em áreas como o mapeamento associativo e a seleção genômica. O presente estudo teve como objetivo comparar duas abordagens de detecção de variantes (Fast-GBS e BWA/BFCTools) para determinar o seu impacto na identificação de nucleotídeos de polimorfismo único (SNPs) em um painel de 250 genótipos de algodão (Gossypium hirsutum), dos quais 72 correspondem a genótipos do banco de germoplasma da TMG (sequências single-end obtidas por GBS com sequenciamento Ion Torrent) e outros 178 são provenientes de um estudo na literatura (sequências paired-end obtidas por sequenciamento Illumina). Os resultados foram comparados através do levantamento do número total de SNPs recuperados, bem como o número de SNPs recuperados por cromossomo. Outras métricas utilizadas foram o SNP-Score (capaz de ponderar o número de ocorrências de SNPs por pipeline de chamada de alelos), tempo computacional e análise de componentes principais. O pipeline Fast-GBS recuperou um total de 417.975 SNPs para o subconjunto de dados brutos da TMG e 38.685.370 SNPs para o subconjunto de dados brutos da literatura enquanto o pipeline BWA/BCFTools recuperou um total de 254.805 SNPs para o subconjunto de dados brutos da TMG e 38.685.377 SNPs para o subconjunto de dados brutos da literatura. Podemos identificar que existem 24.402 SNPs em comum em todos os conjuntos de dados quando o pipeline BWA/BCFTools foi utilizado e 15.348 SNPs em comum entre todos os conjuntos de dados quando o pipeline Fast-GBS foi utilizado. Ao final das análises, foi possível concluir que o pipeline Fast-GBS possui um melhor desempenho computacional e que sequências paired-end sofrem pouca influência do software utilizado para chamada de alelos, devido à sua elevada precisão. Para sequências single-end, o pipeline Fast-GBS obteve melhor desempenho para dados brutos de sequenciamento e o BWA/BCFTools obteve melhor desempenho com dados filtrados. Os resultados obtidos reforçam a necessidade de considerar vários aspectos durante a escolha dos métodos para análise.Universidade Tecnológica Federal do ParanáCornelio ProcopioBrasilPrograma de Pós-Graduação em BioinformáticaUTFPRDomingues, Douglas Silvahttp://lattes.cnpq.br/7905667701769534Paschoal, Alexandre Rossihttps://orcid.org/0000-0002-8887-0582http://lattes.cnpq.br/5834088144837137Paschoal, Alexandre Rossihttp://lattes.cnpq.br/5834088144837137Domingues, Douglas Silvahttp://lattes.cnpq.br/7905667701769534Vicente, Fabio Fernandes da Rochahttp://lattes.cnpq.br/5799700325728628Lopes, Fabricio Martinshttp://lattes.cnpq.br/1660070580824436Kashiwabara, Liliane Santana OliveiraPatera, Andressa Caroline2023-11-08T16:40:18Z2028-10-312023-11-08T16:40:18Z2023-08-18info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfPATERA, Andressa Caroline. Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum. 2023. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2023.http://repositorio.utfpr.edu.br/jspui/handle/1/32829porinfo:eu-repo/semantics/embargoedAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2023-11-09T06:07:58Zoai:repositorio.utfpr.edu.br:1/32829Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2023-11-09T06:07:58Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum
Comparative analysis of single nucleotide polymorphism identification strategies in gossypium hirsutum
title Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum
spellingShingle Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum
Patera, Andressa Caroline
Sequenciamento de nucleotídeo
Bioinformática
Polimorfismo (Genética)
Nucleotide sequence
Bioinformatics
Genetic polymorphisms
CNPQ::ENGENHARIAS
Engenharia/Tecnologia/Gestão
title_short Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum
title_full Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum
title_fullStr Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum
title_full_unstemmed Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum
title_sort Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum
author Patera, Andressa Caroline
author_facet Patera, Andressa Caroline
author_role author
dc.contributor.none.fl_str_mv Domingues, Douglas Silva
http://lattes.cnpq.br/7905667701769534
Paschoal, Alexandre Rossi
https://orcid.org/0000-0002-8887-0582
http://lattes.cnpq.br/5834088144837137
Paschoal, Alexandre Rossi
http://lattes.cnpq.br/5834088144837137
Domingues, Douglas Silva
http://lattes.cnpq.br/7905667701769534
Vicente, Fabio Fernandes da Rocha
http://lattes.cnpq.br/5799700325728628
Lopes, Fabricio Martins
http://lattes.cnpq.br/1660070580824436
Kashiwabara, Liliane Santana Oliveira
dc.contributor.author.fl_str_mv Patera, Andressa Caroline
dc.subject.por.fl_str_mv Sequenciamento de nucleotídeo
Bioinformática
Polimorfismo (Genética)
Nucleotide sequence
Bioinformatics
Genetic polymorphisms
CNPQ::ENGENHARIAS
Engenharia/Tecnologia/Gestão
topic Sequenciamento de nucleotídeo
Bioinformática
Polimorfismo (Genética)
Nucleotide sequence
Bioinformatics
Genetic polymorphisms
CNPQ::ENGENHARIAS
Engenharia/Tecnologia/Gestão
description High-throughput sequencing platforms make it possible to generate huge amounts of data extremely quickly. However, sequencing methodologies are highly sensitive to errors, making the process of obtaining data highly dependent on bioinformatics tools. The challenge of identifying allelic variants in the processing of sequencing data encompasses the alignment of sequences with the reference genome of the target species. Variations in genetic variants, acquired through diverse approaches to polymorphism identification, may impart direct impacts upon the utilization of such data in genetic studies, including associative mapping and genomic selection.The present study aimed to compare two variant calling approaches (Fast-GBS and BWA/BFCTools) to determine their impact on the identification of single polymorphism nucleotides (SNPs) in a panel of 250 cotton (Gossypium hirsutum) genotypes of which 72 correspond to genotypes from TMG's germplasm bank (single-end sequences obtained by GBS with Ion Torrent sequencing) and 178 come from a study in the literature (paired-end sequences obtained by Illumina sequencing). The results were compared by surveying the total number of SNPs recovered, as well as the number of SNPs recovered per chromosome. Other metrics used were the SNP-Score (capable of weighting the number of SNP occurrences per allele calling pipeline), computational time and principal component analysis. The Fast-GBS pipeline retrieved a total of 417,975 SNPs for the TMG raw data subset and 38,685,370 SNPs for the literature raw data subset. We can identify that there are 24,402 SNPs in common across all datasets when the BWA/BCFTools pipeline was used and 15,348 SNPs in common across all datasets when the Fast-GBS pipeline used. At the end of these analyses, it was possible to conclude that the Fast-GBS pipeline has a better computational performance and that paired-end sequences suffer little influence from the software used to call alleles, due to its high precision. For single-end sequences, Fast-GBS pipeline performed better for raw sequencing data and BWA/BCFTools performed better with filtered data. The results obtained reinforce the need to consider several aspects when choosing methods for analysis.
publishDate 2023
dc.date.none.fl_str_mv 2023-11-08T16:40:18Z
2023-11-08T16:40:18Z
2023-08-18
2028-10-31
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv PATERA, Andressa Caroline. Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum. 2023. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2023.
http://repositorio.utfpr.edu.br/jspui/handle/1/32829
identifier_str_mv PATERA, Andressa Caroline. Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum. 2023. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2023.
url http://repositorio.utfpr.edu.br/jspui/handle/1/32829
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/embargoedAccess
eu_rights_str_mv embargoedAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850498368939229184