Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum
| Ano de defesa: | 2023 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso embargado |
| Idioma: | por |
| Instituição de defesa: |
Universidade Tecnológica Federal do Paraná
Cornelio Procopio Brasil Programa de Pós-Graduação em Bioinformática UTFPR |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://repositorio.utfpr.edu.br/jspui/handle/1/32829 |
Resumo: | High-throughput sequencing platforms make it possible to generate huge amounts of data extremely quickly. However, sequencing methodologies are highly sensitive to errors, making the process of obtaining data highly dependent on bioinformatics tools. The challenge of identifying allelic variants in the processing of sequencing data encompasses the alignment of sequences with the reference genome of the target species. Variations in genetic variants, acquired through diverse approaches to polymorphism identification, may impart direct impacts upon the utilization of such data in genetic studies, including associative mapping and genomic selection.The present study aimed to compare two variant calling approaches (Fast-GBS and BWA/BFCTools) to determine their impact on the identification of single polymorphism nucleotides (SNPs) in a panel of 250 cotton (Gossypium hirsutum) genotypes of which 72 correspond to genotypes from TMG's germplasm bank (single-end sequences obtained by GBS with Ion Torrent sequencing) and 178 come from a study in the literature (paired-end sequences obtained by Illumina sequencing). The results were compared by surveying the total number of SNPs recovered, as well as the number of SNPs recovered per chromosome. Other metrics used were the SNP-Score (capable of weighting the number of SNP occurrences per allele calling pipeline), computational time and principal component analysis. The Fast-GBS pipeline retrieved a total of 417,975 SNPs for the TMG raw data subset and 38,685,370 SNPs for the literature raw data subset. We can identify that there are 24,402 SNPs in common across all datasets when the BWA/BCFTools pipeline was used and 15,348 SNPs in common across all datasets when the Fast-GBS pipeline used. At the end of these analyses, it was possible to conclude that the Fast-GBS pipeline has a better computational performance and that paired-end sequences suffer little influence from the software used to call alleles, due to its high precision. For single-end sequences, Fast-GBS pipeline performed better for raw sequencing data and BWA/BCFTools performed better with filtered data. The results obtained reinforce the need to consider several aspects when choosing methods for analysis. |
| id |
UTFPR-12_98c7afd62ccef8ad9b3376132945f019 |
|---|---|
| oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/32829 |
| network_acronym_str |
UTFPR-12 |
| network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository_id_str |
|
| spelling |
Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutumComparative analysis of single nucleotide polymorphism identification strategies in gossypium hirsutumSequenciamento de nucleotídeoBioinformáticaPolimorfismo (Genética)Nucleotide sequenceBioinformaticsGenetic polymorphismsCNPQ::ENGENHARIASEngenharia/Tecnologia/GestãoHigh-throughput sequencing platforms make it possible to generate huge amounts of data extremely quickly. However, sequencing methodologies are highly sensitive to errors, making the process of obtaining data highly dependent on bioinformatics tools. The challenge of identifying allelic variants in the processing of sequencing data encompasses the alignment of sequences with the reference genome of the target species. Variations in genetic variants, acquired through diverse approaches to polymorphism identification, may impart direct impacts upon the utilization of such data in genetic studies, including associative mapping and genomic selection.The present study aimed to compare two variant calling approaches (Fast-GBS and BWA/BFCTools) to determine their impact on the identification of single polymorphism nucleotides (SNPs) in a panel of 250 cotton (Gossypium hirsutum) genotypes of which 72 correspond to genotypes from TMG's germplasm bank (single-end sequences obtained by GBS with Ion Torrent sequencing) and 178 come from a study in the literature (paired-end sequences obtained by Illumina sequencing). The results were compared by surveying the total number of SNPs recovered, as well as the number of SNPs recovered per chromosome. Other metrics used were the SNP-Score (capable of weighting the number of SNP occurrences per allele calling pipeline), computational time and principal component analysis. The Fast-GBS pipeline retrieved a total of 417,975 SNPs for the TMG raw data subset and 38,685,370 SNPs for the literature raw data subset. We can identify that there are 24,402 SNPs in common across all datasets when the BWA/BCFTools pipeline was used and 15,348 SNPs in common across all datasets when the Fast-GBS pipeline used. At the end of these analyses, it was possible to conclude that the Fast-GBS pipeline has a better computational performance and that paired-end sequences suffer little influence from the software used to call alleles, due to its high precision. For single-end sequences, Fast-GBS pipeline performed better for raw sequencing data and BWA/BCFTools performed better with filtered data. The results obtained reinforce the need to consider several aspects when choosing methods for analysis.Plataformas de sequenciamento de alto rendimento viabilizam a geração de enorme quantidade de dados de forma extremamente rápida. No entanto, metodologias de sequenciamento são altamente sensíveis a erros, tornando o processo de obtenção de dados altamente dependente de ferramentas de bioinformática. A identificação de variantes alélicas é um importante desafio no processamento de dados de sequenciamento, o qual inclui o alinhamento das sequências com o genoma de referência da espécie alvo. A diferença nas variantes genéticas, obtida através de várias abordagens de identificação de polimorfismos, pode causar impactos diretos no uso desses dados em estudos genéticos. Esses impactos podem ser observados em áreas como o mapeamento associativo e a seleção genômica. O presente estudo teve como objetivo comparar duas abordagens de detecção de variantes (Fast-GBS e BWA/BFCTools) para determinar o seu impacto na identificação de nucleotídeos de polimorfismo único (SNPs) em um painel de 250 genótipos de algodão (Gossypium hirsutum), dos quais 72 correspondem a genótipos do banco de germoplasma da TMG (sequências single-end obtidas por GBS com sequenciamento Ion Torrent) e outros 178 são provenientes de um estudo na literatura (sequências paired-end obtidas por sequenciamento Illumina). Os resultados foram comparados através do levantamento do número total de SNPs recuperados, bem como o número de SNPs recuperados por cromossomo. Outras métricas utilizadas foram o SNP-Score (capaz de ponderar o número de ocorrências de SNPs por pipeline de chamada de alelos), tempo computacional e análise de componentes principais. O pipeline Fast-GBS recuperou um total de 417.975 SNPs para o subconjunto de dados brutos da TMG e 38.685.370 SNPs para o subconjunto de dados brutos da literatura enquanto o pipeline BWA/BCFTools recuperou um total de 254.805 SNPs para o subconjunto de dados brutos da TMG e 38.685.377 SNPs para o subconjunto de dados brutos da literatura. Podemos identificar que existem 24.402 SNPs em comum em todos os conjuntos de dados quando o pipeline BWA/BCFTools foi utilizado e 15.348 SNPs em comum entre todos os conjuntos de dados quando o pipeline Fast-GBS foi utilizado. Ao final das análises, foi possível concluir que o pipeline Fast-GBS possui um melhor desempenho computacional e que sequências paired-end sofrem pouca influência do software utilizado para chamada de alelos, devido à sua elevada precisão. Para sequências single-end, o pipeline Fast-GBS obteve melhor desempenho para dados brutos de sequenciamento e o BWA/BCFTools obteve melhor desempenho com dados filtrados. Os resultados obtidos reforçam a necessidade de considerar vários aspectos durante a escolha dos métodos para análise.Universidade Tecnológica Federal do ParanáCornelio ProcopioBrasilPrograma de Pós-Graduação em BioinformáticaUTFPRDomingues, Douglas Silvahttp://lattes.cnpq.br/7905667701769534Paschoal, Alexandre Rossihttps://orcid.org/0000-0002-8887-0582http://lattes.cnpq.br/5834088144837137Paschoal, Alexandre Rossihttp://lattes.cnpq.br/5834088144837137Domingues, Douglas Silvahttp://lattes.cnpq.br/7905667701769534Vicente, Fabio Fernandes da Rochahttp://lattes.cnpq.br/5799700325728628Lopes, Fabricio Martinshttp://lattes.cnpq.br/1660070580824436Kashiwabara, Liliane Santana OliveiraPatera, Andressa Caroline2023-11-08T16:40:18Z2028-10-312023-11-08T16:40:18Z2023-08-18info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfPATERA, Andressa Caroline. Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum. 2023. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2023.http://repositorio.utfpr.edu.br/jspui/handle/1/32829porinfo:eu-repo/semantics/embargoedAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2023-11-09T06:07:58Zoai:repositorio.utfpr.edu.br:1/32829Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2023-11-09T06:07:58Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
| dc.title.none.fl_str_mv |
Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum Comparative analysis of single nucleotide polymorphism identification strategies in gossypium hirsutum |
| title |
Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum |
| spellingShingle |
Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum Patera, Andressa Caroline Sequenciamento de nucleotídeo Bioinformática Polimorfismo (Genética) Nucleotide sequence Bioinformatics Genetic polymorphisms CNPQ::ENGENHARIAS Engenharia/Tecnologia/Gestão |
| title_short |
Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum |
| title_full |
Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum |
| title_fullStr |
Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum |
| title_full_unstemmed |
Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum |
| title_sort |
Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum |
| author |
Patera, Andressa Caroline |
| author_facet |
Patera, Andressa Caroline |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Domingues, Douglas Silva http://lattes.cnpq.br/7905667701769534 Paschoal, Alexandre Rossi https://orcid.org/0000-0002-8887-0582 http://lattes.cnpq.br/5834088144837137 Paschoal, Alexandre Rossi http://lattes.cnpq.br/5834088144837137 Domingues, Douglas Silva http://lattes.cnpq.br/7905667701769534 Vicente, Fabio Fernandes da Rocha http://lattes.cnpq.br/5799700325728628 Lopes, Fabricio Martins http://lattes.cnpq.br/1660070580824436 Kashiwabara, Liliane Santana Oliveira |
| dc.contributor.author.fl_str_mv |
Patera, Andressa Caroline |
| dc.subject.por.fl_str_mv |
Sequenciamento de nucleotídeo Bioinformática Polimorfismo (Genética) Nucleotide sequence Bioinformatics Genetic polymorphisms CNPQ::ENGENHARIAS Engenharia/Tecnologia/Gestão |
| topic |
Sequenciamento de nucleotídeo Bioinformática Polimorfismo (Genética) Nucleotide sequence Bioinformatics Genetic polymorphisms CNPQ::ENGENHARIAS Engenharia/Tecnologia/Gestão |
| description |
High-throughput sequencing platforms make it possible to generate huge amounts of data extremely quickly. However, sequencing methodologies are highly sensitive to errors, making the process of obtaining data highly dependent on bioinformatics tools. The challenge of identifying allelic variants in the processing of sequencing data encompasses the alignment of sequences with the reference genome of the target species. Variations in genetic variants, acquired through diverse approaches to polymorphism identification, may impart direct impacts upon the utilization of such data in genetic studies, including associative mapping and genomic selection.The present study aimed to compare two variant calling approaches (Fast-GBS and BWA/BFCTools) to determine their impact on the identification of single polymorphism nucleotides (SNPs) in a panel of 250 cotton (Gossypium hirsutum) genotypes of which 72 correspond to genotypes from TMG's germplasm bank (single-end sequences obtained by GBS with Ion Torrent sequencing) and 178 come from a study in the literature (paired-end sequences obtained by Illumina sequencing). The results were compared by surveying the total number of SNPs recovered, as well as the number of SNPs recovered per chromosome. Other metrics used were the SNP-Score (capable of weighting the number of SNP occurrences per allele calling pipeline), computational time and principal component analysis. The Fast-GBS pipeline retrieved a total of 417,975 SNPs for the TMG raw data subset and 38,685,370 SNPs for the literature raw data subset. We can identify that there are 24,402 SNPs in common across all datasets when the BWA/BCFTools pipeline was used and 15,348 SNPs in common across all datasets when the Fast-GBS pipeline used. At the end of these analyses, it was possible to conclude that the Fast-GBS pipeline has a better computational performance and that paired-end sequences suffer little influence from the software used to call alleles, due to its high precision. For single-end sequences, Fast-GBS pipeline performed better for raw sequencing data and BWA/BCFTools performed better with filtered data. The results obtained reinforce the need to consider several aspects when choosing methods for analysis. |
| publishDate |
2023 |
| dc.date.none.fl_str_mv |
2023-11-08T16:40:18Z 2023-11-08T16:40:18Z 2023-08-18 2028-10-31 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
PATERA, Andressa Caroline. Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum. 2023. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2023. http://repositorio.utfpr.edu.br/jspui/handle/1/32829 |
| identifier_str_mv |
PATERA, Andressa Caroline. Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum. 2023. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2023. |
| url |
http://repositorio.utfpr.edu.br/jspui/handle/1/32829 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/embargoedAccess |
| eu_rights_str_mv |
embargoedAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Cornelio Procopio Brasil Programa de Pós-Graduação em Bioinformática UTFPR |
| publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Cornelio Procopio Brasil Programa de Pós-Graduação em Bioinformática UTFPR |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
| instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
| instacron_str |
UTFPR |
| institution |
UTFPR |
| reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
| repository.mail.fl_str_mv |
riut@utfpr.edu.br || sibi@utfpr.edu.br |
| _version_ |
1850498368939229184 |