PreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seq
Ano de defesa: | 2022 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://hdl.handle.net/1884/81138 |
Resumo: | Orientador: Mauro Antônio Alves Castro. |
id |
UFPR_5bdbaff48155b9e630f6ab5d1c8cf161 |
---|---|
oai_identifier_str |
oai:acervodigital.ufpr.br:1884/81138 |
network_acronym_str |
UFPR |
network_name_str |
Repositório Institucional da UFPR |
repository_id_str |
|
spelling |
Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em BioinformáticaCastro, Mauro Antônio AlvesSouza, Jean Silva de2023-02-09T18:35:52Z2023-02-09T18:35:52Z2022https://hdl.handle.net/1884/81138Orientador: Mauro Antônio Alves Castro.Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 26/11/2022Inclui referências: p. 55-61Resumo: O sequenciamento de RNA através de sequenciadores de nova geração é denominado de RNA-Se , este sequenciamento permite estimar a abundância de transcritos e a identificação de genes diferencialmente expressos entre amostras. Apesar da reconhecida robustez metodológica dos dados gerados por RNA-Seq, o tratamento dos dados após o sequenciamento tem grande impacto na eficiência e consistência dos resultados. Há várias etapas envolvidas no preparo das amostras e execução do sequenciamento. Essas etapas podem resultar em produtos com vieses técnicos, contaminações, presença de adaptadores, bem como efeitos de lote que podem gerar leituras imprecisas, resultando em maior número de falsos positivos e falsos negativos. Recomendações de boas práticas nesta área incluem a realização do controle de qualidade em todas as etapas do pré-processamento dos dados, desde a coleta e o preparo das amostras até a quantificação dos transcritos, sendo muitas vezes necessário a implementação de fluxos de análise dedicados a diferentes cenários experimentais. Neste trabalho nós implementamos um novo pipeline de análise visando a padronização e harmonização dos principais algoritmos comumente utilizados no pré-processamento de dados de RNA-Seq. Denominado PreProcSEQ, nosso pipeline disponibiliza código fonte e descrição detalhada de todas etapas necessárias ao pré-processamento de dados de RNA-Seq, até a obtenção da matriz de expressão gênica. O PreProcSEQ agrega e sumariza resultados do controle de qualidade, retira resíduos de adaptadores e bases de baixa qualidade, retira efeitos de lotes preservando contagens, quantifica e anota transcritos, gera matrizes brutas e normalizadas de expressão gênica. O PreProcSEQ foi otimizado para demandar pouco recurso computacional, podendo ser utilizado tanto em computadores desktops como laptops. Disponibilizamos o PreProcSEQ nos repositórios github e Galaxy, no formato de um pacote R ou fluxo de trabalho científico. Antecipamos que o PreProcSEQ auxiliará pesquisadores na integração de algoritmos de pré-processamento de dados de RNA-Seq, simplificando a seleção de ferramentas e o uso de boas práticas recomendadas para a quantificação de transcritos.Abstract: The sequencing of RNA through next generation sequencers is called RNA-Seq, this sequencing allows estimating the abundance of transcripts and the identification of differentially expressed genes between samples. Despite the recognized methodological robustness of the data generated by RNA-Seq, the treatment of the data after sequencing has a great impact on the eficiency and consistency of the results. There are several steps involved in preparing samples and performing sequencing. These steps can result in products with technical biases, contamination, the presence of adapters, as well as batch effects that can generate inaccurate readings, resulting in a greater number of false positives and false negatives. Good practice recommendations in this area include carrying out quality control at all stages of data pre-processing, from sample collection and preparation to transcript quantification, often requiring the implementation of analysis flows dedicated to different experimental scenarios. In this work we implemented a new analysis pipeline aimed at standardizing and harmonizing the main algorithms commonly used in the pre-processing of RNA-Seq data. Called PreProcSEQ, our pipeline provides source code and a detailed description of all steps necessary for pre-processing RNA-Seq data, until obtaining the gene expression matrix. PreProcSEQ aggregates and summarizes quality control results, removes residues from poor quality adapters and bases, removes batch effects while preserving counts, quantifies and annotates transcripts, generates raw and normalized arrays of gene expression. PreProcSEQ was optimized to demand little computational resources, and can be used both on desktop and laptop computers. We make PreProcSEQ available in the github and Galaxy repositories, in the form of an R package or scientific workflow. We anticipate that PreProcSEQ will assist researchers in integrating RNA-Seq data preprocessing algorithms, simplifying tool selection and the use of recommended best practices for transcript quantitation.1 recurso online : PDF.application/pdfBioinformáticaCiências BiológicasPreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seqinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - JEAN SILVA DE SOUZA.pdfapplication/pdf2280663https://acervodigital.ufpr.br/bitstream/1884/81138/1/R%20-%20D%20-%20JEAN%20SILVA%20DE%20SOUZA.pdf025034383f442bf7d52d8ca6b789cd98MD51open access1884/811382023-02-09 15:35:52.981open accessoai:acervodigital.ufpr.br:1884/81138Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082023-02-09T18:35:52Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false |
dc.title.pt_BR.fl_str_mv |
PreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seq |
title |
PreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seq |
spellingShingle |
PreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seq Souza, Jean Silva de Bioinformática Ciências Biológicas |
title_short |
PreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seq |
title_full |
PreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seq |
title_fullStr |
PreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seq |
title_full_unstemmed |
PreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seq |
title_sort |
PreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seq |
author |
Souza, Jean Silva de |
author_facet |
Souza, Jean Silva de |
author_role |
author |
dc.contributor.other.pt_BR.fl_str_mv |
Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática |
dc.contributor.advisor1.fl_str_mv |
Castro, Mauro Antônio Alves |
dc.contributor.author.fl_str_mv |
Souza, Jean Silva de |
contributor_str_mv |
Castro, Mauro Antônio Alves |
dc.subject.por.fl_str_mv |
Bioinformática Ciências Biológicas |
topic |
Bioinformática Ciências Biológicas |
description |
Orientador: Mauro Antônio Alves Castro. |
publishDate |
2022 |
dc.date.issued.fl_str_mv |
2022 |
dc.date.accessioned.fl_str_mv |
2023-02-09T18:35:52Z |
dc.date.available.fl_str_mv |
2023-02-09T18:35:52Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1884/81138 |
url |
https://hdl.handle.net/1884/81138 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
1 recurso online : PDF. application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR |
instname_str |
Universidade Federal do Paraná (UFPR) |
instacron_str |
UFPR |
institution |
UFPR |
reponame_str |
Repositório Institucional da UFPR |
collection |
Repositório Institucional da UFPR |
bitstream.url.fl_str_mv |
https://acervodigital.ufpr.br/bitstream/1884/81138/1/R%20-%20D%20-%20JEAN%20SILVA%20DE%20SOUZA.pdf |
bitstream.checksum.fl_str_mv |
025034383f442bf7d52d8ca6b789cd98 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR) |
repository.mail.fl_str_mv |
|
_version_ |
1797699645072211968 |