PreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seq

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Souza, Jean Silva de
Orientador(a): Castro, Mauro Antônio Alves
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/1884/81138
Resumo: Orientador: Mauro Antônio Alves Castro.
id UFPR_5bdbaff48155b9e630f6ab5d1c8cf161
oai_identifier_str oai:acervodigital.ufpr.br:1884/81138
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str
spelling Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em BioinformáticaCastro, Mauro Antônio AlvesSouza, Jean Silva de2023-02-09T18:35:52Z2023-02-09T18:35:52Z2022https://hdl.handle.net/1884/81138Orientador: Mauro Antônio Alves Castro.Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 26/11/2022Inclui referências: p. 55-61Resumo: O sequenciamento de RNA através de sequenciadores de nova geração é denominado de RNA-Se , este sequenciamento permite estimar a abundância de transcritos e a identificação de genes diferencialmente expressos entre amostras. Apesar da reconhecida robustez metodológica dos dados gerados por RNA-Seq, o tratamento dos dados após o sequenciamento tem grande impacto na eficiência e consistência dos resultados. Há várias etapas envolvidas no preparo das amostras e execução do sequenciamento. Essas etapas podem resultar em produtos com vieses técnicos, contaminações, presença de adaptadores, bem como efeitos de lote que podem gerar leituras imprecisas, resultando em maior número de falsos positivos e falsos negativos. Recomendações de boas práticas nesta área incluem a realização do controle de qualidade em todas as etapas do pré-processamento dos dados, desde a coleta e o preparo das amostras até a quantificação dos transcritos, sendo muitas vezes necessário a implementação de fluxos de análise dedicados a diferentes cenários experimentais. Neste trabalho nós implementamos um novo pipeline de análise visando a padronização e harmonização dos principais algoritmos comumente utilizados no pré-processamento de dados de RNA-Seq. Denominado PreProcSEQ, nosso pipeline disponibiliza código fonte e descrição detalhada de todas etapas necessárias ao pré-processamento de dados de RNA-Seq, até a obtenção da matriz de expressão gênica. O PreProcSEQ agrega e sumariza resultados do controle de qualidade, retira resíduos de adaptadores e bases de baixa qualidade, retira efeitos de lotes preservando contagens, quantifica e anota transcritos, gera matrizes brutas e normalizadas de expressão gênica. O PreProcSEQ foi otimizado para demandar pouco recurso computacional, podendo ser utilizado tanto em computadores desktops como laptops. Disponibilizamos o PreProcSEQ nos repositórios github e Galaxy, no formato de um pacote R ou fluxo de trabalho científico. Antecipamos que o PreProcSEQ auxiliará pesquisadores na integração de algoritmos de pré-processamento de dados de RNA-Seq, simplificando a seleção de ferramentas e o uso de boas práticas recomendadas para a quantificação de transcritos.Abstract: The sequencing of RNA through next generation sequencers is called RNA-Seq, this sequencing allows estimating the abundance of transcripts and the identification of differentially expressed genes between samples. Despite the recognized methodological robustness of the data generated by RNA-Seq, the treatment of the data after sequencing has a great impact on the eficiency and consistency of the results. There are several steps involved in preparing samples and performing sequencing. These steps can result in products with technical biases, contamination, the presence of adapters, as well as batch effects that can generate inaccurate readings, resulting in a greater number of false positives and false negatives. Good practice recommendations in this area include carrying out quality control at all stages of data pre-processing, from sample collection and preparation to transcript quantification, often requiring the implementation of analysis flows dedicated to different experimental scenarios. In this work we implemented a new analysis pipeline aimed at standardizing and harmonizing the main algorithms commonly used in the pre-processing of RNA-Seq data. Called PreProcSEQ, our pipeline provides source code and a detailed description of all steps necessary for pre-processing RNA-Seq data, until obtaining the gene expression matrix. PreProcSEQ aggregates and summarizes quality control results, removes residues from poor quality adapters and bases, removes batch effects while preserving counts, quantifies and annotates transcripts, generates raw and normalized arrays of gene expression. PreProcSEQ was optimized to demand little computational resources, and can be used both on desktop and laptop computers. We make PreProcSEQ available in the github and Galaxy repositories, in the form of an R package or scientific workflow. We anticipate that PreProcSEQ will assist researchers in integrating RNA-Seq data preprocessing algorithms, simplifying tool selection and the use of recommended best practices for transcript quantitation.1 recurso online : PDF.application/pdfBioinformáticaCiências BiológicasPreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seqinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - JEAN SILVA DE SOUZA.pdfapplication/pdf2280663https://acervodigital.ufpr.br/bitstream/1884/81138/1/R%20-%20D%20-%20JEAN%20SILVA%20DE%20SOUZA.pdf025034383f442bf7d52d8ca6b789cd98MD51open access1884/811382023-02-09 15:35:52.981open accessoai:acervodigital.ufpr.br:1884/81138Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082023-02-09T18:35:52Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv PreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seq
title PreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seq
spellingShingle PreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seq
Souza, Jean Silva de
Bioinformática
Ciências Biológicas
title_short PreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seq
title_full PreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seq
title_fullStr PreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seq
title_full_unstemmed PreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seq
title_sort PreProcSEQ : pipeline de controle de qualidade e pré-processamento de dados de RNA-Seq
author Souza, Jean Silva de
author_facet Souza, Jean Silva de
author_role author
dc.contributor.other.pt_BR.fl_str_mv Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática
dc.contributor.advisor1.fl_str_mv Castro, Mauro Antônio Alves
dc.contributor.author.fl_str_mv Souza, Jean Silva de
contributor_str_mv Castro, Mauro Antônio Alves
dc.subject.por.fl_str_mv Bioinformática
Ciências Biológicas
topic Bioinformática
Ciências Biológicas
description Orientador: Mauro Antônio Alves Castro.
publishDate 2022
dc.date.issued.fl_str_mv 2022
dc.date.accessioned.fl_str_mv 2023-02-09T18:35:52Z
dc.date.available.fl_str_mv 2023-02-09T18:35:52Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/81138
url https://hdl.handle.net/1884/81138
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 1 recurso online : PDF.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/81138/1/R%20-%20D%20-%20JEAN%20SILVA%20DE%20SOUZA.pdf
bitstream.checksum.fl_str_mv 025034383f442bf7d52d8ca6b789cd98
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1797699645072211968