Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Machado, Douglas Terra
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://tede.lncc.br/handle/tede/348
Resumo: Com o avanço tecnológico envolvendo o sequenciamento de RNAs (RNA-Seq, do inglês: RNA-Sequencing) e com auxílio de ferramentas da Bioinformática, é possível quantificar os níveis transcricionais dos genes em células, tecidos e linhagens celulares possibilitando a identificação de Genes Diferencialmente Expressos (GDEs). Na literatura científica, as ferramentas DESeq2 e edgeR são usadas para essa inferência por meio dos modelos lineares generalizados, que são modelos que consideram apenas os efeitos fixos no desenho experimental. Entretanto, a não inclusão dos efeitos aleatórios, que são efeitos que causam mais variabilidade no desenho experimental, gera a possibilidade de que possíveis GDEs que poderiam ser importantes no contexto do fenômeno biológico de estudo sejam perdidos. Esta dissertação propõe o desenvolvimento de duas ferramentas computacionais que utilizam os efeitos fixos e os efeitos aleatórios para uma inferência acurada de GDEs: DEGFiE (Differentially Expressed Genes with Fixed Effects, em português: Expressão Gênica Diferencial com Efeitos Fixos) e DEGRE (Differentially Expressed Genes with Random Effects, em português: Expressão Gênica Diferencial com Efeitos Aleatórios). O coeficiente de variação biológica foi inferido nas matrizes de contagem para analisar as variabilidades técnica e biológica dos conjuntos de dados antes e após a etapa de pré-processamento. A validação computacional das ferramentas DEGFiE e DEGRE foi realizada por meio da simulação de matrizes de contagem, as quais possuem a variabilidade biológica relacionada aos efeitos fixos e aos efeitos aleatórios. Além das matrizes simuladas, foram recuperados dados públicos de RNA-Seq tanto de pacientes com desordem de bipolaridade quanto de indivíduos saudáveis. Esses dados foram utilizados como análise preliminar da aplicação da ferramenta DEGRE em experimentos reais, auxiliando na validação desta ferramenta. A performance na detecção dos GDEs das ferramentas DEGFiE e DEGRE foi comparada com as ferramentas DESeq2 e edgeR e avaliada por meio das métricas de avaliação: acurácia, precisão e sensibilidade. A ferramenta DEGFiE apresentou as métricas de avaliação equivalentes com as ferramentas DESeq2 e edgeR, evidenciando que o pré-processamento desenvolvido nesta dissertação foi eficiente na remoção de ruídos técnicos das matrizes. A ferramenta DEGRE apresentou melhores métricas de avaliação na detecção de GDEs nas matrizes com maior variabilidade biológica dos efeitos aleatórios. Essa ferramenta também detectou novos GDEs nos dados de transcriptoma de pacientes com desordem de bipolaridade ao considerar o sexo dos pacientes como efeito aleatório. Em virtude dos aspectos abordados envolvendo a etapa de pré-processamento e a inferência de GDEs, a ferramenta DEGRE, proposta nesta dissertação, mostra-se promissora na identificação de possíveis GDEs em experimentos oriundos de desenhos experimentais mais complexos.
id LNCC_c1ad90b64ea32a38857e0c1ea23d1df4
oai_identifier_str oai:tede-server.lncc.br:tede/348
network_acronym_str LNCC
network_name_str Biblioteca Digital de Teses e Dissertações do LNCC
repository_id_str
spelling Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistosBioinformáticaExpressão gênicaExpressão gênica diferencialModelo em escala genômicaCNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERALCom o avanço tecnológico envolvendo o sequenciamento de RNAs (RNA-Seq, do inglês: RNA-Sequencing) e com auxílio de ferramentas da Bioinformática, é possível quantificar os níveis transcricionais dos genes em células, tecidos e linhagens celulares possibilitando a identificação de Genes Diferencialmente Expressos (GDEs). Na literatura científica, as ferramentas DESeq2 e edgeR são usadas para essa inferência por meio dos modelos lineares generalizados, que são modelos que consideram apenas os efeitos fixos no desenho experimental. Entretanto, a não inclusão dos efeitos aleatórios, que são efeitos que causam mais variabilidade no desenho experimental, gera a possibilidade de que possíveis GDEs que poderiam ser importantes no contexto do fenômeno biológico de estudo sejam perdidos. Esta dissertação propõe o desenvolvimento de duas ferramentas computacionais que utilizam os efeitos fixos e os efeitos aleatórios para uma inferência acurada de GDEs: DEGFiE (Differentially Expressed Genes with Fixed Effects, em português: Expressão Gênica Diferencial com Efeitos Fixos) e DEGRE (Differentially Expressed Genes with Random Effects, em português: Expressão Gênica Diferencial com Efeitos Aleatórios). O coeficiente de variação biológica foi inferido nas matrizes de contagem para analisar as variabilidades técnica e biológica dos conjuntos de dados antes e após a etapa de pré-processamento. A validação computacional das ferramentas DEGFiE e DEGRE foi realizada por meio da simulação de matrizes de contagem, as quais possuem a variabilidade biológica relacionada aos efeitos fixos e aos efeitos aleatórios. Além das matrizes simuladas, foram recuperados dados públicos de RNA-Seq tanto de pacientes com desordem de bipolaridade quanto de indivíduos saudáveis. Esses dados foram utilizados como análise preliminar da aplicação da ferramenta DEGRE em experimentos reais, auxiliando na validação desta ferramenta. A performance na detecção dos GDEs das ferramentas DEGFiE e DEGRE foi comparada com as ferramentas DESeq2 e edgeR e avaliada por meio das métricas de avaliação: acurácia, precisão e sensibilidade. A ferramenta DEGFiE apresentou as métricas de avaliação equivalentes com as ferramentas DESeq2 e edgeR, evidenciando que o pré-processamento desenvolvido nesta dissertação foi eficiente na remoção de ruídos técnicos das matrizes. A ferramenta DEGRE apresentou melhores métricas de avaliação na detecção de GDEs nas matrizes com maior variabilidade biológica dos efeitos aleatórios. Essa ferramenta também detectou novos GDEs nos dados de transcriptoma de pacientes com desordem de bipolaridade ao considerar o sexo dos pacientes como efeito aleatório. Em virtude dos aspectos abordados envolvendo a etapa de pré-processamento e a inferência de GDEs, a ferramenta DEGRE, proposta nesta dissertação, mostra-se promissora na identificação de possíveis GDEs em experimentos oriundos de desenhos experimentais mais complexos.With the technological advance involving the sequencing of RNAs (RNA-Seq) and with the Bioinformatics tools, it is possible to quantify the transcriptional levels of genes in cells, tissues and cell lines, allowing the identification of Differentially Expressed Genes (DEGs). In the scientific literature, DESeq2 and edgeR tools are used for this inference through generalized linear models, which are models that consider only fixed effects in the experimental design. However, the non-inclusion of random effects, which are effects that cause more variability in the experimental design, raises the possibility that possible DEGs that could be important in the context of the biological phenomenon under study are missed. This dissertation proposes the development of two computational tools that use fixed effects and random effects for an accurate inference of DEGs: DEGFiE (Differentially Expressed Genes with Fixed Effects) and DEGRE (Differentially Expressed Genes with Random Effects). The coefficient of biological variation was inferred in the counting matrices to analyze the technical and biological variability of the data sets before and after the pre-processing step. The computational validation of the DEGFiE and DEGRE tools was performed through the simulation of counting matrices, which have biological variability related to fixed and random effects. In addition to the simulated matrices, public RNA-Seq data were retrieved from both patients with bipolar disorder and healthy subjects. These data were used as a preliminary analysis of the application of the DEGRE tool in real experiments, helping to validate this tool. The performance in detecting the DEGs of the DEGFiE and DEGRE tools was compared with the DESeq2 and edgeR tools and evaluated through the evaluation metrics: accuracy, precision and sensitivity. The DEGFiE tool presented the equivalent evaluation metrics with the DESeq2 and edgeR tools, showing that the pre-processing developed in this dissertation was efficient in removing technical noise from the matrices. The tool DEGRE presented better evaluation metrics in the detection of DEGs in matrices with greater biological variability of random effects. This tool also detected new DEGs in the transcriptome data of patients with bipolar disorder when considering the sex of patients as a random effect. Due to the aspects discussed involving the pre-processing stage and the inference of DEGs, the DEGRE tool, proposed in this dissertation, shows promise in the identification of possible DEGs in experiments derived from more complex experimental designs. Keyworkds: gene dispersion, differentially expressed genes, random effects, generalized linear mixed model, pre-processing.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorLaboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BrasilLNCCPrograma de Pós-Graduação em Modelagem ComputacionalVasconcelos, Ana Tereza Ribeiro deBrustolini, Otávio José BernardesVasconcelos, Ana Tereza Ribeiro deGuedes, Luciane Prioli CiapinaMaia, Marco Antonio Grivet MattosoMachado, Douglas Terra2023-04-06T18:13:57Z2022-02-14info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfMACHADO, D. T. Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos. 2022. 97 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2022.https://tede.lncc.br/handle/tede/348porhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2023-04-07T05:05:31Zoai:tede-server.lncc.br:tede/348Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-04-07T05:05:31Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false
dc.title.none.fl_str_mv Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos
title Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos
spellingShingle Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos
Machado, Douglas Terra
Bioinformática
Expressão gênica
Expressão gênica diferencial
Modelo em escala genômica
CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL
title_short Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos
title_full Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos
title_fullStr Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos
title_full_unstemmed Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos
title_sort Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos
author Machado, Douglas Terra
author_facet Machado, Douglas Terra
author_role author
dc.contributor.none.fl_str_mv Vasconcelos, Ana Tereza Ribeiro de
Brustolini, Otávio José Bernardes
Vasconcelos, Ana Tereza Ribeiro de
Guedes, Luciane Prioli Ciapina
Maia, Marco Antonio Grivet Mattoso
dc.contributor.author.fl_str_mv Machado, Douglas Terra
dc.subject.por.fl_str_mv Bioinformática
Expressão gênica
Expressão gênica diferencial
Modelo em escala genômica
CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL
topic Bioinformática
Expressão gênica
Expressão gênica diferencial
Modelo em escala genômica
CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL
description Com o avanço tecnológico envolvendo o sequenciamento de RNAs (RNA-Seq, do inglês: RNA-Sequencing) e com auxílio de ferramentas da Bioinformática, é possível quantificar os níveis transcricionais dos genes em células, tecidos e linhagens celulares possibilitando a identificação de Genes Diferencialmente Expressos (GDEs). Na literatura científica, as ferramentas DESeq2 e edgeR são usadas para essa inferência por meio dos modelos lineares generalizados, que são modelos que consideram apenas os efeitos fixos no desenho experimental. Entretanto, a não inclusão dos efeitos aleatórios, que são efeitos que causam mais variabilidade no desenho experimental, gera a possibilidade de que possíveis GDEs que poderiam ser importantes no contexto do fenômeno biológico de estudo sejam perdidos. Esta dissertação propõe o desenvolvimento de duas ferramentas computacionais que utilizam os efeitos fixos e os efeitos aleatórios para uma inferência acurada de GDEs: DEGFiE (Differentially Expressed Genes with Fixed Effects, em português: Expressão Gênica Diferencial com Efeitos Fixos) e DEGRE (Differentially Expressed Genes with Random Effects, em português: Expressão Gênica Diferencial com Efeitos Aleatórios). O coeficiente de variação biológica foi inferido nas matrizes de contagem para analisar as variabilidades técnica e biológica dos conjuntos de dados antes e após a etapa de pré-processamento. A validação computacional das ferramentas DEGFiE e DEGRE foi realizada por meio da simulação de matrizes de contagem, as quais possuem a variabilidade biológica relacionada aos efeitos fixos e aos efeitos aleatórios. Além das matrizes simuladas, foram recuperados dados públicos de RNA-Seq tanto de pacientes com desordem de bipolaridade quanto de indivíduos saudáveis. Esses dados foram utilizados como análise preliminar da aplicação da ferramenta DEGRE em experimentos reais, auxiliando na validação desta ferramenta. A performance na detecção dos GDEs das ferramentas DEGFiE e DEGRE foi comparada com as ferramentas DESeq2 e edgeR e avaliada por meio das métricas de avaliação: acurácia, precisão e sensibilidade. A ferramenta DEGFiE apresentou as métricas de avaliação equivalentes com as ferramentas DESeq2 e edgeR, evidenciando que o pré-processamento desenvolvido nesta dissertação foi eficiente na remoção de ruídos técnicos das matrizes. A ferramenta DEGRE apresentou melhores métricas de avaliação na detecção de GDEs nas matrizes com maior variabilidade biológica dos efeitos aleatórios. Essa ferramenta também detectou novos GDEs nos dados de transcriptoma de pacientes com desordem de bipolaridade ao considerar o sexo dos pacientes como efeito aleatório. Em virtude dos aspectos abordados envolvendo a etapa de pré-processamento e a inferência de GDEs, a ferramenta DEGRE, proposta nesta dissertação, mostra-se promissora na identificação de possíveis GDEs em experimentos oriundos de desenhos experimentais mais complexos.
publishDate 2022
dc.date.none.fl_str_mv 2022-02-14
2023-04-06T18:13:57Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv MACHADO, D. T. Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos. 2022. 97 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2022.
https://tede.lncc.br/handle/tede/348
identifier_str_mv MACHADO, D. T. Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos. 2022. 97 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2022.
url https://tede.lncc.br/handle/tede/348
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do LNCC
instname:Laboratório Nacional de Computação Científica (LNCC)
instacron:LNCC
instname_str Laboratório Nacional de Computação Científica (LNCC)
instacron_str LNCC
institution LNCC
reponame_str Biblioteca Digital de Teses e Dissertações do LNCC
collection Biblioteca Digital de Teses e Dissertações do LNCC
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)
repository.mail.fl_str_mv library@lncc.br||library@lncc.br
_version_ 1829207092028768256