Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos
Ano de defesa: | 2022 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://tede.lncc.br/handle/tede/348 |
Resumo: | Com o avanço tecnológico envolvendo o sequenciamento de RNAs (RNA-Seq, do inglês: RNA-Sequencing) e com auxílio de ferramentas da Bioinformática, é possível quantificar os níveis transcricionais dos genes em células, tecidos e linhagens celulares possibilitando a identificação de Genes Diferencialmente Expressos (GDEs). Na literatura científica, as ferramentas DESeq2 e edgeR são usadas para essa inferência por meio dos modelos lineares generalizados, que são modelos que consideram apenas os efeitos fixos no desenho experimental. Entretanto, a não inclusão dos efeitos aleatórios, que são efeitos que causam mais variabilidade no desenho experimental, gera a possibilidade de que possíveis GDEs que poderiam ser importantes no contexto do fenômeno biológico de estudo sejam perdidos. Esta dissertação propõe o desenvolvimento de duas ferramentas computacionais que utilizam os efeitos fixos e os efeitos aleatórios para uma inferência acurada de GDEs: DEGFiE (Differentially Expressed Genes with Fixed Effects, em português: Expressão Gênica Diferencial com Efeitos Fixos) e DEGRE (Differentially Expressed Genes with Random Effects, em português: Expressão Gênica Diferencial com Efeitos Aleatórios). O coeficiente de variação biológica foi inferido nas matrizes de contagem para analisar as variabilidades técnica e biológica dos conjuntos de dados antes e após a etapa de pré-processamento. A validação computacional das ferramentas DEGFiE e DEGRE foi realizada por meio da simulação de matrizes de contagem, as quais possuem a variabilidade biológica relacionada aos efeitos fixos e aos efeitos aleatórios. Além das matrizes simuladas, foram recuperados dados públicos de RNA-Seq tanto de pacientes com desordem de bipolaridade quanto de indivíduos saudáveis. Esses dados foram utilizados como análise preliminar da aplicação da ferramenta DEGRE em experimentos reais, auxiliando na validação desta ferramenta. A performance na detecção dos GDEs das ferramentas DEGFiE e DEGRE foi comparada com as ferramentas DESeq2 e edgeR e avaliada por meio das métricas de avaliação: acurácia, precisão e sensibilidade. A ferramenta DEGFiE apresentou as métricas de avaliação equivalentes com as ferramentas DESeq2 e edgeR, evidenciando que o pré-processamento desenvolvido nesta dissertação foi eficiente na remoção de ruídos técnicos das matrizes. A ferramenta DEGRE apresentou melhores métricas de avaliação na detecção de GDEs nas matrizes com maior variabilidade biológica dos efeitos aleatórios. Essa ferramenta também detectou novos GDEs nos dados de transcriptoma de pacientes com desordem de bipolaridade ao considerar o sexo dos pacientes como efeito aleatório. Em virtude dos aspectos abordados envolvendo a etapa de pré-processamento e a inferência de GDEs, a ferramenta DEGRE, proposta nesta dissertação, mostra-se promissora na identificação de possíveis GDEs em experimentos oriundos de desenhos experimentais mais complexos. |
id |
LNCC_c1ad90b64ea32a38857e0c1ea23d1df4 |
---|---|
oai_identifier_str |
oai:tede-server.lncc.br:tede/348 |
network_acronym_str |
LNCC |
network_name_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
repository_id_str |
|
spelling |
Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistosBioinformáticaExpressão gênicaExpressão gênica diferencialModelo em escala genômicaCNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERALCom o avanço tecnológico envolvendo o sequenciamento de RNAs (RNA-Seq, do inglês: RNA-Sequencing) e com auxílio de ferramentas da Bioinformática, é possível quantificar os níveis transcricionais dos genes em células, tecidos e linhagens celulares possibilitando a identificação de Genes Diferencialmente Expressos (GDEs). Na literatura científica, as ferramentas DESeq2 e edgeR são usadas para essa inferência por meio dos modelos lineares generalizados, que são modelos que consideram apenas os efeitos fixos no desenho experimental. Entretanto, a não inclusão dos efeitos aleatórios, que são efeitos que causam mais variabilidade no desenho experimental, gera a possibilidade de que possíveis GDEs que poderiam ser importantes no contexto do fenômeno biológico de estudo sejam perdidos. Esta dissertação propõe o desenvolvimento de duas ferramentas computacionais que utilizam os efeitos fixos e os efeitos aleatórios para uma inferência acurada de GDEs: DEGFiE (Differentially Expressed Genes with Fixed Effects, em português: Expressão Gênica Diferencial com Efeitos Fixos) e DEGRE (Differentially Expressed Genes with Random Effects, em português: Expressão Gênica Diferencial com Efeitos Aleatórios). O coeficiente de variação biológica foi inferido nas matrizes de contagem para analisar as variabilidades técnica e biológica dos conjuntos de dados antes e após a etapa de pré-processamento. A validação computacional das ferramentas DEGFiE e DEGRE foi realizada por meio da simulação de matrizes de contagem, as quais possuem a variabilidade biológica relacionada aos efeitos fixos e aos efeitos aleatórios. Além das matrizes simuladas, foram recuperados dados públicos de RNA-Seq tanto de pacientes com desordem de bipolaridade quanto de indivíduos saudáveis. Esses dados foram utilizados como análise preliminar da aplicação da ferramenta DEGRE em experimentos reais, auxiliando na validação desta ferramenta. A performance na detecção dos GDEs das ferramentas DEGFiE e DEGRE foi comparada com as ferramentas DESeq2 e edgeR e avaliada por meio das métricas de avaliação: acurácia, precisão e sensibilidade. A ferramenta DEGFiE apresentou as métricas de avaliação equivalentes com as ferramentas DESeq2 e edgeR, evidenciando que o pré-processamento desenvolvido nesta dissertação foi eficiente na remoção de ruídos técnicos das matrizes. A ferramenta DEGRE apresentou melhores métricas de avaliação na detecção de GDEs nas matrizes com maior variabilidade biológica dos efeitos aleatórios. Essa ferramenta também detectou novos GDEs nos dados de transcriptoma de pacientes com desordem de bipolaridade ao considerar o sexo dos pacientes como efeito aleatório. Em virtude dos aspectos abordados envolvendo a etapa de pré-processamento e a inferência de GDEs, a ferramenta DEGRE, proposta nesta dissertação, mostra-se promissora na identificação de possíveis GDEs em experimentos oriundos de desenhos experimentais mais complexos.With the technological advance involving the sequencing of RNAs (RNA-Seq) and with the Bioinformatics tools, it is possible to quantify the transcriptional levels of genes in cells, tissues and cell lines, allowing the identification of Differentially Expressed Genes (DEGs). In the scientific literature, DESeq2 and edgeR tools are used for this inference through generalized linear models, which are models that consider only fixed effects in the experimental design. However, the non-inclusion of random effects, which are effects that cause more variability in the experimental design, raises the possibility that possible DEGs that could be important in the context of the biological phenomenon under study are missed. This dissertation proposes the development of two computational tools that use fixed effects and random effects for an accurate inference of DEGs: DEGFiE (Differentially Expressed Genes with Fixed Effects) and DEGRE (Differentially Expressed Genes with Random Effects). The coefficient of biological variation was inferred in the counting matrices to analyze the technical and biological variability of the data sets before and after the pre-processing step. The computational validation of the DEGFiE and DEGRE tools was performed through the simulation of counting matrices, which have biological variability related to fixed and random effects. In addition to the simulated matrices, public RNA-Seq data were retrieved from both patients with bipolar disorder and healthy subjects. These data were used as a preliminary analysis of the application of the DEGRE tool in real experiments, helping to validate this tool. The performance in detecting the DEGs of the DEGFiE and DEGRE tools was compared with the DESeq2 and edgeR tools and evaluated through the evaluation metrics: accuracy, precision and sensitivity. The DEGFiE tool presented the equivalent evaluation metrics with the DESeq2 and edgeR tools, showing that the pre-processing developed in this dissertation was efficient in removing technical noise from the matrices. The tool DEGRE presented better evaluation metrics in the detection of DEGs in matrices with greater biological variability of random effects. This tool also detected new DEGs in the transcriptome data of patients with bipolar disorder when considering the sex of patients as a random effect. Due to the aspects discussed involving the pre-processing stage and the inference of DEGs, the DEGRE tool, proposed in this dissertation, shows promise in the identification of possible DEGs in experiments derived from more complex experimental designs. Keyworkds: gene dispersion, differentially expressed genes, random effects, generalized linear mixed model, pre-processing.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorLaboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BrasilLNCCPrograma de Pós-Graduação em Modelagem ComputacionalVasconcelos, Ana Tereza Ribeiro deBrustolini, Otávio José BernardesVasconcelos, Ana Tereza Ribeiro deGuedes, Luciane Prioli CiapinaMaia, Marco Antonio Grivet MattosoMachado, Douglas Terra2023-04-06T18:13:57Z2022-02-14info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfMACHADO, D. T. Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos. 2022. 97 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2022.https://tede.lncc.br/handle/tede/348porhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2023-04-07T05:05:31Zoai:tede-server.lncc.br:tede/348Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-04-07T05:05:31Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false |
dc.title.none.fl_str_mv |
Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos |
title |
Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos |
spellingShingle |
Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos Machado, Douglas Terra Bioinformática Expressão gênica Expressão gênica diferencial Modelo em escala genômica CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL |
title_short |
Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos |
title_full |
Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos |
title_fullStr |
Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos |
title_full_unstemmed |
Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos |
title_sort |
Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos |
author |
Machado, Douglas Terra |
author_facet |
Machado, Douglas Terra |
author_role |
author |
dc.contributor.none.fl_str_mv |
Vasconcelos, Ana Tereza Ribeiro de Brustolini, Otávio José Bernardes Vasconcelos, Ana Tereza Ribeiro de Guedes, Luciane Prioli Ciapina Maia, Marco Antonio Grivet Mattoso |
dc.contributor.author.fl_str_mv |
Machado, Douglas Terra |
dc.subject.por.fl_str_mv |
Bioinformática Expressão gênica Expressão gênica diferencial Modelo em escala genômica CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL |
topic |
Bioinformática Expressão gênica Expressão gênica diferencial Modelo em escala genômica CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL |
description |
Com o avanço tecnológico envolvendo o sequenciamento de RNAs (RNA-Seq, do inglês: RNA-Sequencing) e com auxílio de ferramentas da Bioinformática, é possível quantificar os níveis transcricionais dos genes em células, tecidos e linhagens celulares possibilitando a identificação de Genes Diferencialmente Expressos (GDEs). Na literatura científica, as ferramentas DESeq2 e edgeR são usadas para essa inferência por meio dos modelos lineares generalizados, que são modelos que consideram apenas os efeitos fixos no desenho experimental. Entretanto, a não inclusão dos efeitos aleatórios, que são efeitos que causam mais variabilidade no desenho experimental, gera a possibilidade de que possíveis GDEs que poderiam ser importantes no contexto do fenômeno biológico de estudo sejam perdidos. Esta dissertação propõe o desenvolvimento de duas ferramentas computacionais que utilizam os efeitos fixos e os efeitos aleatórios para uma inferência acurada de GDEs: DEGFiE (Differentially Expressed Genes with Fixed Effects, em português: Expressão Gênica Diferencial com Efeitos Fixos) e DEGRE (Differentially Expressed Genes with Random Effects, em português: Expressão Gênica Diferencial com Efeitos Aleatórios). O coeficiente de variação biológica foi inferido nas matrizes de contagem para analisar as variabilidades técnica e biológica dos conjuntos de dados antes e após a etapa de pré-processamento. A validação computacional das ferramentas DEGFiE e DEGRE foi realizada por meio da simulação de matrizes de contagem, as quais possuem a variabilidade biológica relacionada aos efeitos fixos e aos efeitos aleatórios. Além das matrizes simuladas, foram recuperados dados públicos de RNA-Seq tanto de pacientes com desordem de bipolaridade quanto de indivíduos saudáveis. Esses dados foram utilizados como análise preliminar da aplicação da ferramenta DEGRE em experimentos reais, auxiliando na validação desta ferramenta. A performance na detecção dos GDEs das ferramentas DEGFiE e DEGRE foi comparada com as ferramentas DESeq2 e edgeR e avaliada por meio das métricas de avaliação: acurácia, precisão e sensibilidade. A ferramenta DEGFiE apresentou as métricas de avaliação equivalentes com as ferramentas DESeq2 e edgeR, evidenciando que o pré-processamento desenvolvido nesta dissertação foi eficiente na remoção de ruídos técnicos das matrizes. A ferramenta DEGRE apresentou melhores métricas de avaliação na detecção de GDEs nas matrizes com maior variabilidade biológica dos efeitos aleatórios. Essa ferramenta também detectou novos GDEs nos dados de transcriptoma de pacientes com desordem de bipolaridade ao considerar o sexo dos pacientes como efeito aleatório. Em virtude dos aspectos abordados envolvendo a etapa de pré-processamento e a inferência de GDEs, a ferramenta DEGRE, proposta nesta dissertação, mostra-se promissora na identificação de possíveis GDEs em experimentos oriundos de desenhos experimentais mais complexos. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-02-14 2023-04-06T18:13:57Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
MACHADO, D. T. Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos. 2022. 97 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2022. https://tede.lncc.br/handle/tede/348 |
identifier_str_mv |
MACHADO, D. T. Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos. 2022. 97 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2022. |
url |
https://tede.lncc.br/handle/tede/348 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do LNCC instname:Laboratório Nacional de Computação Científica (LNCC) instacron:LNCC |
instname_str |
Laboratório Nacional de Computação Científica (LNCC) |
instacron_str |
LNCC |
institution |
LNCC |
reponame_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
collection |
Biblioteca Digital de Teses e Dissertações do LNCC |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC) |
repository.mail.fl_str_mv |
library@lncc.br||library@lncc.br |
_version_ |
1829207092028768256 |