Uma nova estatística para a formação de redes decorrelação entre variantes genéticas

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Jaeger, Janaína Pacheco
Orientador(a): Cybis, Gabriela Bettella
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/238522
Resumo: A relação causal entre polimorfismos genéticos e diferentes fenótipos tem fundamental interesse em diversas áreas biológicas. Os Estudos de Associação Genômica Ampla (GWAS) testam milhares de variantes do genoma em busca de marcadores genéticos associados a traços de interesse, auxiliando a compreensão do mapa genótipo-fenótipo para determinada característica. Entretanto, o interesse não está somente na testagem dessas variantes de forma independente, mas também nas interações existentes entre elas. Nesse sentido, metodologias que propõem montagem de redes interligando marcadores correlacionados representam uma estratégia interessante. Climer et al. (2014) propuseram um método que, através do cálculo do Coeficiente de Correlação Personalizado (CCC), calcula correlações entre pares de SNPs para formação de redes alélicas, que são posteriormente testadas entre indivíduos caso e controle em estudos de associação. No entanto, a distribuição de probabilidade e as propriedades estatísticas desse coeficiente não foram estudadas, já que o CCC foi proposto com base em heurísticas e simulações. O presente estudo obteve propriedades estatísticas do CCC sob a hipótese nula de independência entre variantes de diferentes loci bialélicos. Em particular, sua esperança sugeriu forte viés de seleção dependente de frequências alélicas. Com a finalidade de eliminar esse viés, propusemos uma nova estatística de correlação, a Standardized Average Weighted Biallelic Statistic (SAWB), que denotamos por Sij , calculada a partir da mesma matriz de pesos utilizada no CCC. Para a Sij, foi demonstrada a normalidade assintótica e definido um teste estatístico correspondente. As propriedades estatísticas do CCC e da Sij , assim como de suas estatísticas relacionadas, foram comparadas por estudos de simulação. Da mesma forma, para comparar as redes formadas pelos dois métodos, realizamos uma aplicação em um banco de dados para o Transtorno de Déficit de Atenção e Hiperatividade (TDAH). Tanto os estudos de simulação quanto a aplicação demonstraram os efeitos da seleção dependente de frequência do CCC e verificaram que a Sij corrige esse viés. Além disso, a Sij , com distribuição e propriedades teóricas conhecidas, foi capaz de identificar pares de SNPs correlacionados através de um teste estatístico com Erro Tipo I controlado e maior poder do que o teste baseado na estatística CCC. Portanto, a estatística SAWB mostrou ser uma ferramenta com potencial aplicação em GWAS para formação de redes através de correlações entre pares de SNPs bialélicos.
id URGS_e930433dc2139b2a27b4746856449a89
oai_identifier_str oai:www.lume.ufrgs.br:10183/238522
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Jaeger, Janaína PachecoCybis, Gabriela BettellaSchneider, Silvana2022-05-12T04:52:49Z2022http://hdl.handle.net/10183/238522001140909A relação causal entre polimorfismos genéticos e diferentes fenótipos tem fundamental interesse em diversas áreas biológicas. Os Estudos de Associação Genômica Ampla (GWAS) testam milhares de variantes do genoma em busca de marcadores genéticos associados a traços de interesse, auxiliando a compreensão do mapa genótipo-fenótipo para determinada característica. Entretanto, o interesse não está somente na testagem dessas variantes de forma independente, mas também nas interações existentes entre elas. Nesse sentido, metodologias que propõem montagem de redes interligando marcadores correlacionados representam uma estratégia interessante. Climer et al. (2014) propuseram um método que, através do cálculo do Coeficiente de Correlação Personalizado (CCC), calcula correlações entre pares de SNPs para formação de redes alélicas, que são posteriormente testadas entre indivíduos caso e controle em estudos de associação. No entanto, a distribuição de probabilidade e as propriedades estatísticas desse coeficiente não foram estudadas, já que o CCC foi proposto com base em heurísticas e simulações. O presente estudo obteve propriedades estatísticas do CCC sob a hipótese nula de independência entre variantes de diferentes loci bialélicos. Em particular, sua esperança sugeriu forte viés de seleção dependente de frequências alélicas. Com a finalidade de eliminar esse viés, propusemos uma nova estatística de correlação, a Standardized Average Weighted Biallelic Statistic (SAWB), que denotamos por Sij , calculada a partir da mesma matriz de pesos utilizada no CCC. Para a Sij, foi demonstrada a normalidade assintótica e definido um teste estatístico correspondente. As propriedades estatísticas do CCC e da Sij , assim como de suas estatísticas relacionadas, foram comparadas por estudos de simulação. Da mesma forma, para comparar as redes formadas pelos dois métodos, realizamos uma aplicação em um banco de dados para o Transtorno de Déficit de Atenção e Hiperatividade (TDAH). Tanto os estudos de simulação quanto a aplicação demonstraram os efeitos da seleção dependente de frequência do CCC e verificaram que a Sij corrige esse viés. Além disso, a Sij , com distribuição e propriedades teóricas conhecidas, foi capaz de identificar pares de SNPs correlacionados através de um teste estatístico com Erro Tipo I controlado e maior poder do que o teste baseado na estatística CCC. Portanto, a estatística SAWB mostrou ser uma ferramenta com potencial aplicação em GWAS para formação de redes através de correlações entre pares de SNPs bialélicos.The causal relationship between genetic polymorphisms and different phenotypes is of fundamental interest in several biological areas. The Genome Wide Association Studies (GWAS) test thousands of genome variants searching for genetic markers associated with characteristics of interest, helping improve the understanding of the genotype-phenotype map for a given trait. However, the interest lies not only in testing these variants independently, but also in the interactions between them. In this context, methodologies that propose construction of networks connecting correlated markers are an interesting strategy. Climer et al. (2014) proposed a method that, through the Custom Correlation Coefficient (CCC), computes correlations between pairs of SNPs to build allelic networks, which are subsequently tested between case and control individuals in association studies. However, the probability distribution and statistical properties of this coefficient have not been studied, since the CCC was proposed based on heuristics and simulations. The present study derives statistical properties of the CCC under the null hypothesis of independence between variants of different biallelic loci. In particular, its expectation value suggested strong frequency-dependent selection. In order to eliminate this bias, we proposed a new correlation statistic, the Standardized Average Weighted Biallelic Statistic (SAWB), which we denoted by Sij , calculated from the same weight matrix used in the CCC. For Sij , asymptotic normality was demonstrated and a corresponding statistical test was defined. The statistical properties of the CCC and Sij , as well as of their related statistics, were compared by simulation studies. Additionally, to compare the networks constructed by the two methods, we performed an application on a database for Attention Deficit Hyperactivity Disorder (ADHD). Both the simulation studies and the application demonstrated the frequency-dependent selection effects of CCC and corroborated that Sij corrects this bias. Furthermore, the Sij statistic, with known distribution and theoretical properties, was able to identify pairs of correlated SNPs through a statistical test with controlled Type I Error and more power than the test based on the CCC. Therefore, the SAWB statistic was shown to be a tool with interesting potential for application in GWAS through network construction by correlating pairs of biallelic SNPs.application/pdfporCorrelaçãoCoeficiente de correlação de PearsonAlelosGenomaSNP networksCCC statisticSAWB statisticGWASUma nova estatística para a formação de redes decorrelação entre variantes genéticasStandardized Average Weighted Biallelic Statistic (SAWB) : a new method for identifying genetic correlation networksinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de Matemática e EstatísticaPrograma de Pós-Graduação em EstatísticaPorto Alegre, BR-RS2022mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001140909.pdf.txt001140909.pdf.txtExtracted Texttext/plain103821http://www.lume.ufrgs.br/bitstream/10183/238522/2/001140909.pdf.txt11448e3c067aff98651716512be098a1MD52ORIGINAL001140909.pdfTexto completoapplication/pdf2465442http://www.lume.ufrgs.br/bitstream/10183/238522/1/001140909.pdf92b9e315089a6c405252a7855bd2d27cMD5110183/2385222022-05-13 04:54:19.45292oai:www.lume.ufrgs.br:10183/238522Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532022-05-13T07:54:19Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Uma nova estatística para a formação de redes decorrelação entre variantes genéticas
dc.title.alternative.en.fl_str_mv Standardized Average Weighted Biallelic Statistic (SAWB) : a new method for identifying genetic correlation networks
title Uma nova estatística para a formação de redes decorrelação entre variantes genéticas
spellingShingle Uma nova estatística para a formação de redes decorrelação entre variantes genéticas
Jaeger, Janaína Pacheco
Correlação
Coeficiente de correlação de Pearson
Alelos
Genoma
SNP networks
CCC statistic
SAWB statistic
GWAS
title_short Uma nova estatística para a formação de redes decorrelação entre variantes genéticas
title_full Uma nova estatística para a formação de redes decorrelação entre variantes genéticas
title_fullStr Uma nova estatística para a formação de redes decorrelação entre variantes genéticas
title_full_unstemmed Uma nova estatística para a formação de redes decorrelação entre variantes genéticas
title_sort Uma nova estatística para a formação de redes decorrelação entre variantes genéticas
author Jaeger, Janaína Pacheco
author_facet Jaeger, Janaína Pacheco
author_role author
dc.contributor.author.fl_str_mv Jaeger, Janaína Pacheco
dc.contributor.advisor1.fl_str_mv Cybis, Gabriela Bettella
dc.contributor.advisor-co1.fl_str_mv Schneider, Silvana
contributor_str_mv Cybis, Gabriela Bettella
Schneider, Silvana
dc.subject.por.fl_str_mv Correlação
Coeficiente de correlação de Pearson
Alelos
Genoma
topic Correlação
Coeficiente de correlação de Pearson
Alelos
Genoma
SNP networks
CCC statistic
SAWB statistic
GWAS
dc.subject.eng.fl_str_mv SNP networks
CCC statistic
SAWB statistic
GWAS
description A relação causal entre polimorfismos genéticos e diferentes fenótipos tem fundamental interesse em diversas áreas biológicas. Os Estudos de Associação Genômica Ampla (GWAS) testam milhares de variantes do genoma em busca de marcadores genéticos associados a traços de interesse, auxiliando a compreensão do mapa genótipo-fenótipo para determinada característica. Entretanto, o interesse não está somente na testagem dessas variantes de forma independente, mas também nas interações existentes entre elas. Nesse sentido, metodologias que propõem montagem de redes interligando marcadores correlacionados representam uma estratégia interessante. Climer et al. (2014) propuseram um método que, através do cálculo do Coeficiente de Correlação Personalizado (CCC), calcula correlações entre pares de SNPs para formação de redes alélicas, que são posteriormente testadas entre indivíduos caso e controle em estudos de associação. No entanto, a distribuição de probabilidade e as propriedades estatísticas desse coeficiente não foram estudadas, já que o CCC foi proposto com base em heurísticas e simulações. O presente estudo obteve propriedades estatísticas do CCC sob a hipótese nula de independência entre variantes de diferentes loci bialélicos. Em particular, sua esperança sugeriu forte viés de seleção dependente de frequências alélicas. Com a finalidade de eliminar esse viés, propusemos uma nova estatística de correlação, a Standardized Average Weighted Biallelic Statistic (SAWB), que denotamos por Sij , calculada a partir da mesma matriz de pesos utilizada no CCC. Para a Sij, foi demonstrada a normalidade assintótica e definido um teste estatístico correspondente. As propriedades estatísticas do CCC e da Sij , assim como de suas estatísticas relacionadas, foram comparadas por estudos de simulação. Da mesma forma, para comparar as redes formadas pelos dois métodos, realizamos uma aplicação em um banco de dados para o Transtorno de Déficit de Atenção e Hiperatividade (TDAH). Tanto os estudos de simulação quanto a aplicação demonstraram os efeitos da seleção dependente de frequência do CCC e verificaram que a Sij corrige esse viés. Além disso, a Sij , com distribuição e propriedades teóricas conhecidas, foi capaz de identificar pares de SNPs correlacionados através de um teste estatístico com Erro Tipo I controlado e maior poder do que o teste baseado na estatística CCC. Portanto, a estatística SAWB mostrou ser uma ferramenta com potencial aplicação em GWAS para formação de redes através de correlações entre pares de SNPs bialélicos.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-05-12T04:52:49Z
dc.date.issued.fl_str_mv 2022
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/238522
dc.identifier.nrb.pt_BR.fl_str_mv 001140909
url http://hdl.handle.net/10183/238522
identifier_str_mv 001140909
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/238522/2/001140909.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/238522/1/001140909.pdf
bitstream.checksum.fl_str_mv 11448e3c067aff98651716512be098a1
92b9e315089a6c405252a7855bd2d27c
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1831316132223516672