Análise de dependência entre posições de bases de sequências motivos de fatores de transcrição aplicada à comparação de modelos baseados em Position Weight Matrix e Gramática Regular Estocástica

Lavezzo, Guilherme Miura

Análise de dependência entre posições de bases de sequências motivos de fatores de transcrição aplicada à comparação de modelos baseados em Position Weight Matrix e Gramática Regular Estocástica

Detalhes bibliográficos
Ano de defesa:	2021
Autor(a) principal:	Lavezzo, Guilherme Miura
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	ChIP-seq Gramáticas Regulares Estocásticas Position Weight Matrix Position Weighted Matrix Predição in silico Prediction in silico Stios de ligação de fatores de transcrição Stochastic regular grammars (SRG) Transcription Factor Binding Sites
Link de acesso:	https://www.teses.usp.br/teses/disponiveis/95/95131/tde-18012022-104802/
Resumo:	Para elucidar os mecanismos de regulação transcricional, é essencial determinar acura- damente a interação entre DNA e fatores de transcrição (FT). Embora FTs mantenham certa especificidade em reconhecer sequências curtas de DNA, os stios de ligação de fatores de transcrição (SLFT) são sequências degeneradas. Técnicas experimentais high throughput in vivo, como ChIP-seq, ainda que muito utilizadas, identificam regiões de 100-600 pares de bases (pb), enquanto FTs geralmente se ligam a sequências de 6-15 pb. Por outro lado, técnicas experimentais in vitro, apesar de avaliarem a interação FT-DNA com maior resolução, não correspondem às condições fisiológicas em que ocorrem a regulação transcricional. O padrão de reconhecimento de DNA mais provável que interage com um FT, ou seja o motivo do FT, precisa ser descoberto a partir de sequências maiores de DNA, obtidas experimentalmente e em grande volume. Existem diversos algoritmos que se encarregam de descobrir motivos, porém esses algoritmos divergem em considerar ou não dependência entre bases, questão essa ainda em aberto na comunidade cientfica. Com o motivo descoberto, geralmente deseja-se obter representações do mesmo ao longo de genoma ou região genômica de interesse e, para isso, é necessário um modelo preditor de SLFTs. Existem também diversos modelos computacionais que procuram predizer SLFTs de tamanhos exatos. No entanto, devido ao curto tamanho dos stios, tais modelos tendem a produzir muitos falsos positivos, dificultando uma interpretação biológica acurada do contexto biológico. Além disso, nenhum modelo preditor excede os demais em todos os casos, tornando a escolha de um melhor modelo caso-especfica para cada FT de interesse. Considerando as diversas combinações entre o tipo de experimento e o algoritmo de descoberta de motivos, a tarefa de escolher o melhor modelo preditor de SLFTs não é trivial. O modelo mais utilizado para predição de SLFT são PWMs (Position Weight Matrix ), que assumem independência entre as bases do stio, o que pode não ser verdadeiro para determinados fatores de transcrição. Gramáticas regulares estocásticas (GRE) são uma alternativa às PWMs, pois são modelos que conseguem capturar uma relação de dependência entre posições de bases. Considerando esse problema, foi possvel escolher pelo modelo PWM ou GRE baseando-se apenas no conjunto amostral de SLFTs obtidos e em novas medidas de dependências propostas. Com o cálculo dessas medidas, foi possvel criar uma regra de decisão, via árvore de decisão, que opte pelo melhor modelo de maneira que garanta seu desempenho.

Metadados do item

id	USP_ec6b1a7c4cd3d21cfee38031c4675d44
oai_identifier_str	oai:teses.usp.br:tde-18012022-104802
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling	Análise de dependência entre posições de bases de sequências motivos de fatores de transcrição aplicada à comparação de modelos baseados em Position Weight Matrix e Gramática Regular EstocásticaInter-position dependency analysis of transcription factor motif sequences applied to compare PWM (Position Weight Matrix)and SRG (Stochastic Regular Grammar)-based modelsChIP-seqChIP-seqGramáticas Regulares EstocásticasPosition Weight MatrixPosition Weighted MatrixPredição in silicoPrediction in silicoStios de ligação de fatores de transcriçãoStochastic regular grammars (SRG)Transcription Factor Binding SitesPara elucidar os mecanismos de regulação transcricional, é essencial determinar acura- damente a interação entre DNA e fatores de transcrição (FT). Embora FTs mantenham certa especificidade em reconhecer sequências curtas de DNA, os stios de ligação de fatores de transcrição (SLFT) são sequências degeneradas. Técnicas experimentais high throughput in vivo, como ChIP-seq, ainda que muito utilizadas, identificam regiões de 100-600 pares de bases (pb), enquanto FTs geralmente se ligam a sequências de 6-15 pb. Por outro lado, técnicas experimentais in vitro, apesar de avaliarem a interação FT-DNA com maior resolução, não correspondem às condições fisiológicas em que ocorrem a regulação transcricional. O padrão de reconhecimento de DNA mais provável que interage com um FT, ou seja o motivo do FT, precisa ser descoberto a partir de sequências maiores de DNA, obtidas experimentalmente e em grande volume. Existem diversos algoritmos que se encarregam de descobrir motivos, porém esses algoritmos divergem em considerar ou não dependência entre bases, questão essa ainda em aberto na comunidade cientfica. Com o motivo descoberto, geralmente deseja-se obter representações do mesmo ao longo de genoma ou região genômica de interesse e, para isso, é necessário um modelo preditor de SLFTs. Existem também diversos modelos computacionais que procuram predizer SLFTs de tamanhos exatos. No entanto, devido ao curto tamanho dos stios, tais modelos tendem a produzir muitos falsos positivos, dificultando uma interpretação biológica acurada do contexto biológico. Além disso, nenhum modelo preditor excede os demais em todos os casos, tornando a escolha de um melhor modelo caso-especfica para cada FT de interesse. Considerando as diversas combinações entre o tipo de experimento e o algoritmo de descoberta de motivos, a tarefa de escolher o melhor modelo preditor de SLFTs não é trivial. O modelo mais utilizado para predição de SLFT são PWMs (Position Weight Matrix ), que assumem independência entre as bases do stio, o que pode não ser verdadeiro para determinados fatores de transcrição. Gramáticas regulares estocásticas (GRE) são uma alternativa às PWMs, pois são modelos que conseguem capturar uma relação de dependência entre posições de bases. Considerando esse problema, foi possvel escolher pelo modelo PWM ou GRE baseando-se apenas no conjunto amostral de SLFTs obtidos e em novas medidas de dependências propostas. Com o cálculo dessas medidas, foi possvel criar uma regra de decisão, via árvore de decisão, que opte pelo melhor modelo de maneira que garanta seu desempenho.In order to elucidate the mechanisms of transcriptional regulation, it is essential to accu- rately determine the interaction between DNA and transcription factors (TFs). Although TFs maintain a certain specificity in recognizing short DNA sequences, transcription factor binding sites (TFBS) are degenerate sequences. High throughput in vivo experimental techniques, such as ChIP-seq, although widely used, identify regions of 100-600 base pairs (bp), while TFs generally bind to sequences of 6-15 bp. On the other hand, in vitro experimental techniques , despite assessing FT-DNA interaction with higher resolution, do not correspond to the physiological conditions under which transcriptional regulation occurs. The most likely DNA recognition pattern that interacts with a TF, i.e. the TF motif, needs to be discovered from larger DNA sequences obtained experimentally and in large volume. There are several algorithms that take charge of discovering motifs, but these algorithms differ in whether or not to consider position dependency, which is still an open question in the scientific community. With the motif discovered, it is usually desired to obtain representations of it along the genome or genomic region of interest and, for this, a predictive model of TFBS is required. There are also several computational models that seek to predict TFBSs of exact sizes. However, due to the short site sizes, such models tend to produce many false positives, making an accurate biological interpretation of the biological context difficult. Furthermore, no single predictor model outperforms the others in all cases, making the choice of a best case-specific model for each TF of inter- est. Considering the various combinations between experiment type and motif discovery algorithm, the task of choosing the best predictive model for TFBSs is not trivial. The most widely used model for TFBS prediction are PWMs (Position Weight Matrix), which assume independence between site bases, which may not be true for certain transcription factors. Stochastic regular grammars (SRGs) are an alternative to PWMs, as they are models that can capture a dependency relationship between base positions. Considering this problem, it was possible to choose between the PWM or SRG model based only on the sample set of TFBSs obtained and novel proposed dependency measures. By calculating these measures, it was possible to create a decision rule, via a decision tree, that opts for the best model in a way that guarantees its performance.Biblioteca Digitais de Teses e Dissertações da USPAndrioli, Luiz Paulo MouraLima, Ariane MachadoLavezzo, Guilherme Miura2021-12-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/95/95131/tde-18012022-104802/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2022-02-04T15:18:03Zoai:teses.usp.br:tde-18012022-104802Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212022-02-04T15:18:03Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Análise de dependência entre posições de bases de sequências motivos de fatores de transcrição aplicada à comparação de modelos baseados em Position Weight Matrix e Gramática Regular Estocástica Inter-position dependency analysis of transcription factor motif sequences applied to compare PWM (Position Weight Matrix)and SRG (Stochastic Regular Grammar)-based models
title	Análise de dependência entre posições de bases de sequências motivos de fatores de transcrição aplicada à comparação de modelos baseados em Position Weight Matrix e Gramática Regular Estocástica
spellingShingle	Análise de dependência entre posições de bases de sequências motivos de fatores de transcrição aplicada à comparação de modelos baseados em Position Weight Matrix e Gramática Regular Estocástica Lavezzo, Guilherme Miura ChIP-seq ChIP-seq Gramáticas Regulares Estocásticas Position Weight Matrix Position Weighted Matrix Predição in silico Prediction in silico Stios de ligação de fatores de transcrição Stochastic regular grammars (SRG) Transcription Factor Binding Sites
title_short	Análise de dependência entre posições de bases de sequências motivos de fatores de transcrição aplicada à comparação de modelos baseados em Position Weight Matrix e Gramática Regular Estocástica
title_full	Análise de dependência entre posições de bases de sequências motivos de fatores de transcrição aplicada à comparação de modelos baseados em Position Weight Matrix e Gramática Regular Estocástica
title_fullStr	Análise de dependência entre posições de bases de sequências motivos de fatores de transcrição aplicada à comparação de modelos baseados em Position Weight Matrix e Gramática Regular Estocástica
title_full_unstemmed	Análise de dependência entre posições de bases de sequências motivos de fatores de transcrição aplicada à comparação de modelos baseados em Position Weight Matrix e Gramática Regular Estocástica
title_sort	Análise de dependência entre posições de bases de sequências motivos de fatores de transcrição aplicada à comparação de modelos baseados em Position Weight Matrix e Gramática Regular Estocástica
author	Lavezzo, Guilherme Miura
author_facet	Lavezzo, Guilherme Miura
author_role	author
dc.contributor.none.fl_str_mv	Andrioli, Luiz Paulo Moura Lima, Ariane Machado
dc.contributor.author.fl_str_mv	Lavezzo, Guilherme Miura
dc.subject.por.fl_str_mv	ChIP-seq ChIP-seq Gramáticas Regulares Estocásticas Position Weight Matrix Position Weighted Matrix Predição in silico Prediction in silico Stios de ligação de fatores de transcrição Stochastic regular grammars (SRG) Transcription Factor Binding Sites
topic	ChIP-seq ChIP-seq Gramáticas Regulares Estocásticas Position Weight Matrix Position Weighted Matrix Predição in silico Prediction in silico Stios de ligação de fatores de transcrição Stochastic regular grammars (SRG) Transcription Factor Binding Sites
description	Para elucidar os mecanismos de regulação transcricional, é essencial determinar acura- damente a interação entre DNA e fatores de transcrição (FT). Embora FTs mantenham certa especificidade em reconhecer sequências curtas de DNA, os stios de ligação de fatores de transcrição (SLFT) são sequências degeneradas. Técnicas experimentais high throughput in vivo, como ChIP-seq, ainda que muito utilizadas, identificam regiões de 100-600 pares de bases (pb), enquanto FTs geralmente se ligam a sequências de 6-15 pb. Por outro lado, técnicas experimentais in vitro, apesar de avaliarem a interação FT-DNA com maior resolução, não correspondem às condições fisiológicas em que ocorrem a regulação transcricional. O padrão de reconhecimento de DNA mais provável que interage com um FT, ou seja o motivo do FT, precisa ser descoberto a partir de sequências maiores de DNA, obtidas experimentalmente e em grande volume. Existem diversos algoritmos que se encarregam de descobrir motivos, porém esses algoritmos divergem em considerar ou não dependência entre bases, questão essa ainda em aberto na comunidade cientfica. Com o motivo descoberto, geralmente deseja-se obter representações do mesmo ao longo de genoma ou região genômica de interesse e, para isso, é necessário um modelo preditor de SLFTs. Existem também diversos modelos computacionais que procuram predizer SLFTs de tamanhos exatos. No entanto, devido ao curto tamanho dos stios, tais modelos tendem a produzir muitos falsos positivos, dificultando uma interpretação biológica acurada do contexto biológico. Além disso, nenhum modelo preditor excede os demais em todos os casos, tornando a escolha de um melhor modelo caso-especfica para cada FT de interesse. Considerando as diversas combinações entre o tipo de experimento e o algoritmo de descoberta de motivos, a tarefa de escolher o melhor modelo preditor de SLFTs não é trivial. O modelo mais utilizado para predição de SLFT são PWMs (Position Weight Matrix ), que assumem independência entre as bases do stio, o que pode não ser verdadeiro para determinados fatores de transcrição. Gramáticas regulares estocásticas (GRE) são uma alternativa às PWMs, pois são modelos que conseguem capturar uma relação de dependência entre posições de bases. Considerando esse problema, foi possvel escolher pelo modelo PWM ou GRE baseando-se apenas no conjunto amostral de SLFTs obtidos e em novas medidas de dependências propostas. Com o cálculo dessas medidas, foi possvel criar uma regra de decisão, via árvore de decisão, que opte pelo melhor modelo de maneira que garanta seu desempenho.
publishDate	2021
dc.date.none.fl_str_mv	2021-12-20
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/95/95131/tde-18012022-104802/
url	https://www.teses.usp.br/teses/disponiveis/95/95131/tde-18012022-104802/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1865491095964614656

Análise de dependência entre posições de bases de sequências motivos de fatores de transcrição aplicada à comparação de modelos baseados em Position Weight Matrix e Gramática Regular Estocástica

Registros relacionados