Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Garbelini, Jader Maikol Caldonazzo
Orientador(a): Ramirez Pozo, Aurora Trinidad, 1959-
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/1884/87628
Resumo: Orientador: Aurora Trinidad Ramirez Pozo
id UFPR_37b85317b3dd32a2e2e2bd7051f49762
oai_identifier_str oai:acervodigital.ufpr.br:1884/87628
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str
spelling Sanches, Danilo SipoliUniversidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaRamirez Pozo, Aurora Trinidad, 1959-Garbelini, Jader Maikol Caldonazzo2024-04-22T20:55:59Z2024-04-22T20:55:59Z2024https://hdl.handle.net/1884/87628Orientador: Aurora Trinidad Ramirez PozoCoorientador: Danilo Sipoli SanchesTese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 19/02/2024Inclui referênciasÁrea de concentração: Ciência da ComputaçãoResumo: A descoberta de padrões conservados em sequências biológicas é um grande desafio na biologia computacional e na ciência da computação. Dentro do genoma dos mais variados tipos de organismos, existem pequenas estruturas preservadas com importante função celular, conhecidas como motifs. Por meio da análise dessas regiões, é possível identificar fragmentos específicos, conhecidos como sítios de ligação de proteínas. A identificação precisa desses fragmentos possibilita o desenvolvimento de medicamentos direcionados, capazes de ativar ou desativar funções específicas, o que enfraquece o agente invasor, reduzindo ou prevenindo a infecção no organismo hospedeiro. Identificar a localização destes fragmentos é um desafio complexo e ainda não resolvido na totalidade. Apesar de apresentarem certo grau de conservação, a variabilidade entre membros de uma mesma família de motifs é significativa, tornando a elaboração de modelos que os descrevam de maneira precisa uma tarefa complexa. Adicionado a isso, o advento de sequenciadores de nova geração acelerou a extração de genomas inteiros, destacando-se o protocolo chip-seq neste contexto. Esta tecnologia une a imunoprecipitação da cromatina ao sequenciamento de alto rendimento, produzindo uma vasta quantidade de dados enriquecidos. Entretanto, o comprimento total dos fragmentos obtidos por esta técnica ainda supera em muito o tamanho médio das regiões conservadas. Assim, surge a necessidade de desenvolver novos algoritmos computacionais para efetuar a análise e determinar a localização destas estruturas. Neste trabalho, introduzimos o biomapp::chip, uma arcabouço projetado para detectar fragmentos conservados em dados de chip-seq. O núcleo do biomapp::chip é a smt, uma estrutura de dados baseada em árvores de sufixos criada para contagem eficiente de kmers. Além disso, o biomapp::chip executa uma versão otimizada do algoritmo em para aperfeiçoar e otimizar os modelos iniciais gerados pela smt. A análise dos dados coletados a partir de uma variedade de experimentos revelou que o biomapp::chip superou significativamente os algoritmos considerados estado da arte. Especificamente, em comparação com os principais modelos de referência do repositório jaspar, o desempenho do biomapp::chip foi superior, apresentando uma melhoria de aproximadamente 42% na métrica de distância euclidiana e de 51% na métrica de distância hellinger em relação ao segundo colocado.Abstract: The discovery of conserved patterns in biological sequences is a major challenge in computational biology and computer science. Within the genome of the most varied types of organisms, there are small preserved structures with important cellular functions, known as motifs. By analyzing these regions, it is possible to identify specific fragments, known as protein binding sites. The precise identification of these fragments enables the development of targeted medicines, capable of activating or deactivating specific functions, which weakens the invading agent, reducing or preventing infection in the host organism. Identifying the location of these fragments is a complex challenge that has not yet been fully resolved. Despite showing a certain degree of conservation, the variability between members of the same family of motifs is significant, making the development of models that accurately describe them a complex task. Added to this, the advent of new generation sequencers has accelerated the extraction of entire genomes, highlighting the chip-seq protocol in this context. This technology combines chromatin immunoprecipitation with high-throughput sequencing, producing a vast amount of enriched data. However, the total length of the fragments obtained by this technique still far exceeds the average size of the conserved regions. Thus, there is a need to develop new computational algorithms to perform the analysis and determine the location of these structures. In this work, we introduce biomapp::chip, a framework designed to detect conserved fragments in chip-seq data. The core of biomapp::chip is smt, a suffix tree-based data structure designed to efficiently count kmers. Additionally, biomapp::chip runs an optimized version of the em algorithm to refine and optimize the initial models generated by smt. Analysis of data collected from a variety of experiments revealed that biomapp::chip significantly outperformed state-of-the-art algorithms. Specifically, compared to the main reference models from the jaspar repository, biomapp::chip performed better, showing an improvement of approximately 42% in the euclidean distance metric and of 51% in the hellinger distance metric in relation to second place.1 recurso online : PDF.application/pdfGenômica - Processamento de dadosBiologia celular e molecularMedicamentos - DesenvolvimentoCiência da ComputaçãoAprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escalainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - T - JADER MAIKOL CALDONAZZO GARBELINI.pdfapplication/pdf4471519https://acervodigital.ufpr.br/bitstream/1884/87628/1/R%20-%20T%20-%20JADER%20MAIKOL%20CALDONAZZO%20GARBELINI.pdf47f2504ad6b63ea497bcdf8d619202e2MD51open access1884/876282024-04-22 17:55:59.092open accessoai:acervodigital.ufpr.br:1884/87628Repositório InstitucionalPUBhttp://acervodigital.ufpr.br/oai/requestinformacaodigital@ufpr.bropendoar:3082024-04-22T20:55:59Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala
title Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala
spellingShingle Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala
Garbelini, Jader Maikol Caldonazzo
Genômica - Processamento de dados
Biologia celular e molecular
Medicamentos - Desenvolvimento
Ciência da Computação
title_short Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala
title_full Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala
title_fullStr Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala
title_full_unstemmed Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala
title_sort Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala
author Garbelini, Jader Maikol Caldonazzo
author_facet Garbelini, Jader Maikol Caldonazzo
author_role author
dc.contributor.other.pt_BR.fl_str_mv Sanches, Danilo Sipoli
Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática
dc.contributor.advisor1.fl_str_mv Ramirez Pozo, Aurora Trinidad, 1959-
dc.contributor.author.fl_str_mv Garbelini, Jader Maikol Caldonazzo
contributor_str_mv Ramirez Pozo, Aurora Trinidad, 1959-
dc.subject.por.fl_str_mv Genômica - Processamento de dados
Biologia celular e molecular
Medicamentos - Desenvolvimento
Ciência da Computação
topic Genômica - Processamento de dados
Biologia celular e molecular
Medicamentos - Desenvolvimento
Ciência da Computação
description Orientador: Aurora Trinidad Ramirez Pozo
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-04-22T20:55:59Z
dc.date.available.fl_str_mv 2024-04-22T20:55:59Z
dc.date.issued.fl_str_mv 2024
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/87628
url https://hdl.handle.net/1884/87628
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 1 recurso online : PDF.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/87628/1/R%20-%20T%20-%20JADER%20MAIKOL%20CALDONAZZO%20GARBELINI.pdf
bitstream.checksum.fl_str_mv 47f2504ad6b63ea497bcdf8d619202e2
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv informacaodigital@ufpr.br
_version_ 1847526337634369536