Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://hdl.handle.net/1884/87628 |
Resumo: | Orientador: Aurora Trinidad Ramirez Pozo |
| id |
UFPR_37b85317b3dd32a2e2e2bd7051f49762 |
|---|---|
| oai_identifier_str |
oai:acervodigital.ufpr.br:1884/87628 |
| network_acronym_str |
UFPR |
| network_name_str |
Repositório Institucional da UFPR |
| repository_id_str |
|
| spelling |
Sanches, Danilo SipoliUniversidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaRamirez Pozo, Aurora Trinidad, 1959-Garbelini, Jader Maikol Caldonazzo2024-04-22T20:55:59Z2024-04-22T20:55:59Z2024https://hdl.handle.net/1884/87628Orientador: Aurora Trinidad Ramirez PozoCoorientador: Danilo Sipoli SanchesTese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 19/02/2024Inclui referênciasÁrea de concentração: Ciência da ComputaçãoResumo: A descoberta de padrões conservados em sequências biológicas é um grande desafio na biologia computacional e na ciência da computação. Dentro do genoma dos mais variados tipos de organismos, existem pequenas estruturas preservadas com importante função celular, conhecidas como motifs. Por meio da análise dessas regiões, é possível identificar fragmentos específicos, conhecidos como sítios de ligação de proteínas. A identificação precisa desses fragmentos possibilita o desenvolvimento de medicamentos direcionados, capazes de ativar ou desativar funções específicas, o que enfraquece o agente invasor, reduzindo ou prevenindo a infecção no organismo hospedeiro. Identificar a localização destes fragmentos é um desafio complexo e ainda não resolvido na totalidade. Apesar de apresentarem certo grau de conservação, a variabilidade entre membros de uma mesma família de motifs é significativa, tornando a elaboração de modelos que os descrevam de maneira precisa uma tarefa complexa. Adicionado a isso, o advento de sequenciadores de nova geração acelerou a extração de genomas inteiros, destacando-se o protocolo chip-seq neste contexto. Esta tecnologia une a imunoprecipitação da cromatina ao sequenciamento de alto rendimento, produzindo uma vasta quantidade de dados enriquecidos. Entretanto, o comprimento total dos fragmentos obtidos por esta técnica ainda supera em muito o tamanho médio das regiões conservadas. Assim, surge a necessidade de desenvolver novos algoritmos computacionais para efetuar a análise e determinar a localização destas estruturas. Neste trabalho, introduzimos o biomapp::chip, uma arcabouço projetado para detectar fragmentos conservados em dados de chip-seq. O núcleo do biomapp::chip é a smt, uma estrutura de dados baseada em árvores de sufixos criada para contagem eficiente de kmers. Além disso, o biomapp::chip executa uma versão otimizada do algoritmo em para aperfeiçoar e otimizar os modelos iniciais gerados pela smt. A análise dos dados coletados a partir de uma variedade de experimentos revelou que o biomapp::chip superou significativamente os algoritmos considerados estado da arte. Especificamente, em comparação com os principais modelos de referência do repositório jaspar, o desempenho do biomapp::chip foi superior, apresentando uma melhoria de aproximadamente 42% na métrica de distância euclidiana e de 51% na métrica de distância hellinger em relação ao segundo colocado.Abstract: The discovery of conserved patterns in biological sequences is a major challenge in computational biology and computer science. Within the genome of the most varied types of organisms, there are small preserved structures with important cellular functions, known as motifs. By analyzing these regions, it is possible to identify specific fragments, known as protein binding sites. The precise identification of these fragments enables the development of targeted medicines, capable of activating or deactivating specific functions, which weakens the invading agent, reducing or preventing infection in the host organism. Identifying the location of these fragments is a complex challenge that has not yet been fully resolved. Despite showing a certain degree of conservation, the variability between members of the same family of motifs is significant, making the development of models that accurately describe them a complex task. Added to this, the advent of new generation sequencers has accelerated the extraction of entire genomes, highlighting the chip-seq protocol in this context. This technology combines chromatin immunoprecipitation with high-throughput sequencing, producing a vast amount of enriched data. However, the total length of the fragments obtained by this technique still far exceeds the average size of the conserved regions. Thus, there is a need to develop new computational algorithms to perform the analysis and determine the location of these structures. In this work, we introduce biomapp::chip, a framework designed to detect conserved fragments in chip-seq data. The core of biomapp::chip is smt, a suffix tree-based data structure designed to efficiently count kmers. Additionally, biomapp::chip runs an optimized version of the em algorithm to refine and optimize the initial models generated by smt. Analysis of data collected from a variety of experiments revealed that biomapp::chip significantly outperformed state-of-the-art algorithms. Specifically, compared to the main reference models from the jaspar repository, biomapp::chip performed better, showing an improvement of approximately 42% in the euclidean distance metric and of 51% in the hellinger distance metric in relation to second place.1 recurso online : PDF.application/pdfGenômica - Processamento de dadosBiologia celular e molecularMedicamentos - DesenvolvimentoCiência da ComputaçãoAprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escalainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - T - JADER MAIKOL CALDONAZZO GARBELINI.pdfapplication/pdf4471519https://acervodigital.ufpr.br/bitstream/1884/87628/1/R%20-%20T%20-%20JADER%20MAIKOL%20CALDONAZZO%20GARBELINI.pdf47f2504ad6b63ea497bcdf8d619202e2MD51open access1884/876282024-04-22 17:55:59.092open accessoai:acervodigital.ufpr.br:1884/87628Repositório InstitucionalPUBhttp://acervodigital.ufpr.br/oai/requestinformacaodigital@ufpr.bropendoar:3082024-04-22T20:55:59Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false |
| dc.title.pt_BR.fl_str_mv |
Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala |
| title |
Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala |
| spellingShingle |
Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala Garbelini, Jader Maikol Caldonazzo Genômica - Processamento de dados Biologia celular e molecular Medicamentos - Desenvolvimento Ciência da Computação |
| title_short |
Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala |
| title_full |
Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala |
| title_fullStr |
Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala |
| title_full_unstemmed |
Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala |
| title_sort |
Aprendizado não supervisionado em genômica funcional : construindo modelos probabilísticos através da exploração do espaço de k-mers empregando otimização determinística para descoberta de MOTIFS biológicos em larga escala |
| author |
Garbelini, Jader Maikol Caldonazzo |
| author_facet |
Garbelini, Jader Maikol Caldonazzo |
| author_role |
author |
| dc.contributor.other.pt_BR.fl_str_mv |
Sanches, Danilo Sipoli Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática |
| dc.contributor.advisor1.fl_str_mv |
Ramirez Pozo, Aurora Trinidad, 1959- |
| dc.contributor.author.fl_str_mv |
Garbelini, Jader Maikol Caldonazzo |
| contributor_str_mv |
Ramirez Pozo, Aurora Trinidad, 1959- |
| dc.subject.por.fl_str_mv |
Genômica - Processamento de dados Biologia celular e molecular Medicamentos - Desenvolvimento Ciência da Computação |
| topic |
Genômica - Processamento de dados Biologia celular e molecular Medicamentos - Desenvolvimento Ciência da Computação |
| description |
Orientador: Aurora Trinidad Ramirez Pozo |
| publishDate |
2024 |
| dc.date.accessioned.fl_str_mv |
2024-04-22T20:55:59Z |
| dc.date.available.fl_str_mv |
2024-04-22T20:55:59Z |
| dc.date.issued.fl_str_mv |
2024 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1884/87628 |
| url |
https://hdl.handle.net/1884/87628 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
1 recurso online : PDF. application/pdf |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR |
| instname_str |
Universidade Federal do Paraná (UFPR) |
| instacron_str |
UFPR |
| institution |
UFPR |
| reponame_str |
Repositório Institucional da UFPR |
| collection |
Repositório Institucional da UFPR |
| bitstream.url.fl_str_mv |
https://acervodigital.ufpr.br/bitstream/1884/87628/1/R%20-%20T%20-%20JADER%20MAIKOL%20CALDONAZZO%20GARBELINI.pdf |
| bitstream.checksum.fl_str_mv |
47f2504ad6b63ea497bcdf8d619202e2 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR) |
| repository.mail.fl_str_mv |
informacaodigital@ufpr.br |
| _version_ |
1847526337634369536 |