Aprimorando a classificação de mirtrons com aumento de dados e modelos transformers

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Chiquitto, Alisson Gaspar
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)
UTFPR
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/37933
Resumo: Among the classes of non-coding RNA (ncRNA) sequences, microRNAs and mirtrons are the most extensively studied in the literature, primarily due to their importance in understanding the regulatory mechanisms of these small ncRNAs. From a computational perspective, particularly regarding mirtron classification, a key challenge is the data imbalance problem, which can hinder the generalization ability of machine learning models and contribute, for instance, to model overfitting. This issue compromises the accuracy and reliability of analyses, hindering progress in the identification and characterization of these ncRNA classes. To mitigate the challenges of data imbalance in small sample datasets, this study explores two main strategies. The first involves the development of GENNUS: GENerative Approaches for NUcleotide Sequences, a framework of generative techniques aimed at synthesizing mirtron data. GENNUS comprises two approaches based on Generative Adversarial Networks (GAN) and three approaches based on the Synthetic Minority Over-sampling Technique (SMOTE). The results demonstrate that these approaches are capable of generating synthetic data while preserving the intrinsic patterns and inherent diversity of real mirtron sequences. Moreover, the use of synthetic data eliminates the need for extensive feature engineering, making the modeling process more efficient and accessible. The second strategy explores deep learning techniques, specifically Transformer-based architectures, for the classification of mirtrons and canonical miRNAs. These models leverage the Transformer’s ability to capture long-range dependencies and complex relationships within nucleotide sequences. The results indicate that Transformer-based classifiers outperform stateof-the-art methods, yielding substantial improvements in both generalization and classification accuracy. This approach highlights the potential of deep learning models to enhance ncRNA analysis, paving the way for significant advancements in the field of bioinformatics. This work emphasizes the transformative impact of synthetic data generation and the use of advanced deep learning architectures in addressing the limitations imposed by data imbalance in genomics. The proposed methodologies offer more effective and scalable solutions for ncRNA classification, contributing to a deeper understanding of genetic regulation and enabling new discoveries in computational molecular biology. Additionally, this work also presents contributions in the classification of long non-coding RNAs (lncRNA), further expanding and demonstrating the applicability of machine learning techniques across different contexts of genomic analysis.
id UTFPR-12_09df1899a3cdb1912bfa21718c75cd5e
oai_identifier_str oai:repositorio.utfpr.edu.br:1/37933
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Aprimorando a classificação de mirtrons com aumento de dados e modelos transformersImproving mirtron classification with data augmentation and transformer modelsBioinformáticaRedes neurais (Computação)Algorítmos genéticosBioinformaticsNeural networks (Computer science)Genetic algorithmsCNPQ::CIENCIAS SOCIAIS APLICADASCiência da ComputaçãoAmong the classes of non-coding RNA (ncRNA) sequences, microRNAs and mirtrons are the most extensively studied in the literature, primarily due to their importance in understanding the regulatory mechanisms of these small ncRNAs. From a computational perspective, particularly regarding mirtron classification, a key challenge is the data imbalance problem, which can hinder the generalization ability of machine learning models and contribute, for instance, to model overfitting. This issue compromises the accuracy and reliability of analyses, hindering progress in the identification and characterization of these ncRNA classes. To mitigate the challenges of data imbalance in small sample datasets, this study explores two main strategies. The first involves the development of GENNUS: GENerative Approaches for NUcleotide Sequences, a framework of generative techniques aimed at synthesizing mirtron data. GENNUS comprises two approaches based on Generative Adversarial Networks (GAN) and three approaches based on the Synthetic Minority Over-sampling Technique (SMOTE). The results demonstrate that these approaches are capable of generating synthetic data while preserving the intrinsic patterns and inherent diversity of real mirtron sequences. Moreover, the use of synthetic data eliminates the need for extensive feature engineering, making the modeling process more efficient and accessible. The second strategy explores deep learning techniques, specifically Transformer-based architectures, for the classification of mirtrons and canonical miRNAs. These models leverage the Transformer’s ability to capture long-range dependencies and complex relationships within nucleotide sequences. The results indicate that Transformer-based classifiers outperform stateof-the-art methods, yielding substantial improvements in both generalization and classification accuracy. This approach highlights the potential of deep learning models to enhance ncRNA analysis, paving the way for significant advancements in the field of bioinformatics. This work emphasizes the transformative impact of synthetic data generation and the use of advanced deep learning architectures in addressing the limitations imposed by data imbalance in genomics. The proposed methodologies offer more effective and scalable solutions for ncRNA classification, contributing to a deeper understanding of genetic regulation and enabling new discoveries in computational molecular biology. Additionally, this work also presents contributions in the classification of long non-coding RNAs (lncRNA), further expanding and demonstrating the applicability of machine learning techniques across different contexts of genomic analysis.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Dentre as classes de sequências de RNA não-codificante (ncRNA), os microRNAs e mirtrons são as mais estudados na literatura, principalmente pela importância na compreensão dos mecanismos de regulação genética desses pequenos ncRNAs. Do ponto de vista computacional, no que se trata sobre a classificação, em particular de mirtrons, tem-se o problema do desbalanceamento de dados, que pode comprometer a capacidade de generalização dos modelos de aprendizagem de máquina, contribuindo, por exemplo, para o superajuste dos modelos (overfitting). Esse problema compromete a precisão e a confiabilidade das análises, dificultando avanços na identificação e caracterização dessas classes de ncRNAs. Como forma de mitigar os problemas de desbalanceamento em amostras pequenas de dados, este estudo explora duas estratégias principais. A primeira consiste no desenvolvimento do GENNUS: GENerative Approaches for NUcleotide Sequences, um conjunto de abordagens generativas voltadas para a síntese de dados de mirtrons. O GENNUS é composto por duas abordagens baseadas em Redes Adversárias Generativas (Generative Adversarial Networks - GAN) e três abordagens baseadas na Synthetic Minority Over-sampling Technique (SMOTE). Os resultados demonstram que essas abordagens são capazes de gerar dados sintéticos, reservando padrões intrínsecos e a diversidade inerente das sequências reais de mirtrons, sem a ecessidade de engenharia de atributos, tornando o processo de modelagem mais eficiente e acessível. A segunda estratégia explora técnicas de aprendizagem profunda, em específico as arquiteturas baseadas em Transformer, para a classificação de mirtrons e miRNAs canônicos. Esses modelos aproveitam a capacidade do Transformer de capturar dependências de longo alcance e relações complexas dentro das sequências de nucleotídeos. Os resultados indicam que os classificadores baseados em Transformer superam métodos estado da arte, proporcionando melhorias substanciais na generalização e na precisão da classificação. Essa abordagem demonstra o potencial dos modelos de aprendizagem profunda para aprimorar a análise de ncRNA, abrindo caminho para avanços significativos no campo da bioinformática. Este trabalho destaca o impacto transformador da geração de dados sintéticos e da utilização de arquiteturas avançadas de aprendizado profundo, na mitigação das limitações impostas pelo desbalanceamento de dados na genômica. As metodologias propostas oferecem soluções mais eficazes e escaláveis para a classificação de ncRNA, contribuindo para uma compreensão mais aprofundada da regulação genética e viabilizando novas descobertas no campo da biologia molecular computacional. Adicionalmente, este trabalho também apresenta contribuições na área de classificação de RNAs longos não-codificantes (lncRNA), expandindo e demonstrando a aplicabilidade de técnicas de aprendizado de máquina, em diferentes contextos de análise genômica.Universidade Tecnológica Federal do ParanáCornelio ProcopioBrasilPrograma de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)UTFPRPaschoal, Alexandre Rossihttps://orcid.org/0000-0002-8887-0582http://lattes.cnpq.br/5834088144837137Raittz, Roberto Tadeuhttp://lattes.cnpq.br/9568041005753425Paschoal, Alexandre Rossihttp://lattes.cnpq.br/5834088144837137Guizelini, Dievalhttp://lattes.cnpq.br/1281246225342109Domingues, Douglas Silvahttp://lattes.cnpq.br/7905667701769534Lopes, Fabricio Martinshttp://lattes.cnpq.br/1660070580824436Lopes, Flavia Lombardihttp://lattes.cnpq.br/2957834927297648Chiquitto, Alisson Gaspar2025-08-19T22:33:51Z2025-08-19T22:33:51Z2025-04-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfCHIQUITTO, Alisson Gaspar. Aprimorando a classificação de mirtrons com aumento de dados e modelos transformers. 2025. Tese (Doutorado em Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.http://repositorio.utfpr.edu.br/jspui/handle/1/37933porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2025-08-20T10:32:26Zoai:repositorio.utfpr.edu.br:1/37933Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2025-08-20T10:32:26Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Aprimorando a classificação de mirtrons com aumento de dados e modelos transformers
Improving mirtron classification with data augmentation and transformer models
title Aprimorando a classificação de mirtrons com aumento de dados e modelos transformers
spellingShingle Aprimorando a classificação de mirtrons com aumento de dados e modelos transformers
Chiquitto, Alisson Gaspar
Bioinformática
Redes neurais (Computação)
Algorítmos genéticos
Bioinformatics
Neural networks (Computer science)
Genetic algorithms
CNPQ::CIENCIAS SOCIAIS APLICADAS
Ciência da Computação
title_short Aprimorando a classificação de mirtrons com aumento de dados e modelos transformers
title_full Aprimorando a classificação de mirtrons com aumento de dados e modelos transformers
title_fullStr Aprimorando a classificação de mirtrons com aumento de dados e modelos transformers
title_full_unstemmed Aprimorando a classificação de mirtrons com aumento de dados e modelos transformers
title_sort Aprimorando a classificação de mirtrons com aumento de dados e modelos transformers
author Chiquitto, Alisson Gaspar
author_facet Chiquitto, Alisson Gaspar
author_role author
dc.contributor.none.fl_str_mv Paschoal, Alexandre Rossi
https://orcid.org/0000-0002-8887-0582
http://lattes.cnpq.br/5834088144837137
Raittz, Roberto Tadeu
http://lattes.cnpq.br/9568041005753425
Paschoal, Alexandre Rossi
http://lattes.cnpq.br/5834088144837137
Guizelini, Dieval
http://lattes.cnpq.br/1281246225342109
Domingues, Douglas Silva
http://lattes.cnpq.br/7905667701769534
Lopes, Fabricio Martins
http://lattes.cnpq.br/1660070580824436
Lopes, Flavia Lombardi
http://lattes.cnpq.br/2957834927297648
dc.contributor.author.fl_str_mv Chiquitto, Alisson Gaspar
dc.subject.por.fl_str_mv Bioinformática
Redes neurais (Computação)
Algorítmos genéticos
Bioinformatics
Neural networks (Computer science)
Genetic algorithms
CNPQ::CIENCIAS SOCIAIS APLICADAS
Ciência da Computação
topic Bioinformática
Redes neurais (Computação)
Algorítmos genéticos
Bioinformatics
Neural networks (Computer science)
Genetic algorithms
CNPQ::CIENCIAS SOCIAIS APLICADAS
Ciência da Computação
description Among the classes of non-coding RNA (ncRNA) sequences, microRNAs and mirtrons are the most extensively studied in the literature, primarily due to their importance in understanding the regulatory mechanisms of these small ncRNAs. From a computational perspective, particularly regarding mirtron classification, a key challenge is the data imbalance problem, which can hinder the generalization ability of machine learning models and contribute, for instance, to model overfitting. This issue compromises the accuracy and reliability of analyses, hindering progress in the identification and characterization of these ncRNA classes. To mitigate the challenges of data imbalance in small sample datasets, this study explores two main strategies. The first involves the development of GENNUS: GENerative Approaches for NUcleotide Sequences, a framework of generative techniques aimed at synthesizing mirtron data. GENNUS comprises two approaches based on Generative Adversarial Networks (GAN) and three approaches based on the Synthetic Minority Over-sampling Technique (SMOTE). The results demonstrate that these approaches are capable of generating synthetic data while preserving the intrinsic patterns and inherent diversity of real mirtron sequences. Moreover, the use of synthetic data eliminates the need for extensive feature engineering, making the modeling process more efficient and accessible. The second strategy explores deep learning techniques, specifically Transformer-based architectures, for the classification of mirtrons and canonical miRNAs. These models leverage the Transformer’s ability to capture long-range dependencies and complex relationships within nucleotide sequences. The results indicate that Transformer-based classifiers outperform stateof-the-art methods, yielding substantial improvements in both generalization and classification accuracy. This approach highlights the potential of deep learning models to enhance ncRNA analysis, paving the way for significant advancements in the field of bioinformatics. This work emphasizes the transformative impact of synthetic data generation and the use of advanced deep learning architectures in addressing the limitations imposed by data imbalance in genomics. The proposed methodologies offer more effective and scalable solutions for ncRNA classification, contributing to a deeper understanding of genetic regulation and enabling new discoveries in computational molecular biology. Additionally, this work also presents contributions in the classification of long non-coding RNAs (lncRNA), further expanding and demonstrating the applicability of machine learning techniques across different contexts of genomic analysis.
publishDate 2025
dc.date.none.fl_str_mv 2025-08-19T22:33:51Z
2025-08-19T22:33:51Z
2025-04-28
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv CHIQUITTO, Alisson Gaspar. Aprimorando a classificação de mirtrons com aumento de dados e modelos transformers. 2025. Tese (Doutorado em Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.
http://repositorio.utfpr.edu.br/jspui/handle/1/37933
identifier_str_mv CHIQUITTO, Alisson Gaspar. Aprimorando a classificação de mirtrons com aumento de dados e modelos transformers. 2025. Tese (Doutorado em Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.
url http://repositorio.utfpr.edu.br/jspui/handle/1/37933
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850498336343195648