Análise de padrões transcriptômicos em pacientes comcâncer de mama: uma abordagem de aprendizado de máquina

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Padre, Natalia Santos
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/38023
Resumo: Breast cancer is one of the leading causes of death among women and is among the most prevalent worldwide. Thus, the search for more accurate diagnoses, treatments, and cancer prevention has increased, requiring a better understanding of the genetic alterations of tumors. By combining genomic and transcriptomic data, researchers can better understand the underlying mechanisms of the disease. Transcriptomic profiling involves sequencing transcribed RNAs to understand gene expression, which can lead to the identification of biomarkers for disease progression and aid in the discovery of treatment pathways. Studies analyzing transcriptomes, which encompass transcripts from both cancerous and non-cancerous cells, can be conducted through data analysis. In this work, we propose a pipeline for the transcriptomic analysis of gene expression data obtained from The Cancer Genome Atlas (TCGA) and use machine learning algorithms to classify the data into solid primary tissue, early-stage tumor, and metastasis. The data is pre-processed and normalized using the TCGAbiolinks package, which integrates TCGA data into a unified Bioconductor library, running on R software. TCGAbiolinks prepares the data using pre-processing strategies, allowing users to download a specific version of the data. For the analysis, it was necessary to transpose the datasets so that genes were represented by columns and individuals by rows. We executed seven classification models, with Random Forest and Radial Basis Function Support Vector Machine (RBF SVM) standing out, demonstrating superior performance with accuracy above 98%. To validate the classification models, cross-validation was used. At the end of this analysis, performance metrics (accuracy, precision, recall, and F1-score) were calculated for each iteration, and the average of these values was used to assess the overall performance of the models. Additionally, we applied a feature selector to the best-performing models to identify the most relevant variables in the dataset.
id UTFPR-12_61be7aacab287dea08d89b03cc1e02f8
oai_identifier_str oai:repositorio.utfpr.edu.br:1/38023
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Análise de padrões transcriptômicos em pacientes comcâncer de mama: uma abordagem de aprendizado de máquinaTranscriptomic pattern analysis in breast cancer patients: a machinelearning approachMamas - CâncerAprendizado do computadorBioinformáticaBreast - CancerMachine learningBioinformaticsCNPQ::CIENCIAS SOCIAIS APLICADASEngenharia/Tecnologia/GestãoBreast cancer is one of the leading causes of death among women and is among the most prevalent worldwide. Thus, the search for more accurate diagnoses, treatments, and cancer prevention has increased, requiring a better understanding of the genetic alterations of tumors. By combining genomic and transcriptomic data, researchers can better understand the underlying mechanisms of the disease. Transcriptomic profiling involves sequencing transcribed RNAs to understand gene expression, which can lead to the identification of biomarkers for disease progression and aid in the discovery of treatment pathways. Studies analyzing transcriptomes, which encompass transcripts from both cancerous and non-cancerous cells, can be conducted through data analysis. In this work, we propose a pipeline for the transcriptomic analysis of gene expression data obtained from The Cancer Genome Atlas (TCGA) and use machine learning algorithms to classify the data into solid primary tissue, early-stage tumor, and metastasis. The data is pre-processed and normalized using the TCGAbiolinks package, which integrates TCGA data into a unified Bioconductor library, running on R software. TCGAbiolinks prepares the data using pre-processing strategies, allowing users to download a specific version of the data. For the analysis, it was necessary to transpose the datasets so that genes were represented by columns and individuals by rows. We executed seven classification models, with Random Forest and Radial Basis Function Support Vector Machine (RBF SVM) standing out, demonstrating superior performance with accuracy above 98%. To validate the classification models, cross-validation was used. At the end of this analysis, performance metrics (accuracy, precision, recall, and F1-score) were calculated for each iteration, and the average of these values was used to assess the overall performance of the models. Additionally, we applied a feature selector to the best-performing models to identify the most relevant variables in the dataset.O câncer de mama é uma das principais causas de morte entre as mulheres e está entre os mais prevalentes em todo o mundo. Assim, a busca por diagnósticos mais precisos, tratamentos e prevenção do câncer aumentou, exigindo uma melhor compreensão das alterações genéticas dos tumores. Ao combinar dados genômicos e transcriptômicos, os pesquisadores podem compreender melhor os mecanismos subjacentes da doença. O perfil transcriptômico envolve o sequenciamento de RNAs transcritos para entender a expressão gênica, o que pode levar à identificação de biomarcadores para a progressão da doença e auxiliar na descoberta de caminhos de tratamento. Estudos que analisam transcriptomas, que abrangem transcrições de células cancerosas e não cancerosas, podem ser conduzidos por meio de análise de dados. Neste trabalho, propomos um pipeline para análise transcriptômica de dados obtidos do The Cancer Genome Atlas (TCGA) sobre expressão gênica, e utilizar algoritmos de aprendizado de máquina para classificar os dados entre tecido primário sólido, tumor em estágio inicial e metástase. Os dados são pré-processados e normalizados usando o pacote TCGAbiolinks, que integra dados do TCGA em uma biblioteca unificada do Bioconductor, executada no software R. O TCGAbiolinks prepara os dados usando estratégias de pré-processamento, permitindo que o usuário baixe uma versão específica dos dados. Para a análise, foi necessário transpor os conjuntos de dados para que os genes fossem representados por colunas e os indivíduos por linhas. Executamos sete modelos de classificação, tendo destaque os modelos de Floresta Aleatória e Máquina de vetores de suporte de função de base radial (RBF SVM) que demonstraram um desempenho superior, com acurácia acima de 98%. Para validar os modelos de classificação, foi utilizada a técnica de validação cruzada, ao final dessa análise as métricas de desempenho (acurácia, precisão, recall e F1-score) são calculadas para cada iteração e a média desses valores é usada para avaliar o desempenho geral dos modelos. Além disso, aplicamos um seletor de características nos modelos com melhor desempenho para identificar as variáveis mais relevantes na base de dados, bem como uma ferramenta que relaciona os genes identificados com suas respectivas descrições e classificações.Universidade Tecnológica Federal do ParanáCornelio ProcopioBrasilPrograma de Pós-Graduação em BioinformáticaUTFPRMartins, Marcella Scoczynski Ribeirohttps://orcid.org/0000-0002-5716-4968https://lattes.cnpq.br/5212122361603572Sanches, Danilo Sipolihttps://lattes.cnpq.br/6377657274398145Sanches, Danilo Sipolihttps://lattes.cnpq.br/6377657274398145Correa, Fernanda Cristinahttps://lattes.cnpq.br/1495216809511536Bressan, Glaucia Mariahttps://lattes.cnpq.br/2648513655629475Martins, Marcella Scoczynski Ribeirohttps://lattes.cnpq.br/5212122361603572Santos, Paulo Victor dosPadre, Natalia Santos2025-08-27T14:12:42Z2025-08-27T14:12:42Z2025-02-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfPADRE, Natalia Santos. Análise de padrões transcriptômicos em pacientes com câncer de mama: uma abordagem de aprendizado de máquina. 2025. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.http://repositorio.utfpr.edu.br/jspui/handle/1/38023porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2025-08-28T06:13:11Zoai:repositorio.utfpr.edu.br:1/38023Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2025-08-28T06:13:11Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Análise de padrões transcriptômicos em pacientes comcâncer de mama: uma abordagem de aprendizado de máquina
Transcriptomic pattern analysis in breast cancer patients: a machinelearning approach
title Análise de padrões transcriptômicos em pacientes comcâncer de mama: uma abordagem de aprendizado de máquina
spellingShingle Análise de padrões transcriptômicos em pacientes comcâncer de mama: uma abordagem de aprendizado de máquina
Padre, Natalia Santos
Mamas - Câncer
Aprendizado do computador
Bioinformática
Breast - Cancer
Machine learning
Bioinformatics
CNPQ::CIENCIAS SOCIAIS APLICADAS
Engenharia/Tecnologia/Gestão
title_short Análise de padrões transcriptômicos em pacientes comcâncer de mama: uma abordagem de aprendizado de máquina
title_full Análise de padrões transcriptômicos em pacientes comcâncer de mama: uma abordagem de aprendizado de máquina
title_fullStr Análise de padrões transcriptômicos em pacientes comcâncer de mama: uma abordagem de aprendizado de máquina
title_full_unstemmed Análise de padrões transcriptômicos em pacientes comcâncer de mama: uma abordagem de aprendizado de máquina
title_sort Análise de padrões transcriptômicos em pacientes comcâncer de mama: uma abordagem de aprendizado de máquina
author Padre, Natalia Santos
author_facet Padre, Natalia Santos
author_role author
dc.contributor.none.fl_str_mv Martins, Marcella Scoczynski Ribeiro
https://orcid.org/0000-0002-5716-4968
https://lattes.cnpq.br/5212122361603572
Sanches, Danilo Sipoli
https://lattes.cnpq.br/6377657274398145
Sanches, Danilo Sipoli
https://lattes.cnpq.br/6377657274398145
Correa, Fernanda Cristina
https://lattes.cnpq.br/1495216809511536
Bressan, Glaucia Maria
https://lattes.cnpq.br/2648513655629475
Martins, Marcella Scoczynski Ribeiro
https://lattes.cnpq.br/5212122361603572
Santos, Paulo Victor dos
dc.contributor.author.fl_str_mv Padre, Natalia Santos
dc.subject.por.fl_str_mv Mamas - Câncer
Aprendizado do computador
Bioinformática
Breast - Cancer
Machine learning
Bioinformatics
CNPQ::CIENCIAS SOCIAIS APLICADAS
Engenharia/Tecnologia/Gestão
topic Mamas - Câncer
Aprendizado do computador
Bioinformática
Breast - Cancer
Machine learning
Bioinformatics
CNPQ::CIENCIAS SOCIAIS APLICADAS
Engenharia/Tecnologia/Gestão
description Breast cancer is one of the leading causes of death among women and is among the most prevalent worldwide. Thus, the search for more accurate diagnoses, treatments, and cancer prevention has increased, requiring a better understanding of the genetic alterations of tumors. By combining genomic and transcriptomic data, researchers can better understand the underlying mechanisms of the disease. Transcriptomic profiling involves sequencing transcribed RNAs to understand gene expression, which can lead to the identification of biomarkers for disease progression and aid in the discovery of treatment pathways. Studies analyzing transcriptomes, which encompass transcripts from both cancerous and non-cancerous cells, can be conducted through data analysis. In this work, we propose a pipeline for the transcriptomic analysis of gene expression data obtained from The Cancer Genome Atlas (TCGA) and use machine learning algorithms to classify the data into solid primary tissue, early-stage tumor, and metastasis. The data is pre-processed and normalized using the TCGAbiolinks package, which integrates TCGA data into a unified Bioconductor library, running on R software. TCGAbiolinks prepares the data using pre-processing strategies, allowing users to download a specific version of the data. For the analysis, it was necessary to transpose the datasets so that genes were represented by columns and individuals by rows. We executed seven classification models, with Random Forest and Radial Basis Function Support Vector Machine (RBF SVM) standing out, demonstrating superior performance with accuracy above 98%. To validate the classification models, cross-validation was used. At the end of this analysis, performance metrics (accuracy, precision, recall, and F1-score) were calculated for each iteration, and the average of these values was used to assess the overall performance of the models. Additionally, we applied a feature selector to the best-performing models to identify the most relevant variables in the dataset.
publishDate 2025
dc.date.none.fl_str_mv 2025-08-27T14:12:42Z
2025-08-27T14:12:42Z
2025-02-27
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv PADRE, Natalia Santos. Análise de padrões transcriptômicos em pacientes com câncer de mama: uma abordagem de aprendizado de máquina. 2025. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.
http://repositorio.utfpr.edu.br/jspui/handle/1/38023
identifier_str_mv PADRE, Natalia Santos. Análise de padrões transcriptômicos em pacientes com câncer de mama: uma abordagem de aprendizado de máquina. 2025. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.
url http://repositorio.utfpr.edu.br/jspui/handle/1/38023
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850498351386066944