Exportação concluída — 

Classificação de genes associados ao câncer de mama utilizando dados de expressão

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Valentin, Ana Beatriz Miranda
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/36417
Resumo: Understanding the characteristics of tumors and subtypes of breast cancer based on gene expression data is crucial for assisting in the identification of cancer types, obtaining a more accurate diagnosis, and quickly directing appropriate treatment. In this context, the aim of this study is to apply machine learning and deep learning methods for the multiclass classification of genes associated with breast cancer, using gene expression datasets, and to evaluate the predictive performance of these methods. The datasets used are obtained from repositories such as TCGA and GEO, and undergo preprocessing for data treatment and the application of dimensionality reduction techniques due to the high number of variables. Initially, principal component analysis is used to reduce the dimensionality of the data. Then, different traditional machine learning methods are applied, such as Logistic Regression, Support Vector Machine, and Random Forest, as well as deep learning models such as Multilayer Perceptron and Convolutional Neural Network. To enhance the performance of these models, the Optuna library is used for hyperparameter optimization, evaluating the performance of the algorithms both with and without this optimization. The performance comparison between the algorithms showed that Logistic Regression and Support Vector Machine achieved high accuracy on the GEO and TCGA databases, respectively. However, the MLP and CNN models, especially when optimized with Optuna, also delivered competitive results. The optimization adjusted parameters such as learning rate and number of layers, leading to significant improvements in performance. While Random Forest was less impacted by optimization, MLP and CNN showed substantial gains. Additionally, the SHAP library was applied to analyze the importance of variables and the influence of each dimension for each classifier. The analysis highlighted that hyperparameter optimization can be crucial in improving classifier accuracy
id UTFPR-12_8e1ed77a01f078c29b847c2a6de17184
oai_identifier_str oai:repositorio.utfpr.edu.br:1/36417
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Classificação de genes associados ao câncer de mama utilizando dados de expressãoClassification of breast cancer-associated genes using expression dataMamas - CâncerGenética - PesquisaBioinformáticaBreast - CancerGenetics - ResearchBioinformaticsCNPQ::ENGENHARIASEngenharia/Tecnologia/GestãoUnderstanding the characteristics of tumors and subtypes of breast cancer based on gene expression data is crucial for assisting in the identification of cancer types, obtaining a more accurate diagnosis, and quickly directing appropriate treatment. In this context, the aim of this study is to apply machine learning and deep learning methods for the multiclass classification of genes associated with breast cancer, using gene expression datasets, and to evaluate the predictive performance of these methods. The datasets used are obtained from repositories such as TCGA and GEO, and undergo preprocessing for data treatment and the application of dimensionality reduction techniques due to the high number of variables. Initially, principal component analysis is used to reduce the dimensionality of the data. Then, different traditional machine learning methods are applied, such as Logistic Regression, Support Vector Machine, and Random Forest, as well as deep learning models such as Multilayer Perceptron and Convolutional Neural Network. To enhance the performance of these models, the Optuna library is used for hyperparameter optimization, evaluating the performance of the algorithms both with and without this optimization. The performance comparison between the algorithms showed that Logistic Regression and Support Vector Machine achieved high accuracy on the GEO and TCGA databases, respectively. However, the MLP and CNN models, especially when optimized with Optuna, also delivered competitive results. The optimization adjusted parameters such as learning rate and number of layers, leading to significant improvements in performance. While Random Forest was less impacted by optimization, MLP and CNN showed substantial gains. Additionally, the SHAP library was applied to analyze the importance of variables and the influence of each dimension for each classifier. The analysis highlighted that hyperparameter optimization can be crucial in improving classifier accuracyA compreensão das características dos tumores e dos subtipos de câncer de mama a partir de dados de expressão gênica é fundamental para auxiliar na identificação dos tipos de câncer, obter um diagnóstico mais preciso e direcionar rapidamente o tratamento adequado. Neste contexto, o objetivo deste trabalho é aplicar métodos de machine learning e deep learning para a classificação multiclasse de genes associados ao câncer de mama, considerando bases de dados de expressão gênica, e avaliar a performance preditiva desses métodos. Os conjuntos de dados utilizados são obtidos de repositórios como o The Cancer Genome Atlas (TCGA) e o Gene Expression Omnibus (GEO), e passam por um pré-processamento para o tratamento dos dados e aplicação de técnicas de redução de dimensionalidade devido ao alto número de variáveis. Inicialmente, utiliza-se a técnica de análise de componentes principais para reduzir a dimensionalidade dos dados. Em seguida, são aplicados diferentes métodos de machine learning tradicionais, como Regressão Logística, Support Vector Machine e Random Forest, além de modelos de deep learning como o Multilayer Perceptron e Convulutional Neural Network. Para aprimorar a performance desses modelos, utiliza-se a biblioteca Optuna para otimização de hiperparâmetros, avaliando o desempenho dos algoritmos tanto com quanto sem essa otimização. A comparação de desempenho entre os algoritmos mostrou que a Regressão Logística e o Support Vector Machine tiveram alta acurácia nos bancos de dados GEO e TCGA, respectivamente. No entanto, os modelos Multilayer Perceptron (MLP) e Convolutional Neural Network (CNN), especialmente quando otimizados com Optuna, também apresentaram resultados competitivos. A otimização ajustou parâmetros como taxa de aprendizado e número de camadas, o que resultou em melhorias significativas no desempenho. Enquanto o Random Forest foi menos impactado pela otimização, MLP e CNN mostraram ganhos expressivos. Além disso, a biblioteca SHAP foi aplicada para analisar a importância das variáveis e a influência de cada dimensão para cada classificador. A análise evidenciou que a otimização de hiperparâmetros pode ser fundamental para melhorar a precisão dos classificadores.Universidade Tecnológica Federal do ParanáCornelio ProcopioBrasilPrograma de Pós-Graduação em BioinformáticaUTFPRBressan, Glaucia Mariahttps://orcid.org/0000-0001-6996-3129http://lattes.cnpq.br/2648513655629475Lizzi, Elisangela Aparecida da Silvahttps://orcid.org/0000-0001-7064-263Xhttp://lattes.cnpq.br/8487600124864253Lizzi, Elisangela Aparecida da Silvahttps://orcid.org/0000-0001-7064-263Xhttp://lattes.cnpq.br/8487600124864253Bressan, Glaucia Mariahttps://orcid.org/0000-0001-6996-3129http://lattes.cnpq.br/2648513655629475Martins, Marcella Scoczynski Ribeirohttps://orcid.org/0000-0002-5716-4968http://lattes.cnpq.br/5212122361603572Castro, Mauro Antonio Alveshttps://orcid.org/0000-0003-4942-8131http://lattes.cnpq.br/6484877487662355Valentin, Ana Beatriz Miranda2025-04-07T23:21:30Z2025-04-07T23:21:30Z2025-02-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfVALENTIN, Ana Beatriz Miranda. Classificação de genes associados ao câncer de mama utilizando dados de expressão. 2025. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.http://repositorio.utfpr.edu.br/jspui/handle/1/36417porhttps://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2025-09-26T19:16:40Zoai:repositorio.utfpr.edu.br:1/36417Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2025-09-26T19:16:40Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Classificação de genes associados ao câncer de mama utilizando dados de expressão
Classification of breast cancer-associated genes using expression data
title Classificação de genes associados ao câncer de mama utilizando dados de expressão
spellingShingle Classificação de genes associados ao câncer de mama utilizando dados de expressão
Valentin, Ana Beatriz Miranda
Mamas - Câncer
Genética - Pesquisa
Bioinformática
Breast - Cancer
Genetics - Research
Bioinformatics
CNPQ::ENGENHARIAS
Engenharia/Tecnologia/Gestão
title_short Classificação de genes associados ao câncer de mama utilizando dados de expressão
title_full Classificação de genes associados ao câncer de mama utilizando dados de expressão
title_fullStr Classificação de genes associados ao câncer de mama utilizando dados de expressão
title_full_unstemmed Classificação de genes associados ao câncer de mama utilizando dados de expressão
title_sort Classificação de genes associados ao câncer de mama utilizando dados de expressão
author Valentin, Ana Beatriz Miranda
author_facet Valentin, Ana Beatriz Miranda
author_role author
dc.contributor.none.fl_str_mv Bressan, Glaucia Maria
https://orcid.org/0000-0001-6996-3129
http://lattes.cnpq.br/2648513655629475
Lizzi, Elisangela Aparecida da Silva
https://orcid.org/0000-0001-7064-263X
http://lattes.cnpq.br/8487600124864253
Lizzi, Elisangela Aparecida da Silva
https://orcid.org/0000-0001-7064-263X
http://lattes.cnpq.br/8487600124864253
Bressan, Glaucia Maria
https://orcid.org/0000-0001-6996-3129
http://lattes.cnpq.br/2648513655629475
Martins, Marcella Scoczynski Ribeiro
https://orcid.org/0000-0002-5716-4968
http://lattes.cnpq.br/5212122361603572
Castro, Mauro Antonio Alves
https://orcid.org/0000-0003-4942-8131
http://lattes.cnpq.br/6484877487662355
dc.contributor.author.fl_str_mv Valentin, Ana Beatriz Miranda
dc.subject.por.fl_str_mv Mamas - Câncer
Genética - Pesquisa
Bioinformática
Breast - Cancer
Genetics - Research
Bioinformatics
CNPQ::ENGENHARIAS
Engenharia/Tecnologia/Gestão
topic Mamas - Câncer
Genética - Pesquisa
Bioinformática
Breast - Cancer
Genetics - Research
Bioinformatics
CNPQ::ENGENHARIAS
Engenharia/Tecnologia/Gestão
description Understanding the characteristics of tumors and subtypes of breast cancer based on gene expression data is crucial for assisting in the identification of cancer types, obtaining a more accurate diagnosis, and quickly directing appropriate treatment. In this context, the aim of this study is to apply machine learning and deep learning methods for the multiclass classification of genes associated with breast cancer, using gene expression datasets, and to evaluate the predictive performance of these methods. The datasets used are obtained from repositories such as TCGA and GEO, and undergo preprocessing for data treatment and the application of dimensionality reduction techniques due to the high number of variables. Initially, principal component analysis is used to reduce the dimensionality of the data. Then, different traditional machine learning methods are applied, such as Logistic Regression, Support Vector Machine, and Random Forest, as well as deep learning models such as Multilayer Perceptron and Convolutional Neural Network. To enhance the performance of these models, the Optuna library is used for hyperparameter optimization, evaluating the performance of the algorithms both with and without this optimization. The performance comparison between the algorithms showed that Logistic Regression and Support Vector Machine achieved high accuracy on the GEO and TCGA databases, respectively. However, the MLP and CNN models, especially when optimized with Optuna, also delivered competitive results. The optimization adjusted parameters such as learning rate and number of layers, leading to significant improvements in performance. While Random Forest was less impacted by optimization, MLP and CNN showed substantial gains. Additionally, the SHAP library was applied to analyze the importance of variables and the influence of each dimension for each classifier. The analysis highlighted that hyperparameter optimization can be crucial in improving classifier accuracy
publishDate 2025
dc.date.none.fl_str_mv 2025-04-07T23:21:30Z
2025-04-07T23:21:30Z
2025-02-21
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv VALENTIN, Ana Beatriz Miranda. Classificação de genes associados ao câncer de mama utilizando dados de expressão. 2025. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.
http://repositorio.utfpr.edu.br/jspui/handle/1/36417
identifier_str_mv VALENTIN, Ana Beatriz Miranda. Classificação de genes associados ao câncer de mama utilizando dados de expressão. 2025. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.
url http://repositorio.utfpr.edu.br/jspui/handle/1/36417
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv https://creativecommons.org/licenses/by/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850498292878671872