A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Mendonça Neto, Rayol
Outros Autores: http://lattes.cnpq.br/1024406587940291, https://orcid.org/0000-0001-9693-6417
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal do Amazonas
Instituto de Computação
Brasil
UFAM
Programa de Pós-graduação em Informática
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
.
Link de acesso: https://tede.ufam.edu.br/handle/tede/10234
Resumo: O câncer de mama é o segundo tipo de câncer mais comum e a principal causa de mortes entre mulheres em todo o mundo. Por se tratar de uma doença heterogênea, a subtipagem do câncer de mama desempenha um papel importante na realização de um tratamento específico. Os dados de expressão gênica são uma alternativa viável para serem empregados na classificação de subtipos de câncer, pois representam o estado de uma célula em nível molecular, mas geralmente possuem um número relativamente pequeno de amostras em comparação a um grande número de genes. A seleção de genes é uma abordagem que lida com essa matriz de alta dimensão de genes contra amostras, e desempenha um papel importante na classificação eficiente de subtipos de câncer. Nesta tese, um método híbrido inovador de seleção de genes com base em outliers (H-OGS) é proposto para selecionar genes relevantes para classificar de forma eficiente e eficaz os subtipos de câncer de mama, e para identificar assinaturas distintas capazes de caracterizar subtipos de câncer de mama. Então, as associações aprendidas pelo classificador empregado nesse método são interpretadas localmente por SHAP Values revelando genes que são biologicamente relevantes para a classsificação de cada subtipo de câncer de mama. Em geral, nosso método seleciona apenas alguns genes altamente relevantes, acelerando a classificação e melhorando significativamente o desempenho do classificador. Experimentos mostram que nossa estratégia apresenta os melhores resultados para os subtipos Basal e Her 2, os dois subtipos de câncer de mama com os piores prognósticos, respectivamente. Nosso método também identifica três assinaturas distintas que caracterizam o subtipo basal, onde essas assinaturas possuem genes e pathways diretamente relacionados aos subtipos de câncer de mama. Nós também propomos um framework de avaliação que utiliza diferentes técnicas de aprendizado de máquina para uma análise mais ampla da lista PAM50 na classificação de subtipos de câncer de mama. Os experimentos mostram que o melhor método a ser utilizado na classificação dos subtipos de câncer de mama é o SVM com kernel linear.
id UFAM_ffbe2a9ab433b78c50edd3e906a9609a
oai_identifier_str oai:https://tede.ufam.edu.br/handle/:tede/10234
network_acronym_str UFAM
network_name_str Biblioteca Digital de Teses e Dissertações da UFAM
repository_id_str
spelling A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification...CIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAOGene expressionOutlier genesBreast cancerExplainable AIO câncer de mama é o segundo tipo de câncer mais comum e a principal causa de mortes entre mulheres em todo o mundo. Por se tratar de uma doença heterogênea, a subtipagem do câncer de mama desempenha um papel importante na realização de um tratamento específico. Os dados de expressão gênica são uma alternativa viável para serem empregados na classificação de subtipos de câncer, pois representam o estado de uma célula em nível molecular, mas geralmente possuem um número relativamente pequeno de amostras em comparação a um grande número de genes. A seleção de genes é uma abordagem que lida com essa matriz de alta dimensão de genes contra amostras, e desempenha um papel importante na classificação eficiente de subtipos de câncer. Nesta tese, um método híbrido inovador de seleção de genes com base em outliers (H-OGS) é proposto para selecionar genes relevantes para classificar de forma eficiente e eficaz os subtipos de câncer de mama, e para identificar assinaturas distintas capazes de caracterizar subtipos de câncer de mama. Então, as associações aprendidas pelo classificador empregado nesse método são interpretadas localmente por SHAP Values revelando genes que são biologicamente relevantes para a classsificação de cada subtipo de câncer de mama. Em geral, nosso método seleciona apenas alguns genes altamente relevantes, acelerando a classificação e melhorando significativamente o desempenho do classificador. Experimentos mostram que nossa estratégia apresenta os melhores resultados para os subtipos Basal e Her 2, os dois subtipos de câncer de mama com os piores prognósticos, respectivamente. Nosso método também identifica três assinaturas distintas que caracterizam o subtipo basal, onde essas assinaturas possuem genes e pathways diretamente relacionados aos subtipos de câncer de mama. Nós também propomos um framework de avaliação que utiliza diferentes técnicas de aprendizado de máquina para uma análise mais ampla da lista PAM50 na classificação de subtipos de câncer de mama. Os experimentos mostram que o melhor método a ser utilizado na classificação dos subtipos de câncer de mama é o SVM com kernel linear.Breast cancer is the second most common cancer type and is the leading cause of cancer-related deaths worldwide among women. Since it is a heterogeneous disease, subtyping breast cancer plays an important role in performing a specific treatment. Gene expression data is a viable alternative to be employed on cancer subtype classification, as they represent the state of a cell at the molecular level; but generally has a relatively small number of samples compared to a large number of genes. Gene selection is a promising approach to address this uneven high-dimensional matrix of genes versus samples and plays a major role in developing efficient cancer subtype classification. In this thesis, an innovative hybrid gene selection method based on outliers (H-OGS) is proposed to select relevant genes to efficiently and effectively classify breast cancer subtypes, and to identify distinct signatures capable of to characterize breast cancer subtypes. Then, the associations learned by the classifier employed in this method are interpreted locally by SHAP Values revealing genes that are biologically relevant for the classification of each subtype of breast cancer. In general, our method selects only a few highly relevant genes, speeding up the classification and significantly improving the classifier's performance. Experiments show that our strategy gives the best results for Basal and Her 2 subtypes, the two breast cancer subtypes with the worst prognosis, respectively. Our method also identifies three distinct signatures that characterize the basal subtype, where these signatures have genes and pathways directly related to breast cancer subtypes. We also propose an evaluation framework that uses different machine learning techniques for a broader analysis of the PAM50 list in the classification of breast cancer subtypes. The experiments show that the best method to classify breast cancer subtypes is the SVM with linear kernel.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorFAPEAM - Fundação de Amparo à Pesquisa do Estado do AmazonasUniversidade Federal do AmazonasInstituto de ComputaçãoBrasilUFAMPrograma de Pós-graduação em InformáticaNakamura, Eduardo Freirehttp://lattes.cnpq.br/1448696292042915Fenyö, DavidSilva, ClaudioCordeiro, Isabelle BezerraMendonça Neto, Rayolhttp://lattes.cnpq.br/1024406587940291https://orcid.org/0000-0001-9693-64172024-08-05T21:51:55Z2023-07-07info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfMEDONÇA NETO, Rayol de. A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification. 2023. 105 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus (AM), 2023.https://tede.ufam.edu.br/handle/tede/10234enghttps://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2024-08-06T05:04:05Zoai:https://tede.ufam.edu.br/handle/:tede/10234Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br||ddbc@ufam.edu.bropendoar:65922024-08-06T05:04:05Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false
dc.title.none.fl_str_mv A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification
title A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification
spellingShingle A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification
Mendonça Neto, Rayol
.
.
.
CIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAO
Gene expression
Outlier genes
Breast cancer
Explainable AI
title_short A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification
title_full A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification
title_fullStr A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification
title_full_unstemmed A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification
title_sort A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification
author Mendonça Neto, Rayol
author_facet Mendonça Neto, Rayol
http://lattes.cnpq.br/1024406587940291
https://orcid.org/0000-0001-9693-6417
author_role author
author2 http://lattes.cnpq.br/1024406587940291
https://orcid.org/0000-0001-9693-6417
author2_role author
author
dc.contributor.none.fl_str_mv Nakamura, Eduardo Freire
http://lattes.cnpq.br/1448696292042915
Fenyö, David
Silva, Claudio
Cordeiro, Isabelle Bezerra
dc.contributor.author.fl_str_mv Mendonça Neto, Rayol
http://lattes.cnpq.br/1024406587940291
https://orcid.org/0000-0001-9693-6417
dc.subject.por.fl_str_mv .
.
.
CIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAO
Gene expression
Outlier genes
Breast cancer
Explainable AI
topic .
.
.
CIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAO
Gene expression
Outlier genes
Breast cancer
Explainable AI
description O câncer de mama é o segundo tipo de câncer mais comum e a principal causa de mortes entre mulheres em todo o mundo. Por se tratar de uma doença heterogênea, a subtipagem do câncer de mama desempenha um papel importante na realização de um tratamento específico. Os dados de expressão gênica são uma alternativa viável para serem empregados na classificação de subtipos de câncer, pois representam o estado de uma célula em nível molecular, mas geralmente possuem um número relativamente pequeno de amostras em comparação a um grande número de genes. A seleção de genes é uma abordagem que lida com essa matriz de alta dimensão de genes contra amostras, e desempenha um papel importante na classificação eficiente de subtipos de câncer. Nesta tese, um método híbrido inovador de seleção de genes com base em outliers (H-OGS) é proposto para selecionar genes relevantes para classificar de forma eficiente e eficaz os subtipos de câncer de mama, e para identificar assinaturas distintas capazes de caracterizar subtipos de câncer de mama. Então, as associações aprendidas pelo classificador empregado nesse método são interpretadas localmente por SHAP Values revelando genes que são biologicamente relevantes para a classsificação de cada subtipo de câncer de mama. Em geral, nosso método seleciona apenas alguns genes altamente relevantes, acelerando a classificação e melhorando significativamente o desempenho do classificador. Experimentos mostram que nossa estratégia apresenta os melhores resultados para os subtipos Basal e Her 2, os dois subtipos de câncer de mama com os piores prognósticos, respectivamente. Nosso método também identifica três assinaturas distintas que caracterizam o subtipo basal, onde essas assinaturas possuem genes e pathways diretamente relacionados aos subtipos de câncer de mama. Nós também propomos um framework de avaliação que utiliza diferentes técnicas de aprendizado de máquina para uma análise mais ampla da lista PAM50 na classificação de subtipos de câncer de mama. Os experimentos mostram que o melhor método a ser utilizado na classificação dos subtipos de câncer de mama é o SVM com kernel linear.
publishDate 2023
dc.date.none.fl_str_mv 2023-07-07
2024-08-05T21:51:55Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv MEDONÇA NETO, Rayol de. A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification. 2023. 105 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus (AM), 2023.
https://tede.ufam.edu.br/handle/tede/10234
identifier_str_mv MEDONÇA NETO, Rayol de. A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification. 2023. 105 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus (AM), 2023.
url https://tede.ufam.edu.br/handle/tede/10234
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Amazonas
Instituto de Computação
Brasil
UFAM
Programa de Pós-graduação em Informática
publisher.none.fl_str_mv Universidade Federal do Amazonas
Instituto de Computação
Brasil
UFAM
Programa de Pós-graduação em Informática
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFAM
instname:Universidade Federal do Amazonas (UFAM)
instacron:UFAM
instname_str Universidade Federal do Amazonas (UFAM)
instacron_str UFAM
institution UFAM
reponame_str Biblioteca Digital de Teses e Dissertações da UFAM
collection Biblioteca Digital de Teses e Dissertações da UFAM
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)
repository.mail.fl_str_mv ddbc@ufam.edu.br||ddbc@ufam.edu.br
_version_ 1851781316038623232