A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification
| Ano de defesa: | 2023 |
|---|---|
| Autor(a) principal: | |
| Outros Autores: | , |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Universidade Federal do Amazonas
Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://tede.ufam.edu.br/handle/tede/10234 |
Resumo: | O câncer de mama é o segundo tipo de câncer mais comum e a principal causa de mortes entre mulheres em todo o mundo. Por se tratar de uma doença heterogênea, a subtipagem do câncer de mama desempenha um papel importante na realização de um tratamento específico. Os dados de expressão gênica são uma alternativa viável para serem empregados na classificação de subtipos de câncer, pois representam o estado de uma célula em nível molecular, mas geralmente possuem um número relativamente pequeno de amostras em comparação a um grande número de genes. A seleção de genes é uma abordagem que lida com essa matriz de alta dimensão de genes contra amostras, e desempenha um papel importante na classificação eficiente de subtipos de câncer. Nesta tese, um método híbrido inovador de seleção de genes com base em outliers (H-OGS) é proposto para selecionar genes relevantes para classificar de forma eficiente e eficaz os subtipos de câncer de mama, e para identificar assinaturas distintas capazes de caracterizar subtipos de câncer de mama. Então, as associações aprendidas pelo classificador empregado nesse método são interpretadas localmente por SHAP Values revelando genes que são biologicamente relevantes para a classsificação de cada subtipo de câncer de mama. Em geral, nosso método seleciona apenas alguns genes altamente relevantes, acelerando a classificação e melhorando significativamente o desempenho do classificador. Experimentos mostram que nossa estratégia apresenta os melhores resultados para os subtipos Basal e Her 2, os dois subtipos de câncer de mama com os piores prognósticos, respectivamente. Nosso método também identifica três assinaturas distintas que caracterizam o subtipo basal, onde essas assinaturas possuem genes e pathways diretamente relacionados aos subtipos de câncer de mama. Nós também propomos um framework de avaliação que utiliza diferentes técnicas de aprendizado de máquina para uma análise mais ampla da lista PAM50 na classificação de subtipos de câncer de mama. Os experimentos mostram que o melhor método a ser utilizado na classificação dos subtipos de câncer de mama é o SVM com kernel linear. |
| id |
UFAM_ffbe2a9ab433b78c50edd3e906a9609a |
|---|---|
| oai_identifier_str |
oai:https://tede.ufam.edu.br/handle/:tede/10234 |
| network_acronym_str |
UFAM |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UFAM |
| repository_id_str |
|
| spelling |
A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification...CIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAOGene expressionOutlier genesBreast cancerExplainable AIO câncer de mama é o segundo tipo de câncer mais comum e a principal causa de mortes entre mulheres em todo o mundo. Por se tratar de uma doença heterogênea, a subtipagem do câncer de mama desempenha um papel importante na realização de um tratamento específico. Os dados de expressão gênica são uma alternativa viável para serem empregados na classificação de subtipos de câncer, pois representam o estado de uma célula em nível molecular, mas geralmente possuem um número relativamente pequeno de amostras em comparação a um grande número de genes. A seleção de genes é uma abordagem que lida com essa matriz de alta dimensão de genes contra amostras, e desempenha um papel importante na classificação eficiente de subtipos de câncer. Nesta tese, um método híbrido inovador de seleção de genes com base em outliers (H-OGS) é proposto para selecionar genes relevantes para classificar de forma eficiente e eficaz os subtipos de câncer de mama, e para identificar assinaturas distintas capazes de caracterizar subtipos de câncer de mama. Então, as associações aprendidas pelo classificador empregado nesse método são interpretadas localmente por SHAP Values revelando genes que são biologicamente relevantes para a classsificação de cada subtipo de câncer de mama. Em geral, nosso método seleciona apenas alguns genes altamente relevantes, acelerando a classificação e melhorando significativamente o desempenho do classificador. Experimentos mostram que nossa estratégia apresenta os melhores resultados para os subtipos Basal e Her 2, os dois subtipos de câncer de mama com os piores prognósticos, respectivamente. Nosso método também identifica três assinaturas distintas que caracterizam o subtipo basal, onde essas assinaturas possuem genes e pathways diretamente relacionados aos subtipos de câncer de mama. Nós também propomos um framework de avaliação que utiliza diferentes técnicas de aprendizado de máquina para uma análise mais ampla da lista PAM50 na classificação de subtipos de câncer de mama. Os experimentos mostram que o melhor método a ser utilizado na classificação dos subtipos de câncer de mama é o SVM com kernel linear.Breast cancer is the second most common cancer type and is the leading cause of cancer-related deaths worldwide among women. Since it is a heterogeneous disease, subtyping breast cancer plays an important role in performing a specific treatment. Gene expression data is a viable alternative to be employed on cancer subtype classification, as they represent the state of a cell at the molecular level; but generally has a relatively small number of samples compared to a large number of genes. Gene selection is a promising approach to address this uneven high-dimensional matrix of genes versus samples and plays a major role in developing efficient cancer subtype classification. In this thesis, an innovative hybrid gene selection method based on outliers (H-OGS) is proposed to select relevant genes to efficiently and effectively classify breast cancer subtypes, and to identify distinct signatures capable of to characterize breast cancer subtypes. Then, the associations learned by the classifier employed in this method are interpreted locally by SHAP Values revealing genes that are biologically relevant for the classification of each subtype of breast cancer. In general, our method selects only a few highly relevant genes, speeding up the classification and significantly improving the classifier's performance. Experiments show that our strategy gives the best results for Basal and Her 2 subtypes, the two breast cancer subtypes with the worst prognosis, respectively. Our method also identifies three distinct signatures that characterize the basal subtype, where these signatures have genes and pathways directly related to breast cancer subtypes. We also propose an evaluation framework that uses different machine learning techniques for a broader analysis of the PAM50 list in the classification of breast cancer subtypes. The experiments show that the best method to classify breast cancer subtypes is the SVM with linear kernel.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorFAPEAM - Fundação de Amparo à Pesquisa do Estado do AmazonasUniversidade Federal do AmazonasInstituto de ComputaçãoBrasilUFAMPrograma de Pós-graduação em InformáticaNakamura, Eduardo Freirehttp://lattes.cnpq.br/1448696292042915Fenyö, DavidSilva, ClaudioCordeiro, Isabelle BezerraMendonça Neto, Rayolhttp://lattes.cnpq.br/1024406587940291https://orcid.org/0000-0001-9693-64172024-08-05T21:51:55Z2023-07-07info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfMEDONÇA NETO, Rayol de. A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification. 2023. 105 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus (AM), 2023.https://tede.ufam.edu.br/handle/tede/10234enghttps://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2024-08-06T05:04:05Zoai:https://tede.ufam.edu.br/handle/:tede/10234Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br||ddbc@ufam.edu.bropendoar:65922024-08-06T05:04:05Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false |
| dc.title.none.fl_str_mv |
A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification |
| title |
A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification |
| spellingShingle |
A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification Mendonça Neto, Rayol . . . CIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAO Gene expression Outlier genes Breast cancer Explainable AI |
| title_short |
A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification |
| title_full |
A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification |
| title_fullStr |
A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification |
| title_full_unstemmed |
A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification |
| title_sort |
A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification |
| author |
Mendonça Neto, Rayol |
| author_facet |
Mendonça Neto, Rayol http://lattes.cnpq.br/1024406587940291 https://orcid.org/0000-0001-9693-6417 |
| author_role |
author |
| author2 |
http://lattes.cnpq.br/1024406587940291 https://orcid.org/0000-0001-9693-6417 |
| author2_role |
author author |
| dc.contributor.none.fl_str_mv |
Nakamura, Eduardo Freire http://lattes.cnpq.br/1448696292042915 Fenyö, David Silva, Claudio Cordeiro, Isabelle Bezerra |
| dc.contributor.author.fl_str_mv |
Mendonça Neto, Rayol http://lattes.cnpq.br/1024406587940291 https://orcid.org/0000-0001-9693-6417 |
| dc.subject.por.fl_str_mv |
. . . CIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAO Gene expression Outlier genes Breast cancer Explainable AI |
| topic |
. . . CIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAO Gene expression Outlier genes Breast cancer Explainable AI |
| description |
O câncer de mama é o segundo tipo de câncer mais comum e a principal causa de mortes entre mulheres em todo o mundo. Por se tratar de uma doença heterogênea, a subtipagem do câncer de mama desempenha um papel importante na realização de um tratamento específico. Os dados de expressão gênica são uma alternativa viável para serem empregados na classificação de subtipos de câncer, pois representam o estado de uma célula em nível molecular, mas geralmente possuem um número relativamente pequeno de amostras em comparação a um grande número de genes. A seleção de genes é uma abordagem que lida com essa matriz de alta dimensão de genes contra amostras, e desempenha um papel importante na classificação eficiente de subtipos de câncer. Nesta tese, um método híbrido inovador de seleção de genes com base em outliers (H-OGS) é proposto para selecionar genes relevantes para classificar de forma eficiente e eficaz os subtipos de câncer de mama, e para identificar assinaturas distintas capazes de caracterizar subtipos de câncer de mama. Então, as associações aprendidas pelo classificador empregado nesse método são interpretadas localmente por SHAP Values revelando genes que são biologicamente relevantes para a classsificação de cada subtipo de câncer de mama. Em geral, nosso método seleciona apenas alguns genes altamente relevantes, acelerando a classificação e melhorando significativamente o desempenho do classificador. Experimentos mostram que nossa estratégia apresenta os melhores resultados para os subtipos Basal e Her 2, os dois subtipos de câncer de mama com os piores prognósticos, respectivamente. Nosso método também identifica três assinaturas distintas que caracterizam o subtipo basal, onde essas assinaturas possuem genes e pathways diretamente relacionados aos subtipos de câncer de mama. Nós também propomos um framework de avaliação que utiliza diferentes técnicas de aprendizado de máquina para uma análise mais ampla da lista PAM50 na classificação de subtipos de câncer de mama. Os experimentos mostram que o melhor método a ser utilizado na classificação dos subtipos de câncer de mama é o SVM com kernel linear. |
| publishDate |
2023 |
| dc.date.none.fl_str_mv |
2023-07-07 2024-08-05T21:51:55Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
MEDONÇA NETO, Rayol de. A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification. 2023. 105 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus (AM), 2023. https://tede.ufam.edu.br/handle/tede/10234 |
| identifier_str_mv |
MEDONÇA NETO, Rayol de. A Hybrid Gene Selection Method Based on Outliers for Breast Cancer Classification. 2023. 105 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus (AM), 2023. |
| url |
https://tede.ufam.edu.br/handle/tede/10234 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática |
| publisher.none.fl_str_mv |
Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFAM instname:Universidade Federal do Amazonas (UFAM) instacron:UFAM |
| instname_str |
Universidade Federal do Amazonas (UFAM) |
| instacron_str |
UFAM |
| institution |
UFAM |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UFAM |
| collection |
Biblioteca Digital de Teses e Dissertações da UFAM |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM) |
| repository.mail.fl_str_mv |
ddbc@ufam.edu.br||ddbc@ufam.edu.br |
| _version_ |
1851781316038623232 |