Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo

Detalhes bibliográficos
Ano de defesa: 2008
Autor(a) principal: Araújo, Daniel Sabino Amorim de
Orientador(a): Souto, Marcílio Carlos Pereira de
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Rio Grande do Norte
Programa de Pós-Graduação: Programa de Pós-Graduação em Sistemas e Computação
Departamento: Ciência da Computação
País: BR
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufrn.br/jspui/handle/123456789/17988
Resumo: The use of clustering methods for the discovery of cancer subtypes has drawn a great deal of attention in the scientific community. While bioinformaticians have proposed new clustering methods that take advantage of characteristics of the gene expression data, the medical community has a preference for using classic clustering methods. There have been no studies thus far performing a large-scale evaluation of different clustering methods in this context. This work presents the first large-scale analysis of seven different clustering methods and four proximity measures for the analysis of 35 cancer gene expression data sets. Results reveal that the finite mixture of Gaussians, followed closely by k-means, exhibited the best performance in terms of recovering the true structure of the data sets. These methods also exhibited, on average, the smallest difference between the actual number of classes in the data sets and the best number of clusters as indicated by our validation criteria. Furthermore, hierarchical methods, which have been widely used by the medical community, exhibited a poorer recovery performance than that of the other methods evaluated. Moreover, as a stable basis for the assessment and comparison of different clustering methods for cancer gene expression data, this study provides a common group of data sets (benchmark data sets) to be shared among researchers and used for comparisons with new methods
id UFRN_b6e1b51764f80921647a00b7f220e067
oai_identifier_str oai:https://repositorio.ufrn.br:123456789/17988
network_acronym_str UFRN
network_name_str Repositório Institucional da UFRN
repository_id_str
spelling Araújo, Daniel Sabino Amorim dehttp://lattes.cnpq.br/4744754780165354http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790032E1Costa Filho, Ivan Gesteirahttp://lattes.cnpq.br/6173255299874918Canuto, Anne Magaly de Paulahttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790093J8Prudêncio, Ricardo Bastos Cavalcantehttp://lattes.cnpq.br/2984888073123287Souto, Marcílio Carlos Pereira de2014-12-17T15:47:48Z2009-03-102014-12-17T15:47:48Z2008-11-11ARAÚJO, Daniel Sabino Amorim de. Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo. 2008. 104 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Rio Grande do Norte, Natal, 2008.https://repositorio.ufrn.br/jspui/handle/123456789/17988The use of clustering methods for the discovery of cancer subtypes has drawn a great deal of attention in the scientific community. While bioinformaticians have proposed new clustering methods that take advantage of characteristics of the gene expression data, the medical community has a preference for using classic clustering methods. There have been no studies thus far performing a large-scale evaluation of different clustering methods in this context. This work presents the first large-scale analysis of seven different clustering methods and four proximity measures for the analysis of 35 cancer gene expression data sets. Results reveal that the finite mixture of Gaussians, followed closely by k-means, exhibited the best performance in terms of recovering the true structure of the data sets. These methods also exhibited, on average, the smallest difference between the actual number of classes in the data sets and the best number of clusters as indicated by our validation criteria. Furthermore, hierarchical methods, which have been widely used by the medical community, exhibited a poorer recovery performance than that of the other methods evaluated. Moreover, as a stable basis for the assessment and comparison of different clustering methods for cancer gene expression data, this study provides a common group of data sets (benchmark data sets) to be shared among researchers and used for comparisons with new methodsO uso de técnicas de agrupamento na descoberta de subtipos de câncer tem atraído grande atenção da comunidade científica. Enquanto bioinformatas propõem novas técnicas de agrupamento que levam em consideração características dos dados de expressão gênica, a comunidade médica prefere utilizar as técnicas clássicas de agrupamento. De fato, não existem trabalhos na literatura que realizam uma avaliação em grande escala de técnicas de agrupamento nesse contexto. Diante disso, este trabalho apresenta o primeiro estudo em grande escala de sete técnicas de agrupamento e quatro medidas de proximidade para a análise de 35 conjuntos de dados de expressão gênica. Mais especificamente, os resultados mostram que a técnica mistura finita de gaussianas, seguida pelo k-means, apresentam os melhores resultados em termos de recuperação da estrutura natural dos dados. Esses métodos também apresentam a menor diferença entre o número real de classes e o número de grupos presente na melhor partição. Além disso, os métodos de agrupamento hierárquico, que vêm sendo bastante utilizados pela comunidade médica, apresentaram os piores resultados quando comparados com os outros métodos investigados. Este trabalho também apresenta, como uma referência estável para a avaliação e comparação de diferentes algoritmos de agrupamento para dados de expressão gênica de câncer, um conjunto de bases de dados (benchmark data sets) que pode ser compartilhado entre pesquisadores e usado na comparação de novos métodosCoordenação de Aperfeiçoamento de Pessoal de Nível Superiorapplication/pdfporUniversidade Federal do Rio Grande do NortePrograma de Pós-Graduação em Sistemas e ComputaçãoUFRNBRCiência da ComputaçãoInteligência artificialBioinformáticaAprendizado de máquinaAnálise de agrupamentosExpressão gênicaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOAlgoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNORIGINALDanielSAA.pdfapplication/pdf691771https://repositorio.ufrn.br/bitstream/123456789/17988/1/DanielSAA.pdfc2a3333a69e8d426409687ac8cfac27fMD51TEXTDanielSAA.pdf.txtDanielSAA.pdf.txtExtracted texttext/plain176765https://repositorio.ufrn.br/bitstream/123456789/17988/6/DanielSAA.pdf.txt87d0161c0ddaa8bcdbcd8dd92858ba79MD56THUMBNAILDanielSAA.pdf.jpgDanielSAA.pdf.jpgIM Thumbnailimage/jpeg3020https://repositorio.ufrn.br/bitstream/123456789/17988/7/DanielSAA.pdf.jpg7901be02e2120e0cda3c2d4eaec5d248MD57123456789/179882017-11-04 10:26:59.565oai:https://repositorio.ufrn.br:123456789/17988Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2017-11-04T13:26:59Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.por.fl_str_mv Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo
title Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo
spellingShingle Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo
Araújo, Daniel Sabino Amorim de
Inteligência artificial
Bioinformática
Aprendizado de máquina
Análise de agrupamentos
Expressão gênica
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
title_short Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo
title_full Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo
title_fullStr Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo
title_full_unstemmed Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo
title_sort Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo
author Araújo, Daniel Sabino Amorim de
author_facet Araújo, Daniel Sabino Amorim de
author_role author
dc.contributor.authorID.por.fl_str_mv
dc.contributor.authorLattes.por.fl_str_mv http://lattes.cnpq.br/4744754780165354
dc.contributor.advisorID.por.fl_str_mv
dc.contributor.advisorLattes.por.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790032E1
dc.contributor.advisor-co1ID.por.fl_str_mv
dc.contributor.referees1.pt_BR.fl_str_mv Canuto, Anne Magaly de Paula
dc.contributor.referees1ID.por.fl_str_mv
dc.contributor.referees1Lattes.por.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790093J8
dc.contributor.referees2.pt_BR.fl_str_mv Prudêncio, Ricardo Bastos Cavalcante
dc.contributor.referees2ID.por.fl_str_mv
dc.contributor.referees2Lattes.por.fl_str_mv http://lattes.cnpq.br/2984888073123287
dc.contributor.author.fl_str_mv Araújo, Daniel Sabino Amorim de
dc.contributor.advisor-co1.fl_str_mv Costa Filho, Ivan Gesteira
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/6173255299874918
dc.contributor.advisor1.fl_str_mv Souto, Marcílio Carlos Pereira de
contributor_str_mv Costa Filho, Ivan Gesteira
Souto, Marcílio Carlos Pereira de
dc.subject.por.fl_str_mv Inteligência artificial
Bioinformática
Aprendizado de máquina
Análise de agrupamentos
Expressão gênica
topic Inteligência artificial
Bioinformática
Aprendizado de máquina
Análise de agrupamentos
Expressão gênica
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
description The use of clustering methods for the discovery of cancer subtypes has drawn a great deal of attention in the scientific community. While bioinformaticians have proposed new clustering methods that take advantage of characteristics of the gene expression data, the medical community has a preference for using classic clustering methods. There have been no studies thus far performing a large-scale evaluation of different clustering methods in this context. This work presents the first large-scale analysis of seven different clustering methods and four proximity measures for the analysis of 35 cancer gene expression data sets. Results reveal that the finite mixture of Gaussians, followed closely by k-means, exhibited the best performance in terms of recovering the true structure of the data sets. These methods also exhibited, on average, the smallest difference between the actual number of classes in the data sets and the best number of clusters as indicated by our validation criteria. Furthermore, hierarchical methods, which have been widely used by the medical community, exhibited a poorer recovery performance than that of the other methods evaluated. Moreover, as a stable basis for the assessment and comparison of different clustering methods for cancer gene expression data, this study provides a common group of data sets (benchmark data sets) to be shared among researchers and used for comparisons with new methods
publishDate 2008
dc.date.issued.fl_str_mv 2008-11-11
dc.date.available.fl_str_mv 2009-03-10
2014-12-17T15:47:48Z
dc.date.accessioned.fl_str_mv 2014-12-17T15:47:48Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv ARAÚJO, Daniel Sabino Amorim de. Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo. 2008. 104 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Rio Grande do Norte, Natal, 2008.
dc.identifier.uri.fl_str_mv https://repositorio.ufrn.br/jspui/handle/123456789/17988
identifier_str_mv ARAÚJO, Daniel Sabino Amorim de. Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo. 2008. 104 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Rio Grande do Norte, Natal, 2008.
url https://repositorio.ufrn.br/jspui/handle/123456789/17988
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Sistemas e Computação
dc.publisher.initials.fl_str_mv UFRN
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Ciência da Computação
publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRN
instname:Universidade Federal do Rio Grande do Norte (UFRN)
instacron:UFRN
instname_str Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str UFRN
institution UFRN
reponame_str Repositório Institucional da UFRN
collection Repositório Institucional da UFRN
bitstream.url.fl_str_mv https://repositorio.ufrn.br/bitstream/123456789/17988/1/DanielSAA.pdf
https://repositorio.ufrn.br/bitstream/123456789/17988/6/DanielSAA.pdf.txt
https://repositorio.ufrn.br/bitstream/123456789/17988/7/DanielSAA.pdf.jpg
bitstream.checksum.fl_str_mv c2a3333a69e8d426409687ac8cfac27f
87d0161c0ddaa8bcdbcd8dd92858ba79
7901be02e2120e0cda3c2d4eaec5d248
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv
_version_ 1802118080285900800