Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo

Araújo, Daniel Sabino Amorim de

Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo

Detalhes bibliográficos
Ano de defesa:	2008
Autor(a) principal:	Araújo, Daniel Sabino Amorim de
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal do Rio Grande do Norte BR UFRN Programa de Pós-Graduação em Sistemas e Computação Ciência da Computação
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Inteligência artificial Bioinformática Aprendizado de máquina Análise de agrupamentos Expressão gênica CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Link de acesso:	https://repositorio.ufrn.br/jspui/handle/123456789/17988
Resumo:	The use of clustering methods for the discovery of cancer subtypes has drawn a great deal of attention in the scientiﬁc community. While bioinformaticians have proposed new clustering methods that take advantage of characteristics of the gene expression data, the medical community has a preference for using classic clustering methods. There have been no studies thus far performing a large-scale evaluation of different clustering methods in this context. This work presents the ﬁrst large-scale analysis of seven different clustering methods and four proximity measures for the analysis of 35 cancer gene expression data sets. Results reveal that the ﬁnite mixture of Gaussians, followed closely by k-means, exhibited the best performance in terms of recovering the true structure of the data sets. These methods also exhibited, on average, the smallest difference between the actual number of classes in the data sets and the best number of clusters as indicated by our validation criteria. Furthermore, hierarchical methods, which have been widely used by the medical community, exhibited a poorer recovery performance than that of the other methods evaluated. Moreover, as a stable basis for the assessment and comparison of different clustering methods for cancer gene expression data, this study provides a common group of data sets (benchmark data sets) to be shared among researchers and used for comparisons with new methods

Metadados do item

id	UFRN_a36907a5e23a8f59142cb02f2fe5584a
oai_identifier_str	oai:repositorio.ufrn.br:123456789/17988
network_acronym_str	UFRN
network_name_str	Repositório Institucional da UFRN
repository_id_str
spelling	Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativoInteligência artificialBioinformáticaAprendizado de máquinaAnálise de agrupamentosExpressão gênicaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOThe use of clustering methods for the discovery of cancer subtypes has drawn a great deal of attention in the scientiﬁc community. While bioinformaticians have proposed new clustering methods that take advantage of characteristics of the gene expression data, the medical community has a preference for using classic clustering methods. There have been no studies thus far performing a large-scale evaluation of different clustering methods in this context. This work presents the ﬁrst large-scale analysis of seven different clustering methods and four proximity measures for the analysis of 35 cancer gene expression data sets. Results reveal that the ﬁnite mixture of Gaussians, followed closely by k-means, exhibited the best performance in terms of recovering the true structure of the data sets. These methods also exhibited, on average, the smallest difference between the actual number of classes in the data sets and the best number of clusters as indicated by our validation criteria. Furthermore, hierarchical methods, which have been widely used by the medical community, exhibited a poorer recovery performance than that of the other methods evaluated. Moreover, as a stable basis for the assessment and comparison of different clustering methods for cancer gene expression data, this study provides a common group of data sets (benchmark data sets) to be shared among researchers and used for comparisons with new methodsCoordenação de Aperfeiçoamento de Pessoal de Nível SuperiorO uso de técnicas de agrupamento na descoberta de subtipos de câncer tem atraído grande atenção da comunidade cientíﬁca. Enquanto bioinformatas propõem novas técnicas de agrupamento que levam em consideração características dos dados de expressão gênica, a comunidade médica prefere utilizar as técnicas clássicas de agrupamento. De fato, não existem trabalhos na literatura que realizam uma avaliação em grande escala de técnicas de agrupamento nesse contexto. Diante disso, este trabalho apresenta o primeiro estudo em grande escala de sete técnicas de agrupamento e quatro medidas de proximidade para a análise de 35 conjuntos de dados de expressão gênica. Mais especiﬁcamente, os resultados mostram que a técnica mistura ﬁnita de gaussianas, seguida pelo k-means, apresentam os melhores resultados em termos de recuperação da estrutura natural dos dados. Esses métodos também apresentam a menor diferença entre o número real de classes e o número de grupos presente na melhor partição. Além disso, os métodos de agrupamento hierárquico, que vêm sendo bastante utilizados pela comunidade médica, apresentaram os piores resultados quando comparados com os outros métodos investigados. Este trabalho também apresenta, como uma referência estável para a avaliação e comparação de diferentes algoritmos de agrupamento para dados de expressão gênica de câncer, um conjunto de bases de dados (benchmark data sets) que pode ser compartilhado entre pesquisadores e usado na comparação de novos métodosUniversidade Federal do Rio Grande do NorteBRUFRNPrograma de Pós-Graduação em Sistemas e ComputaçãoCiência da ComputaçãoSouto, Marcílio Carlos Pereira dehttp://lattes.cnpq.br/4744754780165354http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790032E1Costa Filho, Ivan Gesteirahttp://lattes.cnpq.br/6173255299874918Canuto, Anne Magaly de Paulahttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790093J8Prudêncio, Ricardo Bastos Cavalcantehttp://lattes.cnpq.br/2984888073123287Araújo, Daniel Sabino Amorim de2014-12-17T15:47:48Z2009-03-102014-12-17T15:47:48Z2008-11-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfapplication/pdfARAÚJO, Daniel Sabino Amorim de. Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo. 2008. 104 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Rio Grande do Norte, Natal, 2008.https://repositorio.ufrn.br/jspui/handle/123456789/17988porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRN2017-11-04T13:26:59Zoai:repositorio.ufrn.br:123456789/17988Repositório InstitucionalPUBhttp://repositorio.ufrn.br/oai/repositorio@bczm.ufrn.bropendoar:2017-11-04T13:26:59Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.none.fl_str_mv	Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo
title	Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo
spellingShingle	Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo Araújo, Daniel Sabino Amorim de Inteligência artificial Bioinformática Aprendizado de máquina Análise de agrupamentos Expressão gênica CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
title_short	Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo
title_full	Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo
title_fullStr	Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo
title_full_unstemmed	Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo
title_sort	Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo
author	Araújo, Daniel Sabino Amorim de
author_facet	Araújo, Daniel Sabino Amorim de
author_role	author
dc.contributor.none.fl_str_mv	Souto, Marcílio Carlos Pereira de http://lattes.cnpq.br/4744754780165354 http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790032E1 Costa Filho, Ivan Gesteira http://lattes.cnpq.br/6173255299874918 Canuto, Anne Magaly de Paula http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790093J8 Prudêncio, Ricardo Bastos Cavalcante http://lattes.cnpq.br/2984888073123287
dc.contributor.author.fl_str_mv	Araújo, Daniel Sabino Amorim de
dc.subject.por.fl_str_mv	Inteligência artificial Bioinformática Aprendizado de máquina Análise de agrupamentos Expressão gênica CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
topic	Inteligência artificial Bioinformática Aprendizado de máquina Análise de agrupamentos Expressão gênica CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
description	The use of clustering methods for the discovery of cancer subtypes has drawn a great deal of attention in the scientiﬁc community. While bioinformaticians have proposed new clustering methods that take advantage of characteristics of the gene expression data, the medical community has a preference for using classic clustering methods. There have been no studies thus far performing a large-scale evaluation of different clustering methods in this context. This work presents the ﬁrst large-scale analysis of seven different clustering methods and four proximity measures for the analysis of 35 cancer gene expression data sets. Results reveal that the ﬁnite mixture of Gaussians, followed closely by k-means, exhibited the best performance in terms of recovering the true structure of the data sets. These methods also exhibited, on average, the smallest difference between the actual number of classes in the data sets and the best number of clusters as indicated by our validation criteria. Furthermore, hierarchical methods, which have been widely used by the medical community, exhibited a poorer recovery performance than that of the other methods evaluated. Moreover, as a stable basis for the assessment and comparison of different clustering methods for cancer gene expression data, this study provides a common group of data sets (benchmark data sets) to be shared among researchers and used for comparisons with new methods
publishDate	2008
dc.date.none.fl_str_mv	2008-11-11 2009-03-10 2014-12-17T15:47:48Z 2014-12-17T15:47:48Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	ARAÚJO, Daniel Sabino Amorim de. Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo. 2008. 104 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Rio Grande do Norte, Natal, 2008. https://repositorio.ufrn.br/jspui/handle/123456789/17988
identifier_str_mv	ARAÚJO, Daniel Sabino Amorim de. Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo. 2008. 104 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Rio Grande do Norte, Natal, 2008.
url	https://repositorio.ufrn.br/jspui/handle/123456789/17988
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal do Rio Grande do Norte BR UFRN Programa de Pós-Graduação em Sistemas e Computação Ciência da Computação
publisher.none.fl_str_mv	Universidade Federal do Rio Grande do Norte BR UFRN Programa de Pós-Graduação em Sistemas e Computação Ciência da Computação
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN
instname_str	Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str	UFRN
institution	UFRN
reponame_str	Repositório Institucional da UFRN
collection	Repositório Institucional da UFRN
repository.name.fl_str_mv	Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv	repositorio@bczm.ufrn.br
_version_	1855758780942254080

Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo

Registros relacionados