Comparação de métodos para definição do número ótimo de grupos em análise de agrupamento

Detalhes bibliográficos
Ano de defesa: 2012
Autor(a) principal: Alves, Suelem Cristina
Orientador(a): Peternelli, Luiz Alexandre lattes
Banca de defesa: Nascimento, Moysés lattes, Espeschit, Claudio José Borela
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
Programa de Pós-Graduação: Mestrado em Estatística Aplicada e Biometria
Departamento: Estatística Aplicada e Biometria
País: BR
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://locus.ufv.br/handle/123456789/4051
Resumo: Studies that use hierarchical cluster analysis have a problem in determining the optimal number of groups due to lack of objective criteria. Researches involving the adjustment of nonlinear models to data on growth or survival, in which the main interest is to determine how many curves are needed to describe the behavior of the individuals analyzed, use this technique. Some researchers use indices BSS (Between-group Sum of Squares), SPRSQ (Semi-partial R-Squared), RMSSTD (Root Mean Square Standard Deviation), RS (R-Squared) and Mojena method, as a means of assistance in this decision. However, it is not known which one is the best choice to determine that value. The comparison of these statistics was the aim of this study. The entire methodology used the Ward s method to cluster the observations, the von Bertalanffy model to fit the curves, and a specific function, based on the law of cosines and the idea of the Modified Maximum Curvature Method, to calculate the number of groups indicated by the indices. In chapter 1, a real case study was developed. The data set had seven animal growth curves, forming three groups. After grouping the parameter estimates and the calculation of statistics, it was found that only the index SPRSQ pointed to the correct number of groups. Using a function to re-scale the axis of the indices according to the axis of the number of groups, to improve the results obtained, only RMSSTD did not indicate the expected value. Chapter 2 describes the use of simulation to find out which of the statistics mentioned had the highest percentage of accuracy in determining the optimal number of groups in two cases. In the first one, the observations came from a single generator curve and, in the other, the individuals belonged to three different populations. In the case of a single curve, the RS index pointed to the optimal number of groups in most cases. For the case in which there were three different populations, the Mojena method was the one that indicated the right number of groups more often. In these cases, the use of the function that re-scales the axes did not show efficiency to improve the percentage of correct indices. In general, the indices RS and SPRSQ were the most appropriate to assist in determining the optimal number of groups.
id UFV_30ac93c35e1cf651aa8e592af5fdb21d
oai_identifier_str oai:locus.ufv.br:123456789/4051
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str
spelling Alves, Suelem Cristinahttp://lattes.cnpq.br/4007546105759852Martins Filho, Sebastiãohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723282T5Cruz, Cosme Damiãohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788274A6Peternelli, Luiz Alexandrehttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7Nascimento, Moyséshttp://lattes.cnpq.br/6544887498494945Espeschit, Claudio José Borela2015-03-26T13:32:15Z2012-09-122015-03-26T13:32:15Z2012-02-02ALVES, Suelem Cristina. Comparison of methods for defining the optimal number of groups in cluster analysis. 2012. 74 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa, 2012.http://locus.ufv.br/handle/123456789/4051Studies that use hierarchical cluster analysis have a problem in determining the optimal number of groups due to lack of objective criteria. Researches involving the adjustment of nonlinear models to data on growth or survival, in which the main interest is to determine how many curves are needed to describe the behavior of the individuals analyzed, use this technique. Some researchers use indices BSS (Between-group Sum of Squares), SPRSQ (Semi-partial R-Squared), RMSSTD (Root Mean Square Standard Deviation), RS (R-Squared) and Mojena method, as a means of assistance in this decision. However, it is not known which one is the best choice to determine that value. The comparison of these statistics was the aim of this study. The entire methodology used the Ward s method to cluster the observations, the von Bertalanffy model to fit the curves, and a specific function, based on the law of cosines and the idea of the Modified Maximum Curvature Method, to calculate the number of groups indicated by the indices. In chapter 1, a real case study was developed. The data set had seven animal growth curves, forming three groups. After grouping the parameter estimates and the calculation of statistics, it was found that only the index SPRSQ pointed to the correct number of groups. Using a function to re-scale the axis of the indices according to the axis of the number of groups, to improve the results obtained, only RMSSTD did not indicate the expected value. Chapter 2 describes the use of simulation to find out which of the statistics mentioned had the highest percentage of accuracy in determining the optimal number of groups in two cases. In the first one, the observations came from a single generator curve and, in the other, the individuals belonged to three different populations. In the case of a single curve, the RS index pointed to the optimal number of groups in most cases. For the case in which there were three different populations, the Mojena method was the one that indicated the right number of groups more often. In these cases, the use of the function that re-scales the axes did not show efficiency to improve the percentage of correct indices. In general, the indices RS and SPRSQ were the most appropriate to assist in determining the optimal number of groups.Estudos envolvendo análise de agrupamento hierárquico encontram um problema na hora de determinar o número ótimo de grupos, devido à falta de critérios objetivos. Pesquisas que envolvem o ajuste de modelos não-lineares a dados de crescimento ou de sobrevivência, cujo interesse principal é saber quantas curvas são necessárias para descrever o comportamento dos indivíduos analisados, utilizam dessa técnica. Como forma de auxiliar essa decisão, alguns pesquisadores recorrem aos índices BSS (Between-group Sum of Squares), SPRSQ (Semi-partial R-Squared), RMSSTD (Root Mean Square Standard Deviation), RS (R-Squared) e ao método de Mojena. Entretanto, não se sabe qual deles é a melhor escolha para determinação desse valor. A comparação dessas estatísticas foi o objetivo desse trabalho. Toda a metodologia utilizou o método de Ward para fazer o agrupamento das observações, o modelo de von Bertalanffy para o ajuste das curvas, e uma função própria, baseada na lei dos cossenos e na ideia do Método da Máxima Curvatura Modificado, para calcular o número de grupos indicado pelos índices. No capítulo 1 foi feito o estudo de caso real. O conjunto de dados possuía sete curvas de crescimento animal, que formavam três grupos. Após o agrupamento das estimativas dos parâmetros e o cálculo das estatísticas, foi constatado que apenas o índice SPRSQ apontou o número de grupos correto. Usando uma função que re-escalona o eixo dos índices de acordo com o eixo do número de grupos, para melhorar os resultados obtidos, apenas o RMSSTD não indicou o valor esperado. O capítulo 2 descreve o uso da simulação para descobrir qual das estatísticas citadas possuía maior porcentagem de acerto quanto à determinação do número ótimo de grupos em dois cenários. No primeiro, as observações provinham de uma única curva geradora e no outro, os indivíduos pertenciam a três populações diferentes. Para o caso de uma única curva, o índice RS foi o que apontou o número ótimo de grupos na maioria dos casos. Para o cenário onde se possuía três populações diferentes, o método de Mojena foi o que acertou o número de grupos mais vezes. Nesses cenários, o uso da função que re-escalona os eixos não mostrou eficiência para melhorar a porcentagem de acertos dos índices. De modo geral, os índices RS e SPRSQ mostraram-se os mais indicados para auxiliar na determinação do número ótimo de grupos.Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorapplication/pdfporUniversidade Federal de ViçosaMestrado em Estatística Aplicada e BiometriaUFVBREstatística Aplicada e BiometriaSimulaçãoCurvas de crescimentoModelo de von BertalanffyMétodo de MojenaSimulationGrowth curvesVon Bertalanffy modelMojena methodCNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICAComparação de métodos para definição do número ótimo de grupos em análise de agrupamentoComparison of methods for defining the optimal number of groups in cluster analysisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdfapplication/pdf834675https://locus.ufv.br//bitstream/123456789/4051/1/texto%20completo.pdfcbd61abff31c731b6961bd0ef022cffaMD51TEXTtexto completo.pdf.txttexto completo.pdf.txtExtracted texttext/plain112332https://locus.ufv.br//bitstream/123456789/4051/2/texto%20completo.pdf.txtafad2dab9715fad2792b9b8155defa34MD52THUMBNAILtexto completo.pdf.jpgtexto completo.pdf.jpgIM Thumbnailimage/jpeg3711https://locus.ufv.br//bitstream/123456789/4051/3/texto%20completo.pdf.jpg0db9b34c4a9c9c2736e9d8314375e58eMD53123456789/40512016-04-09 23:17:53.323oai:locus.ufv.br:123456789/4051Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452016-04-10T02:17:53LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.por.fl_str_mv Comparação de métodos para definição do número ótimo de grupos em análise de agrupamento
dc.title.alternative.eng.fl_str_mv Comparison of methods for defining the optimal number of groups in cluster analysis
title Comparação de métodos para definição do número ótimo de grupos em análise de agrupamento
spellingShingle Comparação de métodos para definição do número ótimo de grupos em análise de agrupamento
Alves, Suelem Cristina
Simulação
Curvas de crescimento
Modelo de von Bertalanffy
Método de Mojena
Simulation
Growth curves
Von Bertalanffy model
Mojena method
CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA
title_short Comparação de métodos para definição do número ótimo de grupos em análise de agrupamento
title_full Comparação de métodos para definição do número ótimo de grupos em análise de agrupamento
title_fullStr Comparação de métodos para definição do número ótimo de grupos em análise de agrupamento
title_full_unstemmed Comparação de métodos para definição do número ótimo de grupos em análise de agrupamento
title_sort Comparação de métodos para definição do número ótimo de grupos em análise de agrupamento
author Alves, Suelem Cristina
author_facet Alves, Suelem Cristina
author_role author
dc.contributor.authorLattes.por.fl_str_mv http://lattes.cnpq.br/4007546105759852
dc.contributor.author.fl_str_mv Alves, Suelem Cristina
dc.contributor.advisor-co1.fl_str_mv Martins Filho, Sebastião
dc.contributor.advisor-co1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723282T5
dc.contributor.advisor-co2.fl_str_mv Cruz, Cosme Damião
dc.contributor.advisor-co2Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788274A6
dc.contributor.advisor1.fl_str_mv Peternelli, Luiz Alexandre
dc.contributor.advisor1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7
dc.contributor.referee1.fl_str_mv Nascimento, Moysés
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/6544887498494945
dc.contributor.referee2.fl_str_mv Espeschit, Claudio José Borela
contributor_str_mv Martins Filho, Sebastião
Cruz, Cosme Damião
Peternelli, Luiz Alexandre
Nascimento, Moysés
Espeschit, Claudio José Borela
dc.subject.por.fl_str_mv Simulação
Curvas de crescimento
Modelo de von Bertalanffy
Método de Mojena
topic Simulação
Curvas de crescimento
Modelo de von Bertalanffy
Método de Mojena
Simulation
Growth curves
Von Bertalanffy model
Mojena method
CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA
dc.subject.eng.fl_str_mv Simulation
Growth curves
Von Bertalanffy model
Mojena method
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA
description Studies that use hierarchical cluster analysis have a problem in determining the optimal number of groups due to lack of objective criteria. Researches involving the adjustment of nonlinear models to data on growth or survival, in which the main interest is to determine how many curves are needed to describe the behavior of the individuals analyzed, use this technique. Some researchers use indices BSS (Between-group Sum of Squares), SPRSQ (Semi-partial R-Squared), RMSSTD (Root Mean Square Standard Deviation), RS (R-Squared) and Mojena method, as a means of assistance in this decision. However, it is not known which one is the best choice to determine that value. The comparison of these statistics was the aim of this study. The entire methodology used the Ward s method to cluster the observations, the von Bertalanffy model to fit the curves, and a specific function, based on the law of cosines and the idea of the Modified Maximum Curvature Method, to calculate the number of groups indicated by the indices. In chapter 1, a real case study was developed. The data set had seven animal growth curves, forming three groups. After grouping the parameter estimates and the calculation of statistics, it was found that only the index SPRSQ pointed to the correct number of groups. Using a function to re-scale the axis of the indices according to the axis of the number of groups, to improve the results obtained, only RMSSTD did not indicate the expected value. Chapter 2 describes the use of simulation to find out which of the statistics mentioned had the highest percentage of accuracy in determining the optimal number of groups in two cases. In the first one, the observations came from a single generator curve and, in the other, the individuals belonged to three different populations. In the case of a single curve, the RS index pointed to the optimal number of groups in most cases. For the case in which there were three different populations, the Mojena method was the one that indicated the right number of groups more often. In these cases, the use of the function that re-scales the axes did not show efficiency to improve the percentage of correct indices. In general, the indices RS and SPRSQ were the most appropriate to assist in determining the optimal number of groups.
publishDate 2012
dc.date.available.fl_str_mv 2012-09-12
2015-03-26T13:32:15Z
dc.date.issued.fl_str_mv 2012-02-02
dc.date.accessioned.fl_str_mv 2015-03-26T13:32:15Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv ALVES, Suelem Cristina. Comparison of methods for defining the optimal number of groups in cluster analysis. 2012. 74 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa, 2012.
dc.identifier.uri.fl_str_mv http://locus.ufv.br/handle/123456789/4051
identifier_str_mv ALVES, Suelem Cristina. Comparison of methods for defining the optimal number of groups in cluster analysis. 2012. 74 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa, 2012.
url http://locus.ufv.br/handle/123456789/4051
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.publisher.program.fl_str_mv Mestrado em Estatística Aplicada e Biometria
dc.publisher.initials.fl_str_mv UFV
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Estatística Aplicada e Biometria
publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv https://locus.ufv.br//bitstream/123456789/4051/1/texto%20completo.pdf
https://locus.ufv.br//bitstream/123456789/4051/2/texto%20completo.pdf.txt
https://locus.ufv.br//bitstream/123456789/4051/3/texto%20completo.pdf.jpg
bitstream.checksum.fl_str_mv cbd61abff31c731b6961bd0ef022cffa
afad2dab9715fad2792b9b8155defa34
0db9b34c4a9c9c2736e9d8314375e58e
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1794528639246663680