[en] A STUDY ON ELLIPSOIDAL CLUSTERING

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: RAPHAEL ARAUJO SAMPAIO
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: MAXWELL
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=36126&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=36126&idi=2
http://doi.org/10.17771/PUCRio.acad.36126
Resumo: [pt] A análise de agrupamento não supervisionado, o processo que consistem em agrupar conjuntos de pontos de acordo com um ou mais critérios de similaridade, tem desempenhado um papel essencial em vários campos. O dois algoritmos mais populares para esse processão são o k-means e o Gaussian Mixture Models (GMM). O primeiro atribui cada ponto a um único cluster e usa a distância Euclidiana como similaridade. O último determina uma matriz de probabilidade de pontos pertencentes a clusters, e usa distância de Mahalanobis como similaridade. Além da diferença no método de atribuição - a chamada atribuição hard para o primeiro e a atribuição soft para o último - os algoritmos também diferem em relação à estrutura do cluster, ou forma: o k-means considera estruturas esféricas no dados; enquanto o GMM considera elipsoidais através da estimação de matrizes de covariância. Neste trabalho, um problema de otimização matemática que combina a atribuição hard com a estrutura do cluster elipsoidal é detalhado e formulado. Uma vez que a estimativa da covariância desempenha um papel importante no comportamento de estruturas agrupamentos elipsoidais, técnicas de regularizações são exploradas. Neste contexto, dois métodos de meta-heurística, uma perturbação Random Swap e um algoritmo híbrido genético, são adaptados, e seu impacto na melhoria do desempenho dos métodos é estudado. O objetivo central dividido em três: compreender as condições em que as estruturas de agrupamento elipsoidais são mais benéficas que as esféricas; determinar o impacto da estimativa de covariância com os métodos de regularização; e analisar o efeito das meta-heurísticas de otimização global na análise de agrupamento não supervisionado. Finalmente, a fim de fornecer bases para a comparação das presentes descobertas com futuros trabalhos relacionados, foi gerada uma base de dados com um extenso benchmark contendo análise das variações de diferentes tamanhos, formas, número de grupos e separabilidade, e seu impacto nos resultados de diferentes algoritmos de agrupamento. Além disso, pacotes escritos na linguagem Julia foram disponibilizados com os algoritmos estudados ao longo deste trabalho.
id PUC_RIO-1_5ab5fc58112399fe1f925e4f68ae6e2c
oai_identifier_str oai:MAXWELL.puc-rio.br:36126
network_acronym_str PUC_RIO-1
network_name_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str
spelling [en] A STUDY ON ELLIPSOIDAL CLUSTERING [pt] UM ESTUDO SOBRE AGRUPAMENTO BASEADO EM DISTRIBUIÇÕES ELÍPTICAS [pt] ALGORITMO GENETICO[pt] RANDOM SWAP[pt] AGRUPAMENTOS ELIPSOIDAIS[pt] RECONHECIMENTO DE PADRAO[pt] REGULARIZACAO[en] GENETIC ALGORITHM[en] RANDOM SWAP[en] ELLIPSOIDAL CLUSTERING[en] PATTERN RECOGNITION[en] REGULARIZATION[pt] A análise de agrupamento não supervisionado, o processo que consistem em agrupar conjuntos de pontos de acordo com um ou mais critérios de similaridade, tem desempenhado um papel essencial em vários campos. O dois algoritmos mais populares para esse processão são o k-means e o Gaussian Mixture Models (GMM). O primeiro atribui cada ponto a um único cluster e usa a distância Euclidiana como similaridade. O último determina uma matriz de probabilidade de pontos pertencentes a clusters, e usa distância de Mahalanobis como similaridade. Além da diferença no método de atribuição - a chamada atribuição hard para o primeiro e a atribuição soft para o último - os algoritmos também diferem em relação à estrutura do cluster, ou forma: o k-means considera estruturas esféricas no dados; enquanto o GMM considera elipsoidais através da estimação de matrizes de covariância. Neste trabalho, um problema de otimização matemática que combina a atribuição hard com a estrutura do cluster elipsoidal é detalhado e formulado. Uma vez que a estimativa da covariância desempenha um papel importante no comportamento de estruturas agrupamentos elipsoidais, técnicas de regularizações são exploradas. Neste contexto, dois métodos de meta-heurística, uma perturbação Random Swap e um algoritmo híbrido genético, são adaptados, e seu impacto na melhoria do desempenho dos métodos é estudado. O objetivo central dividido em três: compreender as condições em que as estruturas de agrupamento elipsoidais são mais benéficas que as esféricas; determinar o impacto da estimativa de covariância com os métodos de regularização; e analisar o efeito das meta-heurísticas de otimização global na análise de agrupamento não supervisionado. Finalmente, a fim de fornecer bases para a comparação das presentes descobertas com futuros trabalhos relacionados, foi gerada uma base de dados com um extenso benchmark contendo análise das variações de diferentes tamanhos, formas, número de grupos e separabilidade, e seu impacto nos resultados de diferentes algoritmos de agrupamento. Além disso, pacotes escritos na linguagem Julia foram disponibilizados com os algoritmos estudados ao longo deste trabalho.[en] Unsupervised cluster analysis, the process of grouping sets of points according to one or more similarity criteria, plays an essential role in various fields. The two most popular algorithms for this process are the k-means and the Gaussian Mixture Models (GMM). The former assigns each point to a single cluster and uses Euclidean distance as similarity. The latter determines a probability matrix of points to belong to clusters, and the Mahalanobis distance is the underlying similarity. Apart from the difference in the assignment method - the so-called hard assignment for the former and soft assignment for the latter - the algorithms also differ concerning the cluster structure, or shape: the k-means considers spherical structures in the data; while the GMM considers ellipsoidal ones through the estimation of covariance matrices. In this work, a mathematical optimization problem that combines the hard assignment with the ellipsoidal cluster structure is detailed and formulated. Since the estimation of the covariance plays a major role in the behavior of ellipsoidal cluster structures, regularization techniques are explored. In this context, two meta-heuristic methods, a Random Swap perturbation and a hybrid genetic algorithm, are adapted, and their impact on the improvement of the performance of the methods is studied. The central objective is three-fold: to gain an understanding of the conditions in which ellipsoidal clustering structures are more beneficial than spherical ones; to determine the impact of covariance estimation with regularization methods; and to analyze the effect of global optimization meta-heuristics on unsupervised cluster analysis. Finally, in order to provide grounds for comparison of the present findings to future related works, a database was generated together with an extensive benchmark containing an analysis of the variations of different sizes, shapes, number of clusters, and separability and their impact on the results of different clustering algorithms. Furthermore, packages written in the Julia language have been made available with the algorithms studied throughout this work.MAXWELLMARCUS VINICIUS SOLEDADE POGGI DE ARAGAOMARCUS VINICIUS SOLEDADE POGGI DE ARAGAORAPHAEL ARAUJO SAMPAIO2019-01-16info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=36126&idi=1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=36126&idi=2http://doi.org/10.17771/PUCRio.acad.36126engreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2024-09-06T00:00:00Zoai:MAXWELL.puc-rio.br:36126Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342024-09-06T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv [en] A STUDY ON ELLIPSOIDAL CLUSTERING
[pt] UM ESTUDO SOBRE AGRUPAMENTO BASEADO EM DISTRIBUIÇÕES ELÍPTICAS
title [en] A STUDY ON ELLIPSOIDAL CLUSTERING
spellingShingle [en] A STUDY ON ELLIPSOIDAL CLUSTERING
RAPHAEL ARAUJO SAMPAIO
[pt] ALGORITMO GENETICO
[pt] RANDOM SWAP
[pt] AGRUPAMENTOS ELIPSOIDAIS
[pt] RECONHECIMENTO DE PADRAO
[pt] REGULARIZACAO
[en] GENETIC ALGORITHM
[en] RANDOM SWAP
[en] ELLIPSOIDAL CLUSTERING
[en] PATTERN RECOGNITION
[en] REGULARIZATION
title_short [en] A STUDY ON ELLIPSOIDAL CLUSTERING
title_full [en] A STUDY ON ELLIPSOIDAL CLUSTERING
title_fullStr [en] A STUDY ON ELLIPSOIDAL CLUSTERING
title_full_unstemmed [en] A STUDY ON ELLIPSOIDAL CLUSTERING
title_sort [en] A STUDY ON ELLIPSOIDAL CLUSTERING
author RAPHAEL ARAUJO SAMPAIO
author_facet RAPHAEL ARAUJO SAMPAIO
author_role author
dc.contributor.none.fl_str_mv MARCUS VINICIUS SOLEDADE POGGI DE ARAGAO
MARCUS VINICIUS SOLEDADE POGGI DE ARAGAO
dc.contributor.author.fl_str_mv RAPHAEL ARAUJO SAMPAIO
dc.subject.por.fl_str_mv [pt] ALGORITMO GENETICO
[pt] RANDOM SWAP
[pt] AGRUPAMENTOS ELIPSOIDAIS
[pt] RECONHECIMENTO DE PADRAO
[pt] REGULARIZACAO
[en] GENETIC ALGORITHM
[en] RANDOM SWAP
[en] ELLIPSOIDAL CLUSTERING
[en] PATTERN RECOGNITION
[en] REGULARIZATION
topic [pt] ALGORITMO GENETICO
[pt] RANDOM SWAP
[pt] AGRUPAMENTOS ELIPSOIDAIS
[pt] RECONHECIMENTO DE PADRAO
[pt] REGULARIZACAO
[en] GENETIC ALGORITHM
[en] RANDOM SWAP
[en] ELLIPSOIDAL CLUSTERING
[en] PATTERN RECOGNITION
[en] REGULARIZATION
description [pt] A análise de agrupamento não supervisionado, o processo que consistem em agrupar conjuntos de pontos de acordo com um ou mais critérios de similaridade, tem desempenhado um papel essencial em vários campos. O dois algoritmos mais populares para esse processão são o k-means e o Gaussian Mixture Models (GMM). O primeiro atribui cada ponto a um único cluster e usa a distância Euclidiana como similaridade. O último determina uma matriz de probabilidade de pontos pertencentes a clusters, e usa distância de Mahalanobis como similaridade. Além da diferença no método de atribuição - a chamada atribuição hard para o primeiro e a atribuição soft para o último - os algoritmos também diferem em relação à estrutura do cluster, ou forma: o k-means considera estruturas esféricas no dados; enquanto o GMM considera elipsoidais através da estimação de matrizes de covariância. Neste trabalho, um problema de otimização matemática que combina a atribuição hard com a estrutura do cluster elipsoidal é detalhado e formulado. Uma vez que a estimativa da covariância desempenha um papel importante no comportamento de estruturas agrupamentos elipsoidais, técnicas de regularizações são exploradas. Neste contexto, dois métodos de meta-heurística, uma perturbação Random Swap e um algoritmo híbrido genético, são adaptados, e seu impacto na melhoria do desempenho dos métodos é estudado. O objetivo central dividido em três: compreender as condições em que as estruturas de agrupamento elipsoidais são mais benéficas que as esféricas; determinar o impacto da estimativa de covariância com os métodos de regularização; e analisar o efeito das meta-heurísticas de otimização global na análise de agrupamento não supervisionado. Finalmente, a fim de fornecer bases para a comparação das presentes descobertas com futuros trabalhos relacionados, foi gerada uma base de dados com um extenso benchmark contendo análise das variações de diferentes tamanhos, formas, número de grupos e separabilidade, e seu impacto nos resultados de diferentes algoritmos de agrupamento. Além disso, pacotes escritos na linguagem Julia foram disponibilizados com os algoritmos estudados ao longo deste trabalho.
publishDate 2019
dc.date.none.fl_str_mv 2019-01-16
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=36126&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=36126&idi=2
http://doi.org/10.17771/PUCRio.acad.36126
url https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=36126&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=36126&idi=2
http://doi.org/10.17771/PUCRio.acad.36126
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv MAXWELL
publisher.none.fl_str_mv MAXWELL
dc.source.none.fl_str_mv reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)
instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron:PUC_RIO
instname_str Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str PUC_RIO
institution PUC_RIO
reponame_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_ 1856395938865610752