Exportação concluída — 

Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dados

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: Rodrigues, Gabriel Damasceno
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de Uberlândia
Brasil
Programa de Pós-graduação em Ciência da Computação
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufu.br/handle/123456789/24135
http://dx.doi.org/10.14393/ufu.di.2019.311
Resumo: O número de técnicas de ensemble de agrupamento de dados cresceu nos últimos anos, oferecendo um melhor desempenho médio entre diversos domínios e conjuntos de dados. Benefícios colaterais são encontrar novos agrupamentos inatingíveis por um único algoritmo de agrupamento e também fornecer estabilidade de agrupamento. As principais estratégias de ensemble de agrupamento de dados são: combinar resultados de diferentes algoritmos de agrupamento; produzir resultados diferentes por meio de reamostragem dos dados, como nas técnicas de bagging e boosting; e executar um determinado algoritmo várias vezes com diferentes parâmetros ou inicialização. Muitas vezes, as técnicas de ensemble são desenvolvidas para ambientes supervisionados e, posteriormente, adaptadas para ambientes não supervisionados. Recentemente, Blaser e Fryzlewicz propuseram uma técnica de agrupamento para classificação baseada em reamostragem e transformação dos dados de entrada. Especificamente, eles empregaram rotações aleatórias para melhorar significativamente o desempenho de Random Forests. Neste trabalho, estudamos empiricamente os efeitos de transformações aleatórias baseadas em matrizes de rotação, distância de Mahalanobis e proximidade usando densidade para melhorar o ensemble de agrupamento de dados. Nossos experimentos consideraram 12 conjuntos de dados e 25 variações de transformações aleatórias, considerando então um total de 5100 conjuntos de dados aplicados a 8 algoritmos de agrupamento que foram avaliados por 4 medidas de avaliação. Testes estatísticos identificaram 17 transformações viáveis para serem aplicadas previamente em ensembles e em agrupamento de dados comum produzindo consistentemente efeitos positivos na qualidade do agrupamento. Em nossos experimentos, as melhores transformações foram as baseadas em Mahalanobis. Os algoritmos de agrupamento em ensemble que mais se beneĄciaram com as transformações foram o CBA e o bClust.
id UFU_78afbb6c7e70711ee547258fcab9e68e
oai_identifier_str oai:repositorio.ufu.br:123456789/24135
network_acronym_str UFU
network_name_str Repositório Institucional da UFU
repository_id_str
spelling Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dadosAn empirical evaluation of random transformations applied to ensemble clusteringData clusteringAgrupamento de dadosClustering EnsemblesEnsembles de agrupamento de dadosRandom transformationsTransformações AleatóriasComputaçãoAprendizado do computadorCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOSO número de técnicas de ensemble de agrupamento de dados cresceu nos últimos anos, oferecendo um melhor desempenho médio entre diversos domínios e conjuntos de dados. Benefícios colaterais são encontrar novos agrupamentos inatingíveis por um único algoritmo de agrupamento e também fornecer estabilidade de agrupamento. As principais estratégias de ensemble de agrupamento de dados são: combinar resultados de diferentes algoritmos de agrupamento; produzir resultados diferentes por meio de reamostragem dos dados, como nas técnicas de bagging e boosting; e executar um determinado algoritmo várias vezes com diferentes parâmetros ou inicialização. Muitas vezes, as técnicas de ensemble são desenvolvidas para ambientes supervisionados e, posteriormente, adaptadas para ambientes não supervisionados. Recentemente, Blaser e Fryzlewicz propuseram uma técnica de agrupamento para classificação baseada em reamostragem e transformação dos dados de entrada. Especificamente, eles empregaram rotações aleatórias para melhorar significativamente o desempenho de Random Forests. Neste trabalho, estudamos empiricamente os efeitos de transformações aleatórias baseadas em matrizes de rotação, distância de Mahalanobis e proximidade usando densidade para melhorar o ensemble de agrupamento de dados. Nossos experimentos consideraram 12 conjuntos de dados e 25 variações de transformações aleatórias, considerando então um total de 5100 conjuntos de dados aplicados a 8 algoritmos de agrupamento que foram avaliados por 4 medidas de avaliação. Testes estatísticos identificaram 17 transformações viáveis para serem aplicadas previamente em ensembles e em agrupamento de dados comum produzindo consistentemente efeitos positivos na qualidade do agrupamento. Em nossos experimentos, as melhores transformações foram as baseadas em Mahalanobis. Os algoritmos de agrupamento em ensemble que mais se beneĄciaram com as transformações foram o CBA e o bClust.UFU - Universidade Federal de UberlândiaDissertação (Mestrado)The number of ensemble clustering techniques have grown in recent years offering better average performance among domains and datasets. Other expected benefits are to find novelty clustering which are unattainable by any single clustering algorithm and to provide clustering stability, such that the quality is little affected by noise, outliers or sampling variations. The main clustering ensemble strategies are: to combine results of different clustering algorithms; to produce different results by resampling the data, such as in bagging and boosting techniques; and to execute a given algorithm multiple times with different parameters or initialization. Often ensemble techniques are developed for supervised settings and later adapted to the unsupervised setting. Recently, Blaser and Fryzlewicz proposed an ensemble technique to classification based on resampling and transforming input data. Specifically, they employed random rotations to improve significantly Random Forests performance. In this work, we have empirically studied the effects of random transformations based in rotation matrices, Mahalanobis distance and density proximity to improve ensemble clustering. Our experiments considered 12 data sets and 25 variations of random transformations, given a total of 5100 data sets applied to 8 algorithms and evaluated by 4 clustering measures. Statistical tests identified 17 random transformations that are viable to be applied to ensembles and standard clustering algorithms, which had positive effects on cluster quality. In our results, the best performing transforms were Mahalanobis-based transformations. The ensemble algorithms which best profited from these were CBA and bClust.Universidade Federal de UberlândiaBrasilPrograma de Pós-graduação em Ciência da ComputaçãoAlbertini, Marcelo Keesehttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?metodo=apresentar&id=K4184508T7Carneiro, Murillo Guimarãeshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4206648Z3Naldi, Murilo Coelhohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4771334Y6Rodrigues, Gabriel Damasceno2019-01-31T11:38:24Z2019-01-31T11:38:24Z2018-12-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfRODRIGUES, Gabriel Damasceno. Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dados. 88 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2018. DOI http://dx.doi.org/10.14393/ufu.di.2019.311.https://repositorio.ufu.br/handle/123456789/24135http://dx.doi.org/10.14393/ufu.di.2019.311enginfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFUinstname:Universidade Federal de Uberlândia (UFU)instacron:UFU2019-01-31T11:38:24Zoai:repositorio.ufu.br:123456789/24135Repositório InstitucionalONGhttp://repositorio.ufu.br/oai/requestdiinf@dirbi.ufu.bropendoar:2019-01-31T11:38:24Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)false
dc.title.none.fl_str_mv Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dados
An empirical evaluation of random transformations applied to ensemble clustering
title Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dados
spellingShingle Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dados
Rodrigues, Gabriel Damasceno
Data clustering
Agrupamento de dados
Clustering Ensembles
Ensembles de agrupamento de dados
Random transformations
Transformações Aleatórias
Computação
Aprendizado do computador
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS
title_short Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dados
title_full Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dados
title_fullStr Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dados
title_full_unstemmed Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dados
title_sort Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dados
author Rodrigues, Gabriel Damasceno
author_facet Rodrigues, Gabriel Damasceno
author_role author
dc.contributor.none.fl_str_mv Albertini, Marcelo Keese
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?metodo=apresentar&id=K4184508T7
Carneiro, Murillo Guimarães
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4206648Z3
Naldi, Murilo Coelho
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4771334Y6
dc.contributor.author.fl_str_mv Rodrigues, Gabriel Damasceno
dc.subject.por.fl_str_mv Data clustering
Agrupamento de dados
Clustering Ensembles
Ensembles de agrupamento de dados
Random transformations
Transformações Aleatórias
Computação
Aprendizado do computador
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS
topic Data clustering
Agrupamento de dados
Clustering Ensembles
Ensembles de agrupamento de dados
Random transformations
Transformações Aleatórias
Computação
Aprendizado do computador
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS
description O número de técnicas de ensemble de agrupamento de dados cresceu nos últimos anos, oferecendo um melhor desempenho médio entre diversos domínios e conjuntos de dados. Benefícios colaterais são encontrar novos agrupamentos inatingíveis por um único algoritmo de agrupamento e também fornecer estabilidade de agrupamento. As principais estratégias de ensemble de agrupamento de dados são: combinar resultados de diferentes algoritmos de agrupamento; produzir resultados diferentes por meio de reamostragem dos dados, como nas técnicas de bagging e boosting; e executar um determinado algoritmo várias vezes com diferentes parâmetros ou inicialização. Muitas vezes, as técnicas de ensemble são desenvolvidas para ambientes supervisionados e, posteriormente, adaptadas para ambientes não supervisionados. Recentemente, Blaser e Fryzlewicz propuseram uma técnica de agrupamento para classificação baseada em reamostragem e transformação dos dados de entrada. Especificamente, eles empregaram rotações aleatórias para melhorar significativamente o desempenho de Random Forests. Neste trabalho, estudamos empiricamente os efeitos de transformações aleatórias baseadas em matrizes de rotação, distância de Mahalanobis e proximidade usando densidade para melhorar o ensemble de agrupamento de dados. Nossos experimentos consideraram 12 conjuntos de dados e 25 variações de transformações aleatórias, considerando então um total de 5100 conjuntos de dados aplicados a 8 algoritmos de agrupamento que foram avaliados por 4 medidas de avaliação. Testes estatísticos identificaram 17 transformações viáveis para serem aplicadas previamente em ensembles e em agrupamento de dados comum produzindo consistentemente efeitos positivos na qualidade do agrupamento. Em nossos experimentos, as melhores transformações foram as baseadas em Mahalanobis. Os algoritmos de agrupamento em ensemble que mais se beneĄciaram com as transformações foram o CBA e o bClust.
publishDate 2018
dc.date.none.fl_str_mv 2018-12-20
2019-01-31T11:38:24Z
2019-01-31T11:38:24Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv RODRIGUES, Gabriel Damasceno. Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dados. 88 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2018. DOI http://dx.doi.org/10.14393/ufu.di.2019.311.
https://repositorio.ufu.br/handle/123456789/24135
http://dx.doi.org/10.14393/ufu.di.2019.311
identifier_str_mv RODRIGUES, Gabriel Damasceno. Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dados. 88 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2018. DOI http://dx.doi.org/10.14393/ufu.di.2019.311.
url https://repositorio.ufu.br/handle/123456789/24135
http://dx.doi.org/10.14393/ufu.di.2019.311
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Uberlândia
Brasil
Programa de Pós-graduação em Ciência da Computação
publisher.none.fl_str_mv Universidade Federal de Uberlândia
Brasil
Programa de Pós-graduação em Ciência da Computação
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFU
instname:Universidade Federal de Uberlândia (UFU)
instacron:UFU
instname_str Universidade Federal de Uberlândia (UFU)
instacron_str UFU
institution UFU
reponame_str Repositório Institucional da UFU
collection Repositório Institucional da UFU
repository.name.fl_str_mv Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)
repository.mail.fl_str_mv diinf@dirbi.ufu.br
_version_ 1827843571030425600