Estratégia híbrida de seleção de partições para o problema de agrupamento de dados

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: Antunes, Vanessa
Orientador(a): Sakata, Tiemi Christine lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Câmpus Sorocaba
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação - PPGCC-So
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufscar.br/handle/20.500.14289/9555
Resumo: Inability to identify partitions of different sizes and shapes is a fundamental limitation of any clustering algorithm, especially when different regions of the search space contain clusters with varied characteristics. It is possible to apply diverse clustering algorithms, with different parameters, but then, it is necessary to deal with a large number of partitions. Techniques such as ensemble and multiobjective clustering treat this problem using distinct criteria, but they have high computational cost. Moreover, the ensemble technique generates a single solution, which may not represent every real partition present in the data. On the other hand, multiobjective clustering may generate a large number of partitions, which is difficult to analyze manually. In this dissertation, we propose a hybrid multiojective algorithm, HSS (Hybrid Selection Strategy), that aims to return a reduced and yet diverse set of solutions. It can be divided in three steps: (i) the application of a multiobjective algorithm to a set of base partitions for the generation of an approximation of the Pareto Front, (ii) the division of the solutions from the approximation of the Pareto Front into a certain number of regions and (iii) the selection of a solution per region, through the application of the Adjusted Rand Index. Experiments show the effectiveness of HSS in selecting a reduced number of partitions.
id SCAR_a5609893cdb935f7d9ceae5cb887e384
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/9555
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Antunes, VanessaSakata, Tiemi Christinehttp://lattes.cnpq.br/3560505262283874http://lattes.cnpq.br/7744895055289571eee3a31b-412a-4c77-85d3-57df6cb343722018-03-09T15:36:39Z2018-03-09T15:36:39Z2018-01-26ANTUNES, Vanessa. Estratégia híbrida de seleção de partições para o problema de agrupamento de dados. 2018. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2018. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/9555.https://repositorio.ufscar.br/handle/20.500.14289/9555Inability to identify partitions of different sizes and shapes is a fundamental limitation of any clustering algorithm, especially when different regions of the search space contain clusters with varied characteristics. It is possible to apply diverse clustering algorithms, with different parameters, but then, it is necessary to deal with a large number of partitions. Techniques such as ensemble and multiobjective clustering treat this problem using distinct criteria, but they have high computational cost. Moreover, the ensemble technique generates a single solution, which may not represent every real partition present in the data. On the other hand, multiobjective clustering may generate a large number of partitions, which is difficult to analyze manually. In this dissertation, we propose a hybrid multiojective algorithm, HSS (Hybrid Selection Strategy), that aims to return a reduced and yet diverse set of solutions. It can be divided in three steps: (i) the application of a multiobjective algorithm to a set of base partitions for the generation of an approximation of the Pareto Front, (ii) the division of the solutions from the approximation of the Pareto Front into a certain number of regions and (iii) the selection of a solution per region, through the application of the Adjusted Rand Index. Experiments show the effectiveness of HSS in selecting a reduced number of partitions.Inaptidão para identificar partições de diferentes tamanhos e formas é uma limitação fundamental de qualquer algoritmo de agrupamento, especialmente quando diferentes regiões do espaço de busca contêm clusters com características distintas. A aplicação de diferentes algoritmos de agrupamento, com diferentes parâmetros, é uma possibilidade, porém, neste caso, é necessário lidar com um grande conjunto de partições. Técnicas como ensemble e agrupamento multiobjetivo empregam diferentes abordagens para tratar este problema, porém ambas possuem um custo computacional elevado. Além disso, as técnicas de ensemble geram uma única solução, que pode não representar toda partição real presente no conjunto de dados. O agrupamento multiobjetivo, por outro lado, pode gerar um conjunto grande de partições, inviável de ser analisado manualmente. Nesta dissertação, é proposto um algoritmo multiobjetivo híbrido, HSS (Hybrid Selection Strategy), cujo objetivo é retornar um conjunto reduzido e ao mesmo tempo diverso de partições. Ele pode ser dividido em três passos: (i) aplicação de um algoritmo multiobjetivo em um conjunto base de partições para a geração de uma aproximação da Fronteira de Pareto (FP), (ii) divisão das soluções presentes na aproximação da FP em um certo número de regiões e (iii) seleção de uma partição por região através da aplicação do Adjusted Rand Index (ARI). Experimentos mostram a eficácia do HSS na seleção de um número reduzido de partições.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)porUniversidade Federal de São CarlosCâmpus SorocabaPrograma de Pós-Graduação em Ciência da Computação - PPGCC-SoUFSCarAgrupamento multiobjetivoPareto-otimalidadeSeleção multiobjetivoAlgotímosAnálise por agrupamentoAlgorithmsCluster analysisCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOEstratégia híbrida de seleção de partições para o problema de agrupamento de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisOnline600600b53748a1-5dee-4169-8b3a-e8cb117ea9cfinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALANTUNES_Vanessa_2018.pdfANTUNES_Vanessa_2018.pdfapplication/pdf2231575https://repositorio.ufscar.br/bitstreams/d832668a-e6e4-4333-8532-25ed16a8d15e/download4abe55994e40986aa9ab709683857368MD51trueAnonymousREADANTUNES_Vanessa_2018_carta.pdfANTUNES_Vanessa_2018_carta.pdfapplication/pdf342565https://repositorio.ufscar.br/bitstreams/36e70ac4-10f8-4f81-a680-da213812c34a/download0d5a9c99746ad598327231dd088dd478MD52falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81957https://repositorio.ufscar.br/bitstreams/edfe87b6-ad12-491d-946a-af8e2664a243/downloadae0398b6f8b235e40ad82cba6c50031dMD53falseAnonymousREADTEXTANTUNES_Vanessa_2018.pdf.txtANTUNES_Vanessa_2018.pdf.txtExtracted texttext/plain126202https://repositorio.ufscar.br/bitstreams/498b975f-8f1c-4ae4-a469-1207832acd9b/download32b5c06cf111d494bfd2bdc8ec481867MD58falseAnonymousREADANTUNES_Vanessa_2018_carta.pdf.txtANTUNES_Vanessa_2018_carta.pdf.txtExtracted texttext/plain1https://repositorio.ufscar.br/bitstreams/da1ca527-16ee-41ab-bf34-0c514ef1b715/download68b329da9893e34099c7d8ad5cb9c940MD510falseAnonymousREADTHUMBNAILANTUNES_Vanessa_2018.pdf.jpgANTUNES_Vanessa_2018.pdf.jpgIM Thumbnailimage/jpeg5671https://repositorio.ufscar.br/bitstreams/4f3d0ae9-c0c9-45ac-8a8f-fe227b80dcd8/downloadf5faf7e7f141adf061a3b54089606df4MD59falseAnonymousREADANTUNES_Vanessa_2018_carta.pdf.jpgANTUNES_Vanessa_2018_carta.pdf.jpgIM Thumbnailimage/jpeg13812https://repositorio.ufscar.br/bitstreams/24a24a12-581f-46e0-bbe5-869778b21ca7/downloadc084fdefc5bb181e7d81df728c38b200MD511falseAnonymousREAD20.500.14289/95552025-02-05 17:47:58.594Acesso abertoopen.accessoai:repositorio.ufscar.br:20.500.14289/9555https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-05T20:47:58Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)falseTElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgw6AgVW5pdmVyc2lkYWRlCkZlZGVyYWwgZGUgU8OjbyBDYXJsb3MgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdQpkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlCmVtIHF1YWxxdWVyIG1laW8sIGluY2x1aW5kbyBvcyBmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIGEgVUZTQ2FyIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28KcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFVGU0NhciBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgYSBzdWEgdGVzZSBvdQpkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcwpuZXN0YSBsaWNlbsOnYS4gVm9jw6ogdGFtYsOpbSBkZWNsYXJhIHF1ZSBvIGRlcMOzc2l0byBkYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG7Do28sIHF1ZSBzZWphIGRlIHNldQpjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6oKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFVGU0NhcgpvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUKaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBVRlNDYXIsClZPQ8OKIERFQ0xBUkEgUVVFIFJFU1BFSVRPVSBUT0RPUyBFIFFVQUlTUVVFUiBESVJFSVRPUyBERSBSRVZJU8ODTyBDT01PClRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKQSBVRlNDYXIgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzCmNvbmNlZGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuCg==
dc.title.por.fl_str_mv Estratégia híbrida de seleção de partições para o problema de agrupamento de dados
title Estratégia híbrida de seleção de partições para o problema de agrupamento de dados
spellingShingle Estratégia híbrida de seleção de partições para o problema de agrupamento de dados
Antunes, Vanessa
Agrupamento multiobjetivo
Pareto-otimalidade
Seleção multiobjetivo
Algotímos
Análise por agrupamento
Algorithms
Cluster analysis
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
title_short Estratégia híbrida de seleção de partições para o problema de agrupamento de dados
title_full Estratégia híbrida de seleção de partições para o problema de agrupamento de dados
title_fullStr Estratégia híbrida de seleção de partições para o problema de agrupamento de dados
title_full_unstemmed Estratégia híbrida de seleção de partições para o problema de agrupamento de dados
title_sort Estratégia híbrida de seleção de partições para o problema de agrupamento de dados
author Antunes, Vanessa
author_facet Antunes, Vanessa
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/7744895055289571
dc.contributor.author.fl_str_mv Antunes, Vanessa
dc.contributor.advisor1.fl_str_mv Sakata, Tiemi Christine
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/3560505262283874
dc.contributor.authorID.fl_str_mv eee3a31b-412a-4c77-85d3-57df6cb34372
contributor_str_mv Sakata, Tiemi Christine
dc.subject.por.fl_str_mv Agrupamento multiobjetivo
Pareto-otimalidade
Seleção multiobjetivo
Algotímos
Análise por agrupamento
topic Agrupamento multiobjetivo
Pareto-otimalidade
Seleção multiobjetivo
Algotímos
Análise por agrupamento
Algorithms
Cluster analysis
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.eng.fl_str_mv Algorithms
Cluster analysis
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
description Inability to identify partitions of different sizes and shapes is a fundamental limitation of any clustering algorithm, especially when different regions of the search space contain clusters with varied characteristics. It is possible to apply diverse clustering algorithms, with different parameters, but then, it is necessary to deal with a large number of partitions. Techniques such as ensemble and multiobjective clustering treat this problem using distinct criteria, but they have high computational cost. Moreover, the ensemble technique generates a single solution, which may not represent every real partition present in the data. On the other hand, multiobjective clustering may generate a large number of partitions, which is difficult to analyze manually. In this dissertation, we propose a hybrid multiojective algorithm, HSS (Hybrid Selection Strategy), that aims to return a reduced and yet diverse set of solutions. It can be divided in three steps: (i) the application of a multiobjective algorithm to a set of base partitions for the generation of an approximation of the Pareto Front, (ii) the division of the solutions from the approximation of the Pareto Front into a certain number of regions and (iii) the selection of a solution per region, through the application of the Adjusted Rand Index. Experiments show the effectiveness of HSS in selecting a reduced number of partitions.
publishDate 2018
dc.date.accessioned.fl_str_mv 2018-03-09T15:36:39Z
dc.date.available.fl_str_mv 2018-03-09T15:36:39Z
dc.date.issued.fl_str_mv 2018-01-26
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv ANTUNES, Vanessa. Estratégia híbrida de seleção de partições para o problema de agrupamento de dados. 2018. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2018. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/9555.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/9555
identifier_str_mv ANTUNES, Vanessa. Estratégia híbrida de seleção de partições para o problema de agrupamento de dados. 2018. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2018. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/9555.
url https://repositorio.ufscar.br/handle/20.500.14289/9555
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv b53748a1-5dee-4169-8b3a-e8cb117ea9cf
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus Sorocaba
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC-So
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus Sorocaba
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/d832668a-e6e4-4333-8532-25ed16a8d15e/download
https://repositorio.ufscar.br/bitstreams/36e70ac4-10f8-4f81-a680-da213812c34a/download
https://repositorio.ufscar.br/bitstreams/edfe87b6-ad12-491d-946a-af8e2664a243/download
https://repositorio.ufscar.br/bitstreams/498b975f-8f1c-4ae4-a469-1207832acd9b/download
https://repositorio.ufscar.br/bitstreams/da1ca527-16ee-41ab-bf34-0c514ef1b715/download
https://repositorio.ufscar.br/bitstreams/4f3d0ae9-c0c9-45ac-8a8f-fe227b80dcd8/download
https://repositorio.ufscar.br/bitstreams/24a24a12-581f-46e0-bbe5-869778b21ca7/download
bitstream.checksum.fl_str_mv 4abe55994e40986aa9ab709683857368
0d5a9c99746ad598327231dd088dd478
ae0398b6f8b235e40ad82cba6c50031d
32b5c06cf111d494bfd2bdc8ec481867
68b329da9893e34099c7d8ad5cb9c940
f5faf7e7f141adf061a3b54089606df4
c084fdefc5bb181e7d81df728c38b200
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688890317930496