Estratégia híbrida de seleção de partições para o problema de agrupamento de dados
| Ano de defesa: | 2018 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de São Carlos
Câmpus Sorocaba |
| Programa de Pós-Graduação: |
Programa de Pós-Graduação em Ciência da Computação - PPGCC-So
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://repositorio.ufscar.br/handle/20.500.14289/9555 |
Resumo: | Inability to identify partitions of different sizes and shapes is a fundamental limitation of any clustering algorithm, especially when different regions of the search space contain clusters with varied characteristics. It is possible to apply diverse clustering algorithms, with different parameters, but then, it is necessary to deal with a large number of partitions. Techniques such as ensemble and multiobjective clustering treat this problem using distinct criteria, but they have high computational cost. Moreover, the ensemble technique generates a single solution, which may not represent every real partition present in the data. On the other hand, multiobjective clustering may generate a large number of partitions, which is difficult to analyze manually. In this dissertation, we propose a hybrid multiojective algorithm, HSS (Hybrid Selection Strategy), that aims to return a reduced and yet diverse set of solutions. It can be divided in three steps: (i) the application of a multiobjective algorithm to a set of base partitions for the generation of an approximation of the Pareto Front, (ii) the division of the solutions from the approximation of the Pareto Front into a certain number of regions and (iii) the selection of a solution per region, through the application of the Adjusted Rand Index. Experiments show the effectiveness of HSS in selecting a reduced number of partitions. |
| id |
SCAR_a5609893cdb935f7d9ceae5cb887e384 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/9555 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Antunes, VanessaSakata, Tiemi Christinehttp://lattes.cnpq.br/3560505262283874http://lattes.cnpq.br/7744895055289571eee3a31b-412a-4c77-85d3-57df6cb343722018-03-09T15:36:39Z2018-03-09T15:36:39Z2018-01-26ANTUNES, Vanessa. Estratégia híbrida de seleção de partições para o problema de agrupamento de dados. 2018. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2018. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/9555.https://repositorio.ufscar.br/handle/20.500.14289/9555Inability to identify partitions of different sizes and shapes is a fundamental limitation of any clustering algorithm, especially when different regions of the search space contain clusters with varied characteristics. It is possible to apply diverse clustering algorithms, with different parameters, but then, it is necessary to deal with a large number of partitions. Techniques such as ensemble and multiobjective clustering treat this problem using distinct criteria, but they have high computational cost. Moreover, the ensemble technique generates a single solution, which may not represent every real partition present in the data. On the other hand, multiobjective clustering may generate a large number of partitions, which is difficult to analyze manually. In this dissertation, we propose a hybrid multiojective algorithm, HSS (Hybrid Selection Strategy), that aims to return a reduced and yet diverse set of solutions. It can be divided in three steps: (i) the application of a multiobjective algorithm to a set of base partitions for the generation of an approximation of the Pareto Front, (ii) the division of the solutions from the approximation of the Pareto Front into a certain number of regions and (iii) the selection of a solution per region, through the application of the Adjusted Rand Index. Experiments show the effectiveness of HSS in selecting a reduced number of partitions.Inaptidão para identificar partições de diferentes tamanhos e formas é uma limitação fundamental de qualquer algoritmo de agrupamento, especialmente quando diferentes regiões do espaço de busca contêm clusters com características distintas. A aplicação de diferentes algoritmos de agrupamento, com diferentes parâmetros, é uma possibilidade, porém, neste caso, é necessário lidar com um grande conjunto de partições. Técnicas como ensemble e agrupamento multiobjetivo empregam diferentes abordagens para tratar este problema, porém ambas possuem um custo computacional elevado. Além disso, as técnicas de ensemble geram uma única solução, que pode não representar toda partição real presente no conjunto de dados. O agrupamento multiobjetivo, por outro lado, pode gerar um conjunto grande de partições, inviável de ser analisado manualmente. Nesta dissertação, é proposto um algoritmo multiobjetivo híbrido, HSS (Hybrid Selection Strategy), cujo objetivo é retornar um conjunto reduzido e ao mesmo tempo diverso de partições. Ele pode ser dividido em três passos: (i) aplicação de um algoritmo multiobjetivo em um conjunto base de partições para a geração de uma aproximação da Fronteira de Pareto (FP), (ii) divisão das soluções presentes na aproximação da FP em um certo número de regiões e (iii) seleção de uma partição por região através da aplicação do Adjusted Rand Index (ARI). Experimentos mostram a eficácia do HSS na seleção de um número reduzido de partições.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)porUniversidade Federal de São CarlosCâmpus SorocabaPrograma de Pós-Graduação em Ciência da Computação - PPGCC-SoUFSCarAgrupamento multiobjetivoPareto-otimalidadeSeleção multiobjetivoAlgotímosAnálise por agrupamentoAlgorithmsCluster analysisCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOEstratégia híbrida de seleção de partições para o problema de agrupamento de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisOnline600600b53748a1-5dee-4169-8b3a-e8cb117ea9cfinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALANTUNES_Vanessa_2018.pdfANTUNES_Vanessa_2018.pdfapplication/pdf2231575https://repositorio.ufscar.br/bitstreams/d832668a-e6e4-4333-8532-25ed16a8d15e/download4abe55994e40986aa9ab709683857368MD51trueAnonymousREADANTUNES_Vanessa_2018_carta.pdfANTUNES_Vanessa_2018_carta.pdfapplication/pdf342565https://repositorio.ufscar.br/bitstreams/36e70ac4-10f8-4f81-a680-da213812c34a/download0d5a9c99746ad598327231dd088dd478MD52falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81957https://repositorio.ufscar.br/bitstreams/edfe87b6-ad12-491d-946a-af8e2664a243/downloadae0398b6f8b235e40ad82cba6c50031dMD53falseAnonymousREADTEXTANTUNES_Vanessa_2018.pdf.txtANTUNES_Vanessa_2018.pdf.txtExtracted texttext/plain126202https://repositorio.ufscar.br/bitstreams/498b975f-8f1c-4ae4-a469-1207832acd9b/download32b5c06cf111d494bfd2bdc8ec481867MD58falseAnonymousREADANTUNES_Vanessa_2018_carta.pdf.txtANTUNES_Vanessa_2018_carta.pdf.txtExtracted texttext/plain1https://repositorio.ufscar.br/bitstreams/da1ca527-16ee-41ab-bf34-0c514ef1b715/download68b329da9893e34099c7d8ad5cb9c940MD510falseAnonymousREADTHUMBNAILANTUNES_Vanessa_2018.pdf.jpgANTUNES_Vanessa_2018.pdf.jpgIM Thumbnailimage/jpeg5671https://repositorio.ufscar.br/bitstreams/4f3d0ae9-c0c9-45ac-8a8f-fe227b80dcd8/downloadf5faf7e7f141adf061a3b54089606df4MD59falseAnonymousREADANTUNES_Vanessa_2018_carta.pdf.jpgANTUNES_Vanessa_2018_carta.pdf.jpgIM Thumbnailimage/jpeg13812https://repositorio.ufscar.br/bitstreams/24a24a12-581f-46e0-bbe5-869778b21ca7/downloadc084fdefc5bb181e7d81df728c38b200MD511falseAnonymousREAD20.500.14289/95552025-02-05 17:47:58.594Acesso abertoopen.accessoai:repositorio.ufscar.br:20.500.14289/9555https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-05T20:47:58Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)falseTElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgw6AgVW5pdmVyc2lkYWRlCkZlZGVyYWwgZGUgU8OjbyBDYXJsb3MgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdQpkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlCmVtIHF1YWxxdWVyIG1laW8sIGluY2x1aW5kbyBvcyBmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIGEgVUZTQ2FyIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28KcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFVGU0NhciBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgYSBzdWEgdGVzZSBvdQpkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcwpuZXN0YSBsaWNlbsOnYS4gVm9jw6ogdGFtYsOpbSBkZWNsYXJhIHF1ZSBvIGRlcMOzc2l0byBkYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG7Do28sIHF1ZSBzZWphIGRlIHNldQpjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6oKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFVGU0NhcgpvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUKaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBVRlNDYXIsClZPQ8OKIERFQ0xBUkEgUVVFIFJFU1BFSVRPVSBUT0RPUyBFIFFVQUlTUVVFUiBESVJFSVRPUyBERSBSRVZJU8ODTyBDT01PClRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKQSBVRlNDYXIgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzCmNvbmNlZGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuCg== |
| dc.title.por.fl_str_mv |
Estratégia híbrida de seleção de partições para o problema de agrupamento de dados |
| title |
Estratégia híbrida de seleção de partições para o problema de agrupamento de dados |
| spellingShingle |
Estratégia híbrida de seleção de partições para o problema de agrupamento de dados Antunes, Vanessa Agrupamento multiobjetivo Pareto-otimalidade Seleção multiobjetivo Algotímos Análise por agrupamento Algorithms Cluster analysis CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
| title_short |
Estratégia híbrida de seleção de partições para o problema de agrupamento de dados |
| title_full |
Estratégia híbrida de seleção de partições para o problema de agrupamento de dados |
| title_fullStr |
Estratégia híbrida de seleção de partições para o problema de agrupamento de dados |
| title_full_unstemmed |
Estratégia híbrida de seleção de partições para o problema de agrupamento de dados |
| title_sort |
Estratégia híbrida de seleção de partições para o problema de agrupamento de dados |
| author |
Antunes, Vanessa |
| author_facet |
Antunes, Vanessa |
| author_role |
author |
| dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/7744895055289571 |
| dc.contributor.author.fl_str_mv |
Antunes, Vanessa |
| dc.contributor.advisor1.fl_str_mv |
Sakata, Tiemi Christine |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/3560505262283874 |
| dc.contributor.authorID.fl_str_mv |
eee3a31b-412a-4c77-85d3-57df6cb34372 |
| contributor_str_mv |
Sakata, Tiemi Christine |
| dc.subject.por.fl_str_mv |
Agrupamento multiobjetivo Pareto-otimalidade Seleção multiobjetivo Algotímos Análise por agrupamento |
| topic |
Agrupamento multiobjetivo Pareto-otimalidade Seleção multiobjetivo Algotímos Análise por agrupamento Algorithms Cluster analysis CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
| dc.subject.eng.fl_str_mv |
Algorithms Cluster analysis |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
| description |
Inability to identify partitions of different sizes and shapes is a fundamental limitation of any clustering algorithm, especially when different regions of the search space contain clusters with varied characteristics. It is possible to apply diverse clustering algorithms, with different parameters, but then, it is necessary to deal with a large number of partitions. Techniques such as ensemble and multiobjective clustering treat this problem using distinct criteria, but they have high computational cost. Moreover, the ensemble technique generates a single solution, which may not represent every real partition present in the data. On the other hand, multiobjective clustering may generate a large number of partitions, which is difficult to analyze manually. In this dissertation, we propose a hybrid multiojective algorithm, HSS (Hybrid Selection Strategy), that aims to return a reduced and yet diverse set of solutions. It can be divided in three steps: (i) the application of a multiobjective algorithm to a set of base partitions for the generation of an approximation of the Pareto Front, (ii) the division of the solutions from the approximation of the Pareto Front into a certain number of regions and (iii) the selection of a solution per region, through the application of the Adjusted Rand Index. Experiments show the effectiveness of HSS in selecting a reduced number of partitions. |
| publishDate |
2018 |
| dc.date.accessioned.fl_str_mv |
2018-03-09T15:36:39Z |
| dc.date.available.fl_str_mv |
2018-03-09T15:36:39Z |
| dc.date.issued.fl_str_mv |
2018-01-26 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
ANTUNES, Vanessa. Estratégia híbrida de seleção de partições para o problema de agrupamento de dados. 2018. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2018. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/9555. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/20.500.14289/9555 |
| identifier_str_mv |
ANTUNES, Vanessa. Estratégia híbrida de seleção de partições para o problema de agrupamento de dados. 2018. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2018. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/9555. |
| url |
https://repositorio.ufscar.br/handle/20.500.14289/9555 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.confidence.fl_str_mv |
600 600 |
| dc.relation.authority.fl_str_mv |
b53748a1-5dee-4169-8b3a-e8cb117ea9cf |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus Sorocaba |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC-So |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus Sorocaba |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/d832668a-e6e4-4333-8532-25ed16a8d15e/download https://repositorio.ufscar.br/bitstreams/36e70ac4-10f8-4f81-a680-da213812c34a/download https://repositorio.ufscar.br/bitstreams/edfe87b6-ad12-491d-946a-af8e2664a243/download https://repositorio.ufscar.br/bitstreams/498b975f-8f1c-4ae4-a469-1207832acd9b/download https://repositorio.ufscar.br/bitstreams/da1ca527-16ee-41ab-bf34-0c514ef1b715/download https://repositorio.ufscar.br/bitstreams/4f3d0ae9-c0c9-45ac-8a8f-fe227b80dcd8/download https://repositorio.ufscar.br/bitstreams/24a24a12-581f-46e0-bbe5-869778b21ca7/download |
| bitstream.checksum.fl_str_mv |
4abe55994e40986aa9ab709683857368 0d5a9c99746ad598327231dd088dd478 ae0398b6f8b235e40ad82cba6c50031d 32b5c06cf111d494bfd2bdc8ec481867 68b329da9893e34099c7d8ad5cb9c940 f5faf7e7f141adf061a3b54089606df4 c084fdefc5bb181e7d81df728c38b200 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1851688890317930496 |