Meta-analysis of clustering problem instances and techniques in machine learning
| Ano de defesa: | 2022 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| dARK ID: | ark:/48912/001300002cxff |
| Idioma: | eng |
| Instituição de defesa: |
Universidade Federal de São Paulo
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://hdl.handle.net/11600/63559 |
Resumo: | A seleção do algoritmo mais efetivo a ser aplicado em determinada instância, baseado nas características desta, é um problema que vem sendo estudado na área de meta-aprendizado. Nesta abordagem, o propósito é estabelecer uma relação entre os atributos dos problemas e o desempenho de um conjunto de algoritmos que podem ser utilizados para resolvê-los. Meta-aprendizado vem sendo empregado em diversos problemas de Aprendizado de Máquina, como classificação, regressão, otimização e agrupamento de dados, por exemplo. Agrupamento de dados, ou data clustering, é um problema exigido em várias aplicações, desde segmentação de mercado até análise de dados baseados no genoma. No entanto, a definição de um agrupamento, ou cluster, não é única. Existem vários algoritmos com diferentes vieses que encontram diferentes tipos de estruturas nos dados. Por exemplo, pode-se maximizar a separabilidade do clusters ou encontrar regiões densas no espaço para definição dos clusters. A finalidade da presente pesquisa é avaliar objetivamente o desempenho de algoritmos de agrupamento em Aprendizado de Máquina e analisar o impacto da escolha de instâncias de teste por meio de uma abordagem baseada em um framework de espaço de instâncias que foi aplicado com sucesso em problemas de classificação e regressão. Durante o estudo, foram abordados diversos aspectos interessantes do problema de agrupamento que possibilitam a exploração das propriedades e limitações das instâncias de teste. Foi proposta, também, uma metodologia para geração de novas instâncias de teste para problemas de agrupamento, no intuito de preencher e diversificar o espaço de instâncias. Com isso, pôde-se analisar e compreender as relações das instâncias com o desempenho dos diversos algoritmos de agrupamento de dados disponíveis atualmente, de forma a revelar as forças e fraquezas dos algoritmos em relação ao grau de dificuldade inerente às variadas instâncias do problema de agrupamento de dados. |
| id |
UFSP_78494779968f35e90b02a2abff31e291 |
|---|---|
| oai_identifier_str |
oai:repositorio.unifesp.br:11600/63559 |
| network_acronym_str |
UFSP |
| network_name_str |
Repositório Institucional da UNIFESP |
| repository_id_str |
|
| spelling |
Meta-analysis of clustering problem instances and techniques in machine learningMeta-análise de instâncias e técnicas do problema de agrupamento em aprendizado de máquinaMeta-learningMachine learningClusteringA seleção do algoritmo mais efetivo a ser aplicado em determinada instância, baseado nas características desta, é um problema que vem sendo estudado na área de meta-aprendizado. Nesta abordagem, o propósito é estabelecer uma relação entre os atributos dos problemas e o desempenho de um conjunto de algoritmos que podem ser utilizados para resolvê-los. Meta-aprendizado vem sendo empregado em diversos problemas de Aprendizado de Máquina, como classificação, regressão, otimização e agrupamento de dados, por exemplo. Agrupamento de dados, ou data clustering, é um problema exigido em várias aplicações, desde segmentação de mercado até análise de dados baseados no genoma. No entanto, a definição de um agrupamento, ou cluster, não é única. Existem vários algoritmos com diferentes vieses que encontram diferentes tipos de estruturas nos dados. Por exemplo, pode-se maximizar a separabilidade do clusters ou encontrar regiões densas no espaço para definição dos clusters. A finalidade da presente pesquisa é avaliar objetivamente o desempenho de algoritmos de agrupamento em Aprendizado de Máquina e analisar o impacto da escolha de instâncias de teste por meio de uma abordagem baseada em um framework de espaço de instâncias que foi aplicado com sucesso em problemas de classificação e regressão. Durante o estudo, foram abordados diversos aspectos interessantes do problema de agrupamento que possibilitam a exploração das propriedades e limitações das instâncias de teste. Foi proposta, também, uma metodologia para geração de novas instâncias de teste para problemas de agrupamento, no intuito de preencher e diversificar o espaço de instâncias. Com isso, pôde-se analisar e compreender as relações das instâncias com o desempenho dos diversos algoritmos de agrupamento de dados disponíveis atualmente, de forma a revelar as forças e fraquezas dos algoritmos em relação ao grau de dificuldade inerente às variadas instâncias do problema de agrupamento de dados.The selection of the most effective algorithm to be applied in a given instance, based on its characteristics, is a problem that has been studied in the meta-learning area. In this approach, the purpose is to establish a relationship between the features of the problems and the performance of a pool of algorithms that can be used to solve them. Meta-learning has been used in several Machine Learning problems, such as classification, regression, optimization and data clustering, for example. Data clustering is a required problem in many applications, from market data segmentation to genome-based data analysis. However, the definition of a cluster is not unique. There are several algorithms with different biases that find different types of structures in the data. For instance, one can maximize the separability of the clusters or find dense regions in space to define the clusters. The purpose of this research is to objectively evaluate the performance of clustering algorithms in Machine Learning and analyze the impact of the choice of test instances through an approach based on an instance space framework that was successfully applied in classification and regression problems. During the study, several interesting aspects of the clustering problem were addressed that enable the exploration of the properties and limitations of test instances. A methodology for generating new test instances for clustering problems was also proposed, in order to fill and diversify the instance space. With this, it was possible to analyze and understand the relationships of instances with the performance of the various data clustering algorithms currently available, for the purpose of to reveal the strengths and weaknesses of the algorithms in relation to the degree of difficulty inherent in the various instances of the clustering problem.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)88881.361595/2019-01Universidade Federal de São PauloLorena, Ana Carolinahttp://lattes.cnpq.br/3451628262694747http://lattes.cnpq.br/8629213307451924Fernandes, Luiz Henrique dos Santos [UNIFESP]2022-03-18T12:13:31Z2022-03-18T12:13:31Z2022-02-11info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersion155 f.application/pdfFERNANDES, Luiz Henrique dos Santos. Meta-analysis of Clustering Problem Instances and Techniques in Machine Learning. 2022. 155f. Thesis of Doctor of Science – Instituto Tecnológico de Aeronáutica and Universidade Federal de São Paulo, São José dos Campos.https://hdl.handle.net/11600/63559ark:/48912/001300002cxffengSão José dos Campos, SPinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESP2024-07-26T20:03:07Zoai:repositorio.unifesp.br:11600/63559Repositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestbiblioteca.csp@unifesp.bropendoar:34652024-07-26T20:03:07Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)false |
| dc.title.none.fl_str_mv |
Meta-analysis of clustering problem instances and techniques in machine learning Meta-análise de instâncias e técnicas do problema de agrupamento em aprendizado de máquina |
| title |
Meta-analysis of clustering problem instances and techniques in machine learning |
| spellingShingle |
Meta-analysis of clustering problem instances and techniques in machine learning Fernandes, Luiz Henrique dos Santos [UNIFESP] Meta-learning Machine learning Clustering |
| title_short |
Meta-analysis of clustering problem instances and techniques in machine learning |
| title_full |
Meta-analysis of clustering problem instances and techniques in machine learning |
| title_fullStr |
Meta-analysis of clustering problem instances and techniques in machine learning |
| title_full_unstemmed |
Meta-analysis of clustering problem instances and techniques in machine learning |
| title_sort |
Meta-analysis of clustering problem instances and techniques in machine learning |
| author |
Fernandes, Luiz Henrique dos Santos [UNIFESP] |
| author_facet |
Fernandes, Luiz Henrique dos Santos [UNIFESP] |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Lorena, Ana Carolina http://lattes.cnpq.br/3451628262694747 http://lattes.cnpq.br/8629213307451924 |
| dc.contributor.author.fl_str_mv |
Fernandes, Luiz Henrique dos Santos [UNIFESP] |
| dc.subject.por.fl_str_mv |
Meta-learning Machine learning Clustering |
| topic |
Meta-learning Machine learning Clustering |
| description |
A seleção do algoritmo mais efetivo a ser aplicado em determinada instância, baseado nas características desta, é um problema que vem sendo estudado na área de meta-aprendizado. Nesta abordagem, o propósito é estabelecer uma relação entre os atributos dos problemas e o desempenho de um conjunto de algoritmos que podem ser utilizados para resolvê-los. Meta-aprendizado vem sendo empregado em diversos problemas de Aprendizado de Máquina, como classificação, regressão, otimização e agrupamento de dados, por exemplo. Agrupamento de dados, ou data clustering, é um problema exigido em várias aplicações, desde segmentação de mercado até análise de dados baseados no genoma. No entanto, a definição de um agrupamento, ou cluster, não é única. Existem vários algoritmos com diferentes vieses que encontram diferentes tipos de estruturas nos dados. Por exemplo, pode-se maximizar a separabilidade do clusters ou encontrar regiões densas no espaço para definição dos clusters. A finalidade da presente pesquisa é avaliar objetivamente o desempenho de algoritmos de agrupamento em Aprendizado de Máquina e analisar o impacto da escolha de instâncias de teste por meio de uma abordagem baseada em um framework de espaço de instâncias que foi aplicado com sucesso em problemas de classificação e regressão. Durante o estudo, foram abordados diversos aspectos interessantes do problema de agrupamento que possibilitam a exploração das propriedades e limitações das instâncias de teste. Foi proposta, também, uma metodologia para geração de novas instâncias de teste para problemas de agrupamento, no intuito de preencher e diversificar o espaço de instâncias. Com isso, pôde-se analisar e compreender as relações das instâncias com o desempenho dos diversos algoritmos de agrupamento de dados disponíveis atualmente, de forma a revelar as forças e fraquezas dos algoritmos em relação ao grau de dificuldade inerente às variadas instâncias do problema de agrupamento de dados. |
| publishDate |
2022 |
| dc.date.none.fl_str_mv |
2022-03-18T12:13:31Z 2022-03-18T12:13:31Z 2022-02-11 |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
FERNANDES, Luiz Henrique dos Santos. Meta-analysis of Clustering Problem Instances and Techniques in Machine Learning. 2022. 155f. Thesis of Doctor of Science – Instituto Tecnológico de Aeronáutica and Universidade Federal de São Paulo, São José dos Campos. https://hdl.handle.net/11600/63559 |
| dc.identifier.dark.fl_str_mv |
ark:/48912/001300002cxff |
| identifier_str_mv |
FERNANDES, Luiz Henrique dos Santos. Meta-analysis of Clustering Problem Instances and Techniques in Machine Learning. 2022. 155f. Thesis of Doctor of Science – Instituto Tecnológico de Aeronáutica and Universidade Federal de São Paulo, São José dos Campos. ark:/48912/001300002cxff |
| url |
https://hdl.handle.net/11600/63559 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
155 f. application/pdf |
| dc.coverage.none.fl_str_mv |
São José dos Campos, SP |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Paulo |
| publisher.none.fl_str_mv |
Universidade Federal de São Paulo |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNIFESP instname:Universidade Federal de São Paulo (UNIFESP) instacron:UNIFESP |
| instname_str |
Universidade Federal de São Paulo (UNIFESP) |
| instacron_str |
UNIFESP |
| institution |
UNIFESP |
| reponame_str |
Repositório Institucional da UNIFESP |
| collection |
Repositório Institucional da UNIFESP |
| repository.name.fl_str_mv |
Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP) |
| repository.mail.fl_str_mv |
biblioteca.csp@unifesp.br |
| _version_ |
1848498001171972096 |