Estimation of distribution algorithms for clustering and classification

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Cagnini, Henry Emanuel Leal
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Pontifícia Universidade Católica do Rio Grande do Sul
Faculdade de Informática
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://tede2.pucrs.br/tede2/handle/tede/7384
Resumo: Extracting meaningful information from data is not an easy task. Data can come in batches or through a continuous stream, and can be incomplete or complete, duplicated, or noisy. Moreover, there are several algorithms to perform data mining tasks, and the no-free lunch theorem states that there is not a single best algorithm for all problems. As a final obstacle, algorithms usually require hyperparameters to be set in order to operate, which not surprisingly often demand a minimum knowledge of the application domain to be fine-tuned. Since many traditional data mining algorithms employ a greedy local search strategy, fine-tuning is a crucial step towards achieving better predictive models. On the other hand, Estimation of Distribution Algorithms perform a global search, which often is more efficient than performing a wide search through the set of possible parameters. By using a quality function, estimation of distribution algorithms will iteratively seek better solutions throughout its evolutionary process. Based on the benefits that estimation of distribution algorithms may offer to clustering and decision tree-induction, two data mining tasks considered to be NP-hard and NPhard/ complete, respectively, this works aims at developing novel algorithms in order to obtain better results than traditional, greedy algorithms and baseline evolutionary approaches.
id P_RS_04d387033b83137ab2035b36781b1853
oai_identifier_str oai:tede2.pucrs.br:tede/7384
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Estimation of distribution algorithms for clustering and classificationEstimation of Distribution AlgorithmDecision-Tree InductionClusteringOptimizationAlgoritmos de Estimativa de DistribuiçãoIndução de Árvores de DecisãoAgrupamentoOtimizaçãoCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOExtracting meaningful information from data is not an easy task. Data can come in batches or through a continuous stream, and can be incomplete or complete, duplicated, or noisy. Moreover, there are several algorithms to perform data mining tasks, and the no-free lunch theorem states that there is not a single best algorithm for all problems. As a final obstacle, algorithms usually require hyperparameters to be set in order to operate, which not surprisingly often demand a minimum knowledge of the application domain to be fine-tuned. Since many traditional data mining algorithms employ a greedy local search strategy, fine-tuning is a crucial step towards achieving better predictive models. On the other hand, Estimation of Distribution Algorithms perform a global search, which often is more efficient than performing a wide search through the set of possible parameters. By using a quality function, estimation of distribution algorithms will iteratively seek better solutions throughout its evolutionary process. Based on the benefits that estimation of distribution algorithms may offer to clustering and decision tree-induction, two data mining tasks considered to be NP-hard and NPhard/ complete, respectively, this works aims at developing novel algorithms in order to obtain better results than traditional, greedy algorithms and baseline evolutionary approaches.Extrair informações relevantes a partir de dados não é uma tarefa fácil. Tais dados podem vir a partir de lotes ou em fluxos contínuos, podem ser completos ou possuir partes faltantes, podem ser duplicados, e também podem ser ruidosos. Ademais, existem diversos algoritmos que realizam tarefas de mineração de dados e, segundo o teorema do "Almoço Grátis", não existe apenas um algoritmo que venha a solucionar satisfatoriamente todos os possíveis problemas. Como um obstáculo final, algoritmos geralmente necessitam que hiper-parâmetros sejam definidos, o que não surpreendentemente demanda um mínimo de conhecimento sobre o domínio da aplicação para que tais parâmetros sejam corretamente definidos. Já que vários algoritmos tradicionais empregam estratégias de busca local gulosas, realizar um ajuste fino sobre estes hiper-parâmetros se torna uma etapa crucial a fim de obter modelos preditivos de qualidade superior. Por outro lado, Algoritmos de Estimativa de Distribuição realizam uma busca global, geralmente mais eficiente que realizar uma buscam exaustiva sobre todas as possíveis soluções para um determinado problema. Valendo-se de uma função de aptidão, algoritmos de estimativa de distribuição irão iterativamente procurar por melhores soluções durante seu processo evolutivo. Baseado nos benefícios que o emprego de algoritmos de estimativa de distribuição podem oferecer para as tarefas de agrupamento e indução de árvores de decisão, duas tarefas de mineração de dados consideradas NP-difícil e NP-difícil/completo respectivamente, este trabalho visa desenvolver novos algoritmos de estimativa de distribuição a fim de obter melhores resultados em relação a métodos tradicionais que empregam estratégias de busca local gulosas, e também sobre outros algoritmos evolutivos.Pontifícia Universidade Católica do Rio Grande do SulFaculdade de InformáticaBrasilPUCRSPrograma de Pós-Graduação em Ciência da ComputaçãoBarros, Rodrigo Coelho008.272.080-06http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4526709Y3Cagnini, Henry Emanuel Leal2017-06-29T11:51:00Z2017-03-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://tede2.pucrs.br/tede2/handle/tede/7384enginfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RS2017-06-29T23:00:36Zoai:tede2.pucrs.br:tede/7384Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2017-06-29T23:00:36Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.none.fl_str_mv Estimation of distribution algorithms for clustering and classification
title Estimation of distribution algorithms for clustering and classification
spellingShingle Estimation of distribution algorithms for clustering and classification
Cagnini, Henry Emanuel Leal
Estimation of Distribution Algorithm
Decision-Tree Induction
Clustering
Optimization
Algoritmos de Estimativa de Distribuição
Indução de Árvores de Decisão
Agrupamento
Otimização
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Estimation of distribution algorithms for clustering and classification
title_full Estimation of distribution algorithms for clustering and classification
title_fullStr Estimation of distribution algorithms for clustering and classification
title_full_unstemmed Estimation of distribution algorithms for clustering and classification
title_sort Estimation of distribution algorithms for clustering and classification
author Cagnini, Henry Emanuel Leal
author_facet Cagnini, Henry Emanuel Leal
author_role author
dc.contributor.none.fl_str_mv Barros, Rodrigo Coelho
008.272.080-06
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4526709Y3
dc.contributor.author.fl_str_mv Cagnini, Henry Emanuel Leal
dc.subject.por.fl_str_mv Estimation of Distribution Algorithm
Decision-Tree Induction
Clustering
Optimization
Algoritmos de Estimativa de Distribuição
Indução de Árvores de Decisão
Agrupamento
Otimização
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic Estimation of Distribution Algorithm
Decision-Tree Induction
Clustering
Optimization
Algoritmos de Estimativa de Distribuição
Indução de Árvores de Decisão
Agrupamento
Otimização
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Extracting meaningful information from data is not an easy task. Data can come in batches or through a continuous stream, and can be incomplete or complete, duplicated, or noisy. Moreover, there are several algorithms to perform data mining tasks, and the no-free lunch theorem states that there is not a single best algorithm for all problems. As a final obstacle, algorithms usually require hyperparameters to be set in order to operate, which not surprisingly often demand a minimum knowledge of the application domain to be fine-tuned. Since many traditional data mining algorithms employ a greedy local search strategy, fine-tuning is a crucial step towards achieving better predictive models. On the other hand, Estimation of Distribution Algorithms perform a global search, which often is more efficient than performing a wide search through the set of possible parameters. By using a quality function, estimation of distribution algorithms will iteratively seek better solutions throughout its evolutionary process. Based on the benefits that estimation of distribution algorithms may offer to clustering and decision tree-induction, two data mining tasks considered to be NP-hard and NPhard/ complete, respectively, this works aims at developing novel algorithms in order to obtain better results than traditional, greedy algorithms and baseline evolutionary approaches.
publishDate 2017
dc.date.none.fl_str_mv 2017-06-29T11:51:00Z
2017-03-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://tede2.pucrs.br/tede2/handle/tede/7384
url http://tede2.pucrs.br/tede2/handle/tede/7384
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
Faculdade de Informática
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
Faculdade de Informática
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1850041284161437696