Classificação com algoritmo AdaBoost.M1 : o mito do limiar de erro de treinamento

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Leães Neto, Antônio do Nascimento
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://tede2.pucrs.br/tede2/handle/tede/7854
Resumo: O crescimento acelerado dos repositórios de dados, nas diversas áreas de atuação, abre espaço para pesquisas na área da mineração de dados, em específico, com os métodos de classificação e de combinação de classificadores. O Boosting é um desses métodos, e combina os resultados de diversos classificadores com intuito de obter melhores resultados. O propósito central desta dissertação é responder a questão de pesquisa com a experimentação de alternativas para aumentar a eficácia e o desempenho do algoritmo AdaBoost.M1 que é a implementação frequentemente empregada pelo Boosting. Foi feito um estudo empírico levando em consideração aspectos estocásticos tentando lançar alguma luz sobre um parâmetro interno obscuro em que criadores do algoritmo e outros pesquisadores assumiram que o limiar de erro de treinamento deve ser correlacionado com o número de classes no conjunto de dados de destino e, logicamente, a maioria dos conjuntos de dados deve usar um valor de 0.5. Neste trabalho, apresentamos evidências empíricas de que isso não é um fato, mas provavelmente um mito originado pela aplicação da primeira definição do algoritmo. Para alcançar esse objetivo, foram propostas adaptações para o algoritmo, focando em encontrar uma sugestão melhor para definir esse limiar em um caso geral.
id P_RS_a2d072e56e599a26f348ebba5e2b2fa7
oai_identifier_str oai:tede2.pucrs.br:tede/7854
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Classificação com algoritmo AdaBoost.M1 : o mito do limiar de erro de treinamentoMineração de dadosClassificaçãoCombinação de classificadoresClassificationBoostingAdaBoost.M1Data MiningEnsemble MethodsCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOO crescimento acelerado dos repositórios de dados, nas diversas áreas de atuação, abre espaço para pesquisas na área da mineração de dados, em específico, com os métodos de classificação e de combinação de classificadores. O Boosting é um desses métodos, e combina os resultados de diversos classificadores com intuito de obter melhores resultados. O propósito central desta dissertação é responder a questão de pesquisa com a experimentação de alternativas para aumentar a eficácia e o desempenho do algoritmo AdaBoost.M1 que é a implementação frequentemente empregada pelo Boosting. Foi feito um estudo empírico levando em consideração aspectos estocásticos tentando lançar alguma luz sobre um parâmetro interno obscuro em que criadores do algoritmo e outros pesquisadores assumiram que o limiar de erro de treinamento deve ser correlacionado com o número de classes no conjunto de dados de destino e, logicamente, a maioria dos conjuntos de dados deve usar um valor de 0.5. Neste trabalho, apresentamos evidências empíricas de que isso não é um fato, mas provavelmente um mito originado pela aplicação da primeira definição do algoritmo. Para alcançar esse objetivo, foram propostas adaptações para o algoritmo, focando em encontrar uma sugestão melhor para definir esse limiar em um caso geral.The accelerated growth of data repositories, in the different areas of activity, opens space for research in the area of data mining, in particular, with the methods of classification and combination of classifiers. The Boosting method is one of them, which combines the results of several classifiers in order to obtain better results. The main purpose of this dissertation is the experimentation of alternatives to increase the effectiveness and performance of the algorithm AdaBoost.M1, which is the implementation often employed by the Boosting method. An empirical study was perfered taking into account stochastic aspects trying to shed some light on an obscure internal parameter, in which algorithm creators and other researchers assumed that the training error threshold should be correlated with the number of classes in the target data set and logically, most data sets should use a value of 0.5. In this paper, we present an empirical evidence that this is not a fact, but probably a myth originated by the mistaken application of the theoretical assumption of the joint effect. To achieve this goal, adaptations were proposed for the algorithm, focusing on finding a better suggestion to define this threshold in a general case.Pontifícia Universidade Católica do Rio Grande do SulEscola PolitécnicaBrasilPUCRSPrograma de Pós-Graduação em Ciência da ComputaçãoBordini, Rafael Heitorhttp://lattes.cnpq.br/4589262718627942Leães Neto, Antônio do Nascimento2018-02-22T16:40:19Z2017-11-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://tede2.pucrs.br/tede2/handle/tede/7854porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RS2018-02-22T23:00:58Zoai:tede2.pucrs.br:tede/7854Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2018-02-22T23:00:58Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.none.fl_str_mv Classificação com algoritmo AdaBoost.M1 : o mito do limiar de erro de treinamento
title Classificação com algoritmo AdaBoost.M1 : o mito do limiar de erro de treinamento
spellingShingle Classificação com algoritmo AdaBoost.M1 : o mito do limiar de erro de treinamento
Leães Neto, Antônio do Nascimento
Mineração de dados
Classificação
Combinação de classificadores
Classification
Boosting
AdaBoost.M1
Data Mining
Ensemble Methods
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Classificação com algoritmo AdaBoost.M1 : o mito do limiar de erro de treinamento
title_full Classificação com algoritmo AdaBoost.M1 : o mito do limiar de erro de treinamento
title_fullStr Classificação com algoritmo AdaBoost.M1 : o mito do limiar de erro de treinamento
title_full_unstemmed Classificação com algoritmo AdaBoost.M1 : o mito do limiar de erro de treinamento
title_sort Classificação com algoritmo AdaBoost.M1 : o mito do limiar de erro de treinamento
author Leães Neto, Antônio do Nascimento
author_facet Leães Neto, Antônio do Nascimento
author_role author
dc.contributor.none.fl_str_mv Bordini, Rafael Heitor
http://lattes.cnpq.br/4589262718627942
dc.contributor.author.fl_str_mv Leães Neto, Antônio do Nascimento
dc.subject.por.fl_str_mv Mineração de dados
Classificação
Combinação de classificadores
Classification
Boosting
AdaBoost.M1
Data Mining
Ensemble Methods
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic Mineração de dados
Classificação
Combinação de classificadores
Classification
Boosting
AdaBoost.M1
Data Mining
Ensemble Methods
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description O crescimento acelerado dos repositórios de dados, nas diversas áreas de atuação, abre espaço para pesquisas na área da mineração de dados, em específico, com os métodos de classificação e de combinação de classificadores. O Boosting é um desses métodos, e combina os resultados de diversos classificadores com intuito de obter melhores resultados. O propósito central desta dissertação é responder a questão de pesquisa com a experimentação de alternativas para aumentar a eficácia e o desempenho do algoritmo AdaBoost.M1 que é a implementação frequentemente empregada pelo Boosting. Foi feito um estudo empírico levando em consideração aspectos estocásticos tentando lançar alguma luz sobre um parâmetro interno obscuro em que criadores do algoritmo e outros pesquisadores assumiram que o limiar de erro de treinamento deve ser correlacionado com o número de classes no conjunto de dados de destino e, logicamente, a maioria dos conjuntos de dados deve usar um valor de 0.5. Neste trabalho, apresentamos evidências empíricas de que isso não é um fato, mas provavelmente um mito originado pela aplicação da primeira definição do algoritmo. Para alcançar esse objetivo, foram propostas adaptações para o algoritmo, focando em encontrar uma sugestão melhor para definir esse limiar em um caso geral.
publishDate 2017
dc.date.none.fl_str_mv 2017-11-20
2018-02-22T16:40:19Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://tede2.pucrs.br/tede2/handle/tede/7854
url http://tede2.pucrs.br/tede2/handle/tede/7854
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1850041287805239296