[en] APPROXIMATE BORN AGAIN TREE ENSEMBLES

MATHEUS DE SOUSA SUKNAIC

[en] APPROXIMATE BORN AGAIN TREE ENSEMBLES

Detalhes bibliográficos
Ano de defesa:	2021
Autor(a) principal:	MATHEUS DE SOUSA SUKNAIC
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	MAXWELL
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	[pt] ARVORE DE DECISAO [pt] MODELOS DE COMPRESSAO DE DADOS [pt] MACHINE LEARNING INTERPRETAVEL [pt] CONJUNTOS DE ARVORES [en] DECISION TREE [en] MODEL COMPRESSION [en] INTERPRETABLE MACHINE LEARNING [en] TREE ENSEMBLES
Link de acesso:	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55539&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55539&idi=2 http://doi.org/10.17771/PUCRio.acad.55539
Resumo:	[pt] Métodos ensemble como random forest, boosting e bagging foram extensivamente estudados e provaram ter uma acurácia melhor do que usar apenas um preditor. Entretanto, a desvantagem é que os modelos obtidos utilizando esses métodos podem ser muito mais difíceis de serem interpretados do que por exemplo, uma árvore de decisão. Neste trabalho, nós abordamos o problema de construir uma árvore de decisão que aproximadamente reproduza um conjunto de árvores, explorando o tradeoff entre acurácia e interpretabilidade, que pode ser alcançado quando a reprodução exata do conjunto de árvores é relaxada. Primeiramente, nós formalizamos o problem de obter uma árvore de decisão de uma determinada profundidade que seja a mais aderente ao conjunto de árvores e propomos um algoritmo de programação dinâmica para resolver esse problema. Nós também provamos que a árvore de decisão obtida por esse procedimento satisfaz garantias de generalização relacionadas a generalização do modelo original de conjuntos de árvores, um elemento crucial para a efetividade dessa árvore de decisão em prática. Visto que a complexidade computacional do algoritmo de programação dinâmica é exponencial no número de features, nós propomos duas heurísticas para gerar árvores de uma determinada profundidade com boa aderência em relação ao conjunto de árvores. Por fim, nós conduzimos experimentos computacionais para avaliar os algoritmos propostos. Quando utilizados classificadores mais interpretáveis, os resultados indicam que em diversas situações a perda em acurácia é pequena ou inexistente: restrigindo a árvores de decisão de profundidade 6, nossos algoritmos produzem árvores que em média possuem acurácias que estão a 1 por cento (considerando o algoritmo de programção dinâmica) ou 2 por cento (considerando os algoritmos heurísticos) do conjunto original de árvores.

Metadados do item

id	PUC_RIO-1_b3f7360e25ee34603d533f0a178a8d7a
oai_identifier_str	oai:MAXWELL.puc-rio.br:55539
network_acronym_str	PUC_RIO-1
network_name_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str
spelling	[en] APPROXIMATE BORN AGAIN TREE ENSEMBLES [pt] ÁRVORES BA APROXIMADAS [pt] ARVORE DE DECISAO[pt] MODELOS DE COMPRESSAO DE DADOS[pt] MACHINE LEARNING INTERPRETAVEL[pt] CONJUNTOS DE ARVORES[en] DECISION TREE[en] MODEL COMPRESSION[en] INTERPRETABLE MACHINE LEARNING[en] TREE ENSEMBLES[pt] Métodos ensemble como random forest, boosting e bagging foram extensivamente estudados e provaram ter uma acurácia melhor do que usar apenas um preditor. Entretanto, a desvantagem é que os modelos obtidos utilizando esses métodos podem ser muito mais difíceis de serem interpretados do que por exemplo, uma árvore de decisão. Neste trabalho, nós abordamos o problema de construir uma árvore de decisão que aproximadamente reproduza um conjunto de árvores, explorando o tradeoff entre acurácia e interpretabilidade, que pode ser alcançado quando a reprodução exata do conjunto de árvores é relaxada. Primeiramente, nós formalizamos o problem de obter uma árvore de decisão de uma determinada profundidade que seja a mais aderente ao conjunto de árvores e propomos um algoritmo de programação dinâmica para resolver esse problema. Nós também provamos que a árvore de decisão obtida por esse procedimento satisfaz garantias de generalização relacionadas a generalização do modelo original de conjuntos de árvores, um elemento crucial para a efetividade dessa árvore de decisão em prática. Visto que a complexidade computacional do algoritmo de programação dinâmica é exponencial no número de features, nós propomos duas heurísticas para gerar árvores de uma determinada profundidade com boa aderência em relação ao conjunto de árvores. Por fim, nós conduzimos experimentos computacionais para avaliar os algoritmos propostos. Quando utilizados classificadores mais interpretáveis, os resultados indicam que em diversas situações a perda em acurácia é pequena ou inexistente: restrigindo a árvores de decisão de profundidade 6, nossos algoritmos produzem árvores que em média possuem acurácias que estão a 1 por cento (considerando o algoritmo de programção dinâmica) ou 2 por cento (considerando os algoritmos heurísticos) do conjunto original de árvores.[en] Ensemble methods in machine learning such as random forest, boosting, and bagging have been thoroughly studied and proven to have better accuracy than using a single predictor. However, their drawback is that they give models that can be much harder to interpret than those given by, for example, decision trees. In this work, we approach in a principled way the problem of constructing a decision tree that approximately reproduces a tree ensemble, exploring the tradeoff between accuracy and interpretability that can be obtained once exact reproduction is relaxed. First, we formally define the problem of obtaining the decision tree of a given depth that is most adherent to a tree ensemble and give a Dynamic Programming algorithm for solving this problem. We also prove that the decision trees obtained by this procedure satisfy generalization guarantees related to the generalization of the original tree ensembles, a crucial element for their effectiveness in practice. Since the computational complexity of the Dynamic Programming algorithm is exponential in the number of features, we also design heuristics to compute trees of a given depth with good adherence to a tree ensemble. Finally, we conduct a comprehensive computational evaluation of the algorithms proposed. The results indicate that in many situations, there is little or no loss in accuracy in working more interpretable classifiers: even restricting to only depth-6 decision trees, our algorithms produce trees with average accuracies that are within 1 percent (for the Dynamic Programming algorithm) or 2 percent (heuristics) of the original random forest.MAXWELLMARCO SERPA MOLINAROMARCO SERPA MOLINAROMARCO SERPA MOLINAROMATHEUS DE SOUSA SUKNAIC2021-10-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55539&idi=1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55539&idi=2http://doi.org/10.17771/PUCRio.acad.55539engreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2024-09-04T00:00:00Zoai:MAXWELL.puc-rio.br:55539Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342024-09-04T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv	[en] APPROXIMATE BORN AGAIN TREE ENSEMBLES [pt] ÁRVORES BA APROXIMADAS
title	[en] APPROXIMATE BORN AGAIN TREE ENSEMBLES
spellingShingle	[en] APPROXIMATE BORN AGAIN TREE ENSEMBLES MATHEUS DE SOUSA SUKNAIC [pt] ARVORE DE DECISAO [pt] MODELOS DE COMPRESSAO DE DADOS [pt] MACHINE LEARNING INTERPRETAVEL [pt] CONJUNTOS DE ARVORES [en] DECISION TREE [en] MODEL COMPRESSION [en] INTERPRETABLE MACHINE LEARNING [en] TREE ENSEMBLES
title_short	[en] APPROXIMATE BORN AGAIN TREE ENSEMBLES
title_full	[en] APPROXIMATE BORN AGAIN TREE ENSEMBLES
title_fullStr	[en] APPROXIMATE BORN AGAIN TREE ENSEMBLES
title_full_unstemmed	[en] APPROXIMATE BORN AGAIN TREE ENSEMBLES
title_sort	[en] APPROXIMATE BORN AGAIN TREE ENSEMBLES
author	MATHEUS DE SOUSA SUKNAIC
author_facet	MATHEUS DE SOUSA SUKNAIC
author_role	author
dc.contributor.none.fl_str_mv	MARCO SERPA MOLINARO MARCO SERPA MOLINARO MARCO SERPA MOLINARO
dc.contributor.author.fl_str_mv	MATHEUS DE SOUSA SUKNAIC
dc.subject.por.fl_str_mv	[pt] ARVORE DE DECISAO [pt] MODELOS DE COMPRESSAO DE DADOS [pt] MACHINE LEARNING INTERPRETAVEL [pt] CONJUNTOS DE ARVORES [en] DECISION TREE [en] MODEL COMPRESSION [en] INTERPRETABLE MACHINE LEARNING [en] TREE ENSEMBLES
topic	[pt] ARVORE DE DECISAO [pt] MODELOS DE COMPRESSAO DE DADOS [pt] MACHINE LEARNING INTERPRETAVEL [pt] CONJUNTOS DE ARVORES [en] DECISION TREE [en] MODEL COMPRESSION [en] INTERPRETABLE MACHINE LEARNING [en] TREE ENSEMBLES
description	[pt] Métodos ensemble como random forest, boosting e bagging foram extensivamente estudados e provaram ter uma acurácia melhor do que usar apenas um preditor. Entretanto, a desvantagem é que os modelos obtidos utilizando esses métodos podem ser muito mais difíceis de serem interpretados do que por exemplo, uma árvore de decisão. Neste trabalho, nós abordamos o problema de construir uma árvore de decisão que aproximadamente reproduza um conjunto de árvores, explorando o tradeoff entre acurácia e interpretabilidade, que pode ser alcançado quando a reprodução exata do conjunto de árvores é relaxada. Primeiramente, nós formalizamos o problem de obter uma árvore de decisão de uma determinada profundidade que seja a mais aderente ao conjunto de árvores e propomos um algoritmo de programação dinâmica para resolver esse problema. Nós também provamos que a árvore de decisão obtida por esse procedimento satisfaz garantias de generalização relacionadas a generalização do modelo original de conjuntos de árvores, um elemento crucial para a efetividade dessa árvore de decisão em prática. Visto que a complexidade computacional do algoritmo de programação dinâmica é exponencial no número de features, nós propomos duas heurísticas para gerar árvores de uma determinada profundidade com boa aderência em relação ao conjunto de árvores. Por fim, nós conduzimos experimentos computacionais para avaliar os algoritmos propostos. Quando utilizados classificadores mais interpretáveis, os resultados indicam que em diversas situações a perda em acurácia é pequena ou inexistente: restrigindo a árvores de decisão de profundidade 6, nossos algoritmos produzem árvores que em média possuem acurácias que estão a 1 por cento (considerando o algoritmo de programção dinâmica) ou 2 por cento (considerando os algoritmos heurísticos) do conjunto original de árvores.
publishDate	2021
dc.date.none.fl_str_mv	2021-10-28
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55539&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55539&idi=2 http://doi.org/10.17771/PUCRio.acad.55539
url	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55539&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55539&idi=2 http://doi.org/10.17771/PUCRio.acad.55539
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	MAXWELL
publisher.none.fl_str_mv	MAXWELL
dc.source.none.fl_str_mv	reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO
instname_str	Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str	PUC_RIO
institution	PUC_RIO
reponame_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv	Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_	1856395955264290816

[en] APPROXIMATE BORN AGAIN TREE ENSEMBLES

Registros relacionados