Strict very fast decision tree : a memory conservative algorithm for data stream classification

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Costa, Victor Guilherme Turrisi
Orientador(a): Barbon Junior, Sylvio [Orientador]
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.uel.br/handle/123456789/10561
Resumo: Resumo: Lidar com restrições de memória e tempo são desafios presentes quando deseja-se aprender com fluxos massivos de dados Diversos algoritmos foram propostos para lidar com essas dificuldades, entre eles, a Very Fast Decision Tree (VFDT) Apesar da VFDT ser amplamente utilizada para a mineração de fluxos de dados, nos últimos anos, diversos autores sugeriram mudanças para melhorar a capacidade preditiva desse algoritmo, mas ignorando os altos custos adicionais de memória e tempo ocasionados por essas modificações Além disso, mais recentemente, a maioria dos algoritmos para mineração de fluxos de dados são baseados em ensembles, sendo bem custosos considerando os recursos de memória e tempo Esse estudo apresenta um novo algoritmo baseado na VFDT chamado de Strict VFDT (SVFDT) que reduz custos de memória mantendo capacidade preditiva similar a VFDT Além disso, como as árvores de decisão geradas são mais rasas, a SVFDT acaba reduzindo o tempo computacional necessário para se processar um fluxo de dados Esse algoritmo aplica medidas heurísticas para bloquear divisões de folhas que não resultam em um aumento significativo na capacidade preditiva Foram realizados experimentos comparando a SVFDT com a VFDT em 26 fluxos de dados Após realizar diversas análises, cada qual focando em algum dos múltiplos aspectos dos algoritmos, foi possível observar que o algoritmo proposto é capaz de reduzir drasticamente o consumo de memória enquanto possui capacidade preditiva similar e sendo mais rápido em muitos casos
id UEL_1aeef77528cdf7bc402b02ed056cc0bb
oai_identifier_str oai:repositorio.uel.br:123456789/10561
network_acronym_str UEL
network_name_str Repositório Institucional da UEL
repository_id_str
spelling Costa, Victor Guilherme TurrisiZarpelão, Bruno Bogazc616021b-488a-4c71-9089-c14c349287c9-1Mantovani, Rafael Gomes423e2aea-b979-4ed5-b5ae-52d521904a0f-126b02371-268b-4542-af3e-864b926cac4494aaf54d-a259-4269-aca8-d1c56214b619Barbon Junior, Sylvio [Orientador]Londrina2024-05-01T12:44:48Z2024-05-01T12:44:48Z2019.0027.03.2019https://repositorio.uel.br/handle/123456789/10561Resumo: Lidar com restrições de memória e tempo são desafios presentes quando deseja-se aprender com fluxos massivos de dados Diversos algoritmos foram propostos para lidar com essas dificuldades, entre eles, a Very Fast Decision Tree (VFDT) Apesar da VFDT ser amplamente utilizada para a mineração de fluxos de dados, nos últimos anos, diversos autores sugeriram mudanças para melhorar a capacidade preditiva desse algoritmo, mas ignorando os altos custos adicionais de memória e tempo ocasionados por essas modificações Além disso, mais recentemente, a maioria dos algoritmos para mineração de fluxos de dados são baseados em ensembles, sendo bem custosos considerando os recursos de memória e tempo Esse estudo apresenta um novo algoritmo baseado na VFDT chamado de Strict VFDT (SVFDT) que reduz custos de memória mantendo capacidade preditiva similar a VFDT Além disso, como as árvores de decisão geradas são mais rasas, a SVFDT acaba reduzindo o tempo computacional necessário para se processar um fluxo de dados Esse algoritmo aplica medidas heurísticas para bloquear divisões de folhas que não resultam em um aumento significativo na capacidade preditiva Foram realizados experimentos comparando a SVFDT com a VFDT em 26 fluxos de dados Após realizar diversas análises, cada qual focando em algum dos múltiplos aspectos dos algoritmos, foi possível observar que o algoritmo proposto é capaz de reduzir drasticamente o consumo de memória enquanto possui capacidade preditiva similar e sendo mais rápido em muitos casosDissertação (Mestrado em Ciência da Computação) - Universidade Estadual de Londrina, Centro de Ciências Exatas, Programa de Pós-Graduação em Ciência da ComputaçãoAbstract: Memory and time constraints are current challenges when learning from massive data streams Many algorithms have been proposed to handle these difficulties, among them, the Very Fast Decision Tree (VFDT) Although it has been widely used in data stream mining, in the last years, several authors have suggested modifications to increase its predictive performance, putting aside the high memory and time demands of these modifications Besides, recently, most data stream mining solutions have been centred around ensembles, which are very costly from a memory and time point of view This study presents a novel algorithm based on the VFDT called Strict VFDT (SVFDT) that reduces memory costs while maintaining predictive performance Moreover, since it creates much shallower trees than VFDT, the SVFDT can achieve a shorter computational time It works by blocking splits which would not yield a significant increase in predictive performance using heuristic measures Experiments were carried out comparing the SVFDT with the VFDT in 26 data stream datasets By performing different analysis focusing on multiple aspects of the algorithms, the proposed algorithm was able to greatly reduce memory consumption while yielding similar predictive performance and being faster in many casesporMineração de dados (Computação)Algoritmos de computadorAprendizado do computadorData mining (Computing)Computer algoritmsStrict very fast decision tree : a memory conservative algorithm for data stream classificationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisMestradoCiência da ComputaçãoCentro de Ciências ExatasPrograma de Pós-Graduação em Ciência da Computação-1-1reponame:Repositório Institucional da UELinstname:Universidade Estadual de Londrina (UEL)instacron:UELinfo:eu-repo/semantics/openAccess112180vtls000226754SIMvtls000226754http://www.bibliotecadigital.uel.br/document/?code=vtls00022675464.00SIMhttp://www.bibliotecadigital.uel.br/document/?code=vtls0002267546675.pdf123456789/5002 - Mestrado - Ciência da ComputaçãoORIGINAL6675.pdfapplication/pdf1680000https://repositorio.uel.br/bitstreams/f39346b6-becb-42ae-bdbc-b83ea592ffa6/downloadd098fc22e084c90a9e72808acd3ebb7bMD51LICENCElicence.txttext/plain263https://repositorio.uel.br/bitstreams/2ff60462-821c-4637-9eb1-f03c4058f5f2/download753f376dfdbc064b559839be95ac5523MD52TEXT6675.pdf.txt6675.pdf.txtExtracted texttext/plain214468https://repositorio.uel.br/bitstreams/3444e007-d907-415a-8728-328dfaf0a3a3/download2d293df6463239ae4864bd28874cc0f5MD53THUMBNAIL6675.pdf.jpg6675.pdf.jpgGenerated Thumbnailimage/jpeg3797https://repositorio.uel.br/bitstreams/d7b543cc-0640-4b4f-8fd3-ab8427972d66/downloadbfbfe4ae6319d0154b08fd53455fde6eMD54123456789/105612024-07-12 01:20:12.022open.accessoai:repositorio.uel.br:123456789/10561https://repositorio.uel.brBiblioteca Digital de Teses e Dissertaçõeshttp://www.bibliotecadigital.uel.br/PUBhttp://www.bibliotecadigital.uel.br/OAI/oai2.phpbcuel@uel.br||opendoar:2024-07-12T04:20:12Repositório Institucional da UEL - Universidade Estadual de Londrina (UEL)false
dc.title.pt_BR.fl_str_mv Strict very fast decision tree : a memory conservative algorithm for data stream classification
title Strict very fast decision tree : a memory conservative algorithm for data stream classification
spellingShingle Strict very fast decision tree : a memory conservative algorithm for data stream classification
Costa, Victor Guilherme Turrisi
Mineração de dados (Computação)
Algoritmos de computador
Aprendizado do computador
Data mining (Computing)
Computer algoritms
title_short Strict very fast decision tree : a memory conservative algorithm for data stream classification
title_full Strict very fast decision tree : a memory conservative algorithm for data stream classification
title_fullStr Strict very fast decision tree : a memory conservative algorithm for data stream classification
title_full_unstemmed Strict very fast decision tree : a memory conservative algorithm for data stream classification
title_sort Strict very fast decision tree : a memory conservative algorithm for data stream classification
author Costa, Victor Guilherme Turrisi
author_facet Costa, Victor Guilherme Turrisi
author_role author
dc.contributor.banca.pt_BR.fl_str_mv Zarpelão, Bruno Bogaz
Mantovani, Rafael Gomes
dc.contributor.author.fl_str_mv Costa, Victor Guilherme Turrisi
dc.contributor.authorID.fl_str_mv 26b02371-268b-4542-af3e-864b926cac44
dc.contributor.advisor1ID.fl_str_mv 94aaf54d-a259-4269-aca8-d1c56214b619
dc.contributor.advisor1.fl_str_mv Barbon Junior, Sylvio [Orientador]
contributor_str_mv Barbon Junior, Sylvio [Orientador]
dc.subject.por.fl_str_mv Mineração de dados (Computação)
Algoritmos de computador
Aprendizado do computador
Data mining (Computing)
Computer algoritms
topic Mineração de dados (Computação)
Algoritmos de computador
Aprendizado do computador
Data mining (Computing)
Computer algoritms
description Resumo: Lidar com restrições de memória e tempo são desafios presentes quando deseja-se aprender com fluxos massivos de dados Diversos algoritmos foram propostos para lidar com essas dificuldades, entre eles, a Very Fast Decision Tree (VFDT) Apesar da VFDT ser amplamente utilizada para a mineração de fluxos de dados, nos últimos anos, diversos autores sugeriram mudanças para melhorar a capacidade preditiva desse algoritmo, mas ignorando os altos custos adicionais de memória e tempo ocasionados por essas modificações Além disso, mais recentemente, a maioria dos algoritmos para mineração de fluxos de dados são baseados em ensembles, sendo bem custosos considerando os recursos de memória e tempo Esse estudo apresenta um novo algoritmo baseado na VFDT chamado de Strict VFDT (SVFDT) que reduz custos de memória mantendo capacidade preditiva similar a VFDT Além disso, como as árvores de decisão geradas são mais rasas, a SVFDT acaba reduzindo o tempo computacional necessário para se processar um fluxo de dados Esse algoritmo aplica medidas heurísticas para bloquear divisões de folhas que não resultam em um aumento significativo na capacidade preditiva Foram realizados experimentos comparando a SVFDT com a VFDT em 26 fluxos de dados Após realizar diversas análises, cada qual focando em algum dos múltiplos aspectos dos algoritmos, foi possível observar que o algoritmo proposto é capaz de reduzir drasticamente o consumo de memória enquanto possui capacidade preditiva similar e sendo mais rápido em muitos casos
publishDate 2024
dc.date.defesa.pt_BR.fl_str_mv 27.03.2019
dc.date.created.fl_str_mv 2019.00
dc.date.accessioned.fl_str_mv 2024-05-01T12:44:48Z
dc.date.available.fl_str_mv 2024-05-01T12:44:48Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.uel.br/handle/123456789/10561
url https://repositorio.uel.br/handle/123456789/10561
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv -1
-1
dc.relation.coursedegree.pt_BR.fl_str_mv Mestrado
dc.relation.coursename.pt_BR.fl_str_mv Ciência da Computação
dc.relation.departament.pt_BR.fl_str_mv Centro de Ciências Exatas
dc.relation.ppgname.pt_BR.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.coverage.spatial.pt_BR.fl_str_mv Londrina
dc.source.none.fl_str_mv reponame:Repositório Institucional da UEL
instname:Universidade Estadual de Londrina (UEL)
instacron:UEL
instname_str Universidade Estadual de Londrina (UEL)
instacron_str UEL
institution UEL
reponame_str Repositório Institucional da UEL
collection Repositório Institucional da UEL
bitstream.url.fl_str_mv https://repositorio.uel.br/bitstreams/f39346b6-becb-42ae-bdbc-b83ea592ffa6/download
https://repositorio.uel.br/bitstreams/2ff60462-821c-4637-9eb1-f03c4058f5f2/download
https://repositorio.uel.br/bitstreams/3444e007-d907-415a-8728-328dfaf0a3a3/download
https://repositorio.uel.br/bitstreams/d7b543cc-0640-4b4f-8fd3-ab8427972d66/download
bitstream.checksum.fl_str_mv d098fc22e084c90a9e72808acd3ebb7b
753f376dfdbc064b559839be95ac5523
2d293df6463239ae4864bd28874cc0f5
bfbfe4ae6319d0154b08fd53455fde6e
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UEL - Universidade Estadual de Londrina (UEL)
repository.mail.fl_str_mv bcuel@uel.br||
_version_ 1856675806003068928