Stream Ensemble: an ml model selection algorithm for stream data

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Silva, Anderson Chaves da
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de pós-graduação em Modelagem Computacional
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://tede.lncc.br/handle/tede/408
Resumo: Predictive queries over spatiotemporal (ST) stream data are queries that apply predictive models to time-series data associated with specific geographic locations, with values that are continuously collected and processed. This continuous data flow often leads to dynamic and shifting data distributions that may vary significantly across space and time, exhibiting multiple distinct patterns that challenge predictive modeling. Assigning to a single machine learning model specialized in a particular data distribution the task of handling such variations often leads to failure, since such a model may not capture the diverse patterns across different spatial and temporal regions. Traditional ensemble methods, which rely on the complementary use of multiple base models, often suffer from high execution costs and suboptimal performance when dealing with ST data due to the difficulty of accurately combining the contribution of each model. In contrast, relying on a single globally trained model is frequently challenging due to several limitations: the potential lack of sufficient data, the increased complexity and difficulty in training it in comparison to local models, and the inefficiency of training a new generalist model when effective specialist models already exist. To address this challenge, we propose a more suited approach that considers each available model’s training data and their generalization error as well as the target data distributions to optimize predictive accuracy, selecting for each set of time series the most adequate model. Based on these principles, we propose StreamEnsemble, a method that implements the proposed approach. Our experimental evaluation reveals that StreamEnsemble significantly outperforms traditional ensemble methods and single-model approaches in terms of accuracy and time, demonstrating for stream data a significant reduction in prediction error of more than 10 times.
id LNCC_3da413e6c846398cba53de7de90abbbc
oai_identifier_str oai:tede-server.lncc.br:tede/408
network_acronym_str LNCC
network_name_str Biblioteca Digital de Teses e Dissertações do LNCC
repository_id_str
spelling Stream Ensemble: an ml model selection algorithm for stream dataStream Ensemble: um algoritmo de seleção de modelo ml para dados de fluxoEnsemble LearningData StreamsSpatiotemporal PredictionMachine LearningAprendizado por comitêDados em fluxo contínuoPredição Espaço-TemporalAprendizado de MáquinaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOPredictive queries over spatiotemporal (ST) stream data are queries that apply predictive models to time-series data associated with specific geographic locations, with values that are continuously collected and processed. This continuous data flow often leads to dynamic and shifting data distributions that may vary significantly across space and time, exhibiting multiple distinct patterns that challenge predictive modeling. Assigning to a single machine learning model specialized in a particular data distribution the task of handling such variations often leads to failure, since such a model may not capture the diverse patterns across different spatial and temporal regions. Traditional ensemble methods, which rely on the complementary use of multiple base models, often suffer from high execution costs and suboptimal performance when dealing with ST data due to the difficulty of accurately combining the contribution of each model. In contrast, relying on a single globally trained model is frequently challenging due to several limitations: the potential lack of sufficient data, the increased complexity and difficulty in training it in comparison to local models, and the inefficiency of training a new generalist model when effective specialist models already exist. To address this challenge, we propose a more suited approach that considers each available model’s training data and their generalization error as well as the target data distributions to optimize predictive accuracy, selecting for each set of time series the most adequate model. Based on these principles, we propose StreamEnsemble, a method that implements the proposed approach. Our experimental evaluation reveals that StreamEnsemble significantly outperforms traditional ensemble methods and single-model approaches in terms of accuracy and time, demonstrating for stream data a significant reduction in prediction error of more than 10 times.Consultas preditivas sobre dados de fluxo contínuo espaço-temporais são consultas que aplicam modelos preditivos a dados de séries temporais associadas a locais geográficos específicos, com valores que são continuamente coletados e processados. Esse fluxo contínuo de dados frequentemente leva a distribuições dinâmicas que podem variar significativamente no espaço e no tempo, exibindo múltiplos padrões distintos que desafiam a modelagem preditiva. Atribuir a um único modelo de aprendizado de máquina especializado em uma determinada distribuição de dados a tarefa de lidar com essas variações geralmente leva ao fracasso, pois tal modelo pode não capturar a diversidade de padrões em diferentes regiões espaciais e temporais. Métodos de ensemble tradicionais, que se baseiam no uso complementar de múltiplos modelos base, frequentemente sofrem com altos custos de execução e desempenho subótimo ao lidar com dados espaço-temporais devido à dificuldade de combinar com precisão a contribuição de cada modelo. Por outro lado, basear-se em um único modelo treinado globalmente revela-se muitas vezes uma estratégia inadequada devido a várias limitações: a possível falta de dados suficientes, o aumento da complexidade e dificuldade no treinamento em comparação com modelos locais e a ineficiência de treinar um novo modelo generalista quando modelos especializados eficazes já existem. Para enfrentar esse desafio, propomos uma abordagem mais adequada que considera os dados de treinamento de cada modelo disponível e seu erro de generalização, bem como as distribuições dos dados alvo, para otimizar a precisão preditiva, selecionando o modelo mais adequado para cada conjunto de séries temporais. Com base nesses princípios, propomos StreamEnsemble, um método que implementa a abordagem proposta. Nossa avaliação experimental revela que StreamEnsemble supera significativamente os métodos tradicionais de ensemble e as abordagens de modelo único em termos de precisão e tempo, demonstrando para dados de fluxo contínuo uma redução significativa no erro de previsão em mais de 10 vezes.Fundação Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESLaboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BrasilLNCCPrograma de pós-graduação em Modelagem ComputacionalPorto, Fábio André MachadoPorto, Fabio André MachadoGomes, Antônio Tadeu AzevedoOgasawara, Eduardo SoaresOliveira, Daniel Cardoso Moraes deValduriez, PatrickSilva, Anderson Chaves da2025-01-30T18:14:15Z2024-11-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfSILVA, Anderson Chaves da. Stream Ensemble: a ml model selection algorithm for stream data. Petrópolis, RJ, 2024. 81 f. Tese (Doutorado em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2024.https://tede.lncc.br/handle/tede/408enginfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2025-01-31T04:14:22Zoai:tede-server.lncc.br:tede/408Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2025-01-31T04:14:22Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false
dc.title.none.fl_str_mv Stream Ensemble: an ml model selection algorithm for stream data
Stream Ensemble: um algoritmo de seleção de modelo ml para dados de fluxo
title Stream Ensemble: an ml model selection algorithm for stream data
spellingShingle Stream Ensemble: an ml model selection algorithm for stream data
Silva, Anderson Chaves da
Ensemble Learning
Data Streams
Spatiotemporal Prediction
Machine Learning
Aprendizado por comitê
Dados em fluxo contínuo
Predição Espaço-Temporal
Aprendizado de Máquina
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Stream Ensemble: an ml model selection algorithm for stream data
title_full Stream Ensemble: an ml model selection algorithm for stream data
title_fullStr Stream Ensemble: an ml model selection algorithm for stream data
title_full_unstemmed Stream Ensemble: an ml model selection algorithm for stream data
title_sort Stream Ensemble: an ml model selection algorithm for stream data
author Silva, Anderson Chaves da
author_facet Silva, Anderson Chaves da
author_role author
dc.contributor.none.fl_str_mv Porto, Fábio André Machado
Porto, Fabio André Machado
Gomes, Antônio Tadeu Azevedo
Ogasawara, Eduardo Soares
Oliveira, Daniel Cardoso Moraes de
Valduriez, Patrick
dc.contributor.author.fl_str_mv Silva, Anderson Chaves da
dc.subject.por.fl_str_mv Ensemble Learning
Data Streams
Spatiotemporal Prediction
Machine Learning
Aprendizado por comitê
Dados em fluxo contínuo
Predição Espaço-Temporal
Aprendizado de Máquina
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic Ensemble Learning
Data Streams
Spatiotemporal Prediction
Machine Learning
Aprendizado por comitê
Dados em fluxo contínuo
Predição Espaço-Temporal
Aprendizado de Máquina
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Predictive queries over spatiotemporal (ST) stream data are queries that apply predictive models to time-series data associated with specific geographic locations, with values that are continuously collected and processed. This continuous data flow often leads to dynamic and shifting data distributions that may vary significantly across space and time, exhibiting multiple distinct patterns that challenge predictive modeling. Assigning to a single machine learning model specialized in a particular data distribution the task of handling such variations often leads to failure, since such a model may not capture the diverse patterns across different spatial and temporal regions. Traditional ensemble methods, which rely on the complementary use of multiple base models, often suffer from high execution costs and suboptimal performance when dealing with ST data due to the difficulty of accurately combining the contribution of each model. In contrast, relying on a single globally trained model is frequently challenging due to several limitations: the potential lack of sufficient data, the increased complexity and difficulty in training it in comparison to local models, and the inefficiency of training a new generalist model when effective specialist models already exist. To address this challenge, we propose a more suited approach that considers each available model’s training data and their generalization error as well as the target data distributions to optimize predictive accuracy, selecting for each set of time series the most adequate model. Based on these principles, we propose StreamEnsemble, a method that implements the proposed approach. Our experimental evaluation reveals that StreamEnsemble significantly outperforms traditional ensemble methods and single-model approaches in terms of accuracy and time, demonstrating for stream data a significant reduction in prediction error of more than 10 times.
publishDate 2024
dc.date.none.fl_str_mv 2024-11-28
2025-01-30T18:14:15Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SILVA, Anderson Chaves da. Stream Ensemble: a ml model selection algorithm for stream data. Petrópolis, RJ, 2024. 81 f. Tese (Doutorado em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2024.
https://tede.lncc.br/handle/tede/408
identifier_str_mv SILVA, Anderson Chaves da. Stream Ensemble: a ml model selection algorithm for stream data. Petrópolis, RJ, 2024. 81 f. Tese (Doutorado em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2024.
url https://tede.lncc.br/handle/tede/408
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de pós-graduação em Modelagem Computacional
publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de pós-graduação em Modelagem Computacional
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do LNCC
instname:Laboratório Nacional de Computação Científica (LNCC)
instacron:LNCC
instname_str Laboratório Nacional de Computação Científica (LNCC)
instacron_str LNCC
institution LNCC
reponame_str Biblioteca Digital de Teses e Dissertações do LNCC
collection Biblioteca Digital de Teses e Dissertações do LNCC
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)
repository.mail.fl_str_mv library@lncc.br||library@lncc.br
_version_ 1832738028540395520