Stream Ensemble: an ml model selection algorithm for stream data
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de pós-graduação em Modelagem Computacional |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://tede.lncc.br/handle/tede/408 |
Resumo: | Predictive queries over spatiotemporal (ST) stream data are queries that apply predictive models to time-series data associated with specific geographic locations, with values that are continuously collected and processed. This continuous data flow often leads to dynamic and shifting data distributions that may vary significantly across space and time, exhibiting multiple distinct patterns that challenge predictive modeling. Assigning to a single machine learning model specialized in a particular data distribution the task of handling such variations often leads to failure, since such a model may not capture the diverse patterns across different spatial and temporal regions. Traditional ensemble methods, which rely on the complementary use of multiple base models, often suffer from high execution costs and suboptimal performance when dealing with ST data due to the difficulty of accurately combining the contribution of each model. In contrast, relying on a single globally trained model is frequently challenging due to several limitations: the potential lack of sufficient data, the increased complexity and difficulty in training it in comparison to local models, and the inefficiency of training a new generalist model when effective specialist models already exist. To address this challenge, we propose a more suited approach that considers each available model’s training data and their generalization error as well as the target data distributions to optimize predictive accuracy, selecting for each set of time series the most adequate model. Based on these principles, we propose StreamEnsemble, a method that implements the proposed approach. Our experimental evaluation reveals that StreamEnsemble significantly outperforms traditional ensemble methods and single-model approaches in terms of accuracy and time, demonstrating for stream data a significant reduction in prediction error of more than 10 times. |
| id |
LNCC_3da413e6c846398cba53de7de90abbbc |
|---|---|
| oai_identifier_str |
oai:tede-server.lncc.br:tede/408 |
| network_acronym_str |
LNCC |
| network_name_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
| repository_id_str |
|
| spelling |
Stream Ensemble: an ml model selection algorithm for stream dataStream Ensemble: um algoritmo de seleção de modelo ml para dados de fluxoEnsemble LearningData StreamsSpatiotemporal PredictionMachine LearningAprendizado por comitêDados em fluxo contínuoPredição Espaço-TemporalAprendizado de MáquinaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOPredictive queries over spatiotemporal (ST) stream data are queries that apply predictive models to time-series data associated with specific geographic locations, with values that are continuously collected and processed. This continuous data flow often leads to dynamic and shifting data distributions that may vary significantly across space and time, exhibiting multiple distinct patterns that challenge predictive modeling. Assigning to a single machine learning model specialized in a particular data distribution the task of handling such variations often leads to failure, since such a model may not capture the diverse patterns across different spatial and temporal regions. Traditional ensemble methods, which rely on the complementary use of multiple base models, often suffer from high execution costs and suboptimal performance when dealing with ST data due to the difficulty of accurately combining the contribution of each model. In contrast, relying on a single globally trained model is frequently challenging due to several limitations: the potential lack of sufficient data, the increased complexity and difficulty in training it in comparison to local models, and the inefficiency of training a new generalist model when effective specialist models already exist. To address this challenge, we propose a more suited approach that considers each available model’s training data and their generalization error as well as the target data distributions to optimize predictive accuracy, selecting for each set of time series the most adequate model. Based on these principles, we propose StreamEnsemble, a method that implements the proposed approach. Our experimental evaluation reveals that StreamEnsemble significantly outperforms traditional ensemble methods and single-model approaches in terms of accuracy and time, demonstrating for stream data a significant reduction in prediction error of more than 10 times.Consultas preditivas sobre dados de fluxo contínuo espaço-temporais são consultas que aplicam modelos preditivos a dados de séries temporais associadas a locais geográficos específicos, com valores que são continuamente coletados e processados. Esse fluxo contínuo de dados frequentemente leva a distribuições dinâmicas que podem variar significativamente no espaço e no tempo, exibindo múltiplos padrões distintos que desafiam a modelagem preditiva. Atribuir a um único modelo de aprendizado de máquina especializado em uma determinada distribuição de dados a tarefa de lidar com essas variações geralmente leva ao fracasso, pois tal modelo pode não capturar a diversidade de padrões em diferentes regiões espaciais e temporais. Métodos de ensemble tradicionais, que se baseiam no uso complementar de múltiplos modelos base, frequentemente sofrem com altos custos de execução e desempenho subótimo ao lidar com dados espaço-temporais devido à dificuldade de combinar com precisão a contribuição de cada modelo. Por outro lado, basear-se em um único modelo treinado globalmente revela-se muitas vezes uma estratégia inadequada devido a várias limitações: a possível falta de dados suficientes, o aumento da complexidade e dificuldade no treinamento em comparação com modelos locais e a ineficiência de treinar um novo modelo generalista quando modelos especializados eficazes já existem. Para enfrentar esse desafio, propomos uma abordagem mais adequada que considera os dados de treinamento de cada modelo disponível e seu erro de generalização, bem como as distribuições dos dados alvo, para otimizar a precisão preditiva, selecionando o modelo mais adequado para cada conjunto de séries temporais. Com base nesses princípios, propomos StreamEnsemble, um método que implementa a abordagem proposta. Nossa avaliação experimental revela que StreamEnsemble supera significativamente os métodos tradicionais de ensemble e as abordagens de modelo único em termos de precisão e tempo, demonstrando para dados de fluxo contínuo uma redução significativa no erro de previsão em mais de 10 vezes.Fundação Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESLaboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BrasilLNCCPrograma de pós-graduação em Modelagem ComputacionalPorto, Fábio André MachadoPorto, Fabio André MachadoGomes, Antônio Tadeu AzevedoOgasawara, Eduardo SoaresOliveira, Daniel Cardoso Moraes deValduriez, PatrickSilva, Anderson Chaves da2025-01-30T18:14:15Z2024-11-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfSILVA, Anderson Chaves da. Stream Ensemble: a ml model selection algorithm for stream data. Petrópolis, RJ, 2024. 81 f. Tese (Doutorado em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2024.https://tede.lncc.br/handle/tede/408enginfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2025-01-31T04:14:22Zoai:tede-server.lncc.br:tede/408Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2025-01-31T04:14:22Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false |
| dc.title.none.fl_str_mv |
Stream Ensemble: an ml model selection algorithm for stream data Stream Ensemble: um algoritmo de seleção de modelo ml para dados de fluxo |
| title |
Stream Ensemble: an ml model selection algorithm for stream data |
| spellingShingle |
Stream Ensemble: an ml model selection algorithm for stream data Silva, Anderson Chaves da Ensemble Learning Data Streams Spatiotemporal Prediction Machine Learning Aprendizado por comitê Dados em fluxo contínuo Predição Espaço-Temporal Aprendizado de Máquina CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| title_short |
Stream Ensemble: an ml model selection algorithm for stream data |
| title_full |
Stream Ensemble: an ml model selection algorithm for stream data |
| title_fullStr |
Stream Ensemble: an ml model selection algorithm for stream data |
| title_full_unstemmed |
Stream Ensemble: an ml model selection algorithm for stream data |
| title_sort |
Stream Ensemble: an ml model selection algorithm for stream data |
| author |
Silva, Anderson Chaves da |
| author_facet |
Silva, Anderson Chaves da |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Porto, Fábio André Machado Porto, Fabio André Machado Gomes, Antônio Tadeu Azevedo Ogasawara, Eduardo Soares Oliveira, Daniel Cardoso Moraes de Valduriez, Patrick |
| dc.contributor.author.fl_str_mv |
Silva, Anderson Chaves da |
| dc.subject.por.fl_str_mv |
Ensemble Learning Data Streams Spatiotemporal Prediction Machine Learning Aprendizado por comitê Dados em fluxo contínuo Predição Espaço-Temporal Aprendizado de Máquina CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| topic |
Ensemble Learning Data Streams Spatiotemporal Prediction Machine Learning Aprendizado por comitê Dados em fluxo contínuo Predição Espaço-Temporal Aprendizado de Máquina CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| description |
Predictive queries over spatiotemporal (ST) stream data are queries that apply predictive models to time-series data associated with specific geographic locations, with values that are continuously collected and processed. This continuous data flow often leads to dynamic and shifting data distributions that may vary significantly across space and time, exhibiting multiple distinct patterns that challenge predictive modeling. Assigning to a single machine learning model specialized in a particular data distribution the task of handling such variations often leads to failure, since such a model may not capture the diverse patterns across different spatial and temporal regions. Traditional ensemble methods, which rely on the complementary use of multiple base models, often suffer from high execution costs and suboptimal performance when dealing with ST data due to the difficulty of accurately combining the contribution of each model. In contrast, relying on a single globally trained model is frequently challenging due to several limitations: the potential lack of sufficient data, the increased complexity and difficulty in training it in comparison to local models, and the inefficiency of training a new generalist model when effective specialist models already exist. To address this challenge, we propose a more suited approach that considers each available model’s training data and their generalization error as well as the target data distributions to optimize predictive accuracy, selecting for each set of time series the most adequate model. Based on these principles, we propose StreamEnsemble, a method that implements the proposed approach. Our experimental evaluation reveals that StreamEnsemble significantly outperforms traditional ensemble methods and single-model approaches in terms of accuracy and time, demonstrating for stream data a significant reduction in prediction error of more than 10 times. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-11-28 2025-01-30T18:14:15Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
SILVA, Anderson Chaves da. Stream Ensemble: a ml model selection algorithm for stream data. Petrópolis, RJ, 2024. 81 f. Tese (Doutorado em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2024. https://tede.lncc.br/handle/tede/408 |
| identifier_str_mv |
SILVA, Anderson Chaves da. Stream Ensemble: a ml model selection algorithm for stream data. Petrópolis, RJ, 2024. 81 f. Tese (Doutorado em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2024. |
| url |
https://tede.lncc.br/handle/tede/408 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de pós-graduação em Modelagem Computacional |
| publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de pós-graduação em Modelagem Computacional |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do LNCC instname:Laboratório Nacional de Computação Científica (LNCC) instacron:LNCC |
| instname_str |
Laboratório Nacional de Computação Científica (LNCC) |
| instacron_str |
LNCC |
| institution |
LNCC |
| reponame_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
| collection |
Biblioteca Digital de Teses e Dissertações do LNCC |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC) |
| repository.mail.fl_str_mv |
library@lncc.br||library@lncc.br |
| _version_ |
1832738028540395520 |