Latency-aware self-adaptive micro-batching techniques for GPU-accelerated stream processing

Leonarczyk, Ricardo Maciel

Latency-aware self-adaptive micro-batching techniques for GPU-accelerated stream processing

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Leonarczyk, Ricardo Maciel
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Pontifícia Universidade Católica do Rio Grande do Sul Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Stream Processing Micro-batching Multicores GPUs Processamento de Streaming CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
Link de acesso:	https://tede2.pucrs.br/tede2/handle/tede/11639
Resumo:	Stream processing plays a vital role in applications that require continuous, lowlatency data processing. Thanks to their extensive parallel processing capabilities and relatively low cost, GPUs are well-suited to scenarios where such applications require substantial computational resources. However, micro-batching becomes essential for efficient GPU computation within stream processing systems. Micro-batching introduces the challenge of finding appropriate batch sizes to maintain an adequate level of service, particularly in cases where stream processing applications experience fluctuations in input rate and workload. Addressing this challenge requires adjusting the batch size at runtime, which can be done by using self-adaptation. In this thesis, we evaluated a set of existing and proposed self-adaptive algorithms for micro-batch size adaptation using a new GPU-accelerated stream processing application. Furthermore, we proposed a new set of metrics to help rank and compare the adaptation algorithms among themselves in terms of quality of service from different perspectives. The findings indicate that the tested application and its highly dynamic workload proved challenging for the existing algorithms previously evaluated in related work, making them 33% less effective in maintaining micro-batch latency for the most strict latency requirements. Among themselves, the algorithms attained comparable performance in maintaining latency within acceptable levels in the perspective of the stream data items. Furthermore, given the right set of parameters, one of our proposed algorithms could stay 40% closer to the target latency than others due to its ability to combine batch size fine-tuning and reactivity.

Metadados do item

id	P_RS_c1697f37574158c4d58b3b9fe73a6a40
oai_identifier_str	oai:tede2.pucrs.br:tede/11639
network_acronym_str	P_RS
network_name_str	Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling	Latency-aware self-adaptive micro-batching techniques for GPU-accelerated stream processingTécnicas de micro-batching autoadaptáveis e sensíveis à latência para processamento em streaming acelerado por GPUStream ProcessingMicro-batchingMulticoresGPUsProcessamento de StreamingCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOStream processing plays a vital role in applications that require continuous, lowlatency data processing. Thanks to their extensive parallel processing capabilities and relatively low cost, GPUs are well-suited to scenarios where such applications require substantial computational resources. However, micro-batching becomes essential for efficient GPU computation within stream processing systems. Micro-batching introduces the challenge of finding appropriate batch sizes to maintain an adequate level of service, particularly in cases where stream processing applications experience fluctuations in input rate and workload. Addressing this challenge requires adjusting the batch size at runtime, which can be done by using self-adaptation. In this thesis, we evaluated a set of existing and proposed self-adaptive algorithms for micro-batch size adaptation using a new GPU-accelerated stream processing application. Furthermore, we proposed a new set of metrics to help rank and compare the adaptation algorithms among themselves in terms of quality of service from different perspectives. The findings indicate that the tested application and its highly dynamic workload proved challenging for the existing algorithms previously evaluated in related work, making them 33% less effective in maintaining micro-batch latency for the most strict latency requirements. Among themselves, the algorithms attained comparable performance in maintaining latency within acceptable levels in the perspective of the stream data items. Furthermore, given the right set of parameters, one of our proposed algorithms could stay 40% closer to the target latency than others due to its ability to combine batch size fine-tuning and reactivity.O processamento de streaming desempenha um papel vital em aplicações que exigem processamento contínuo de dados com baixa latência. Graças às suas extensas capacidades de processamento paralelo e custo relativamente baixo, as GPUs mostramse adequadas para cenários nos quais tais aplicações requerem recursos computacionais substanciais. No entanto, o processamento em microlote torna-se essencial para uma computação eficiente em GPUs integradas a sistemas de processamento de streaming. O processamento em microlote introduz o desafio de encontrar tamanhos de lote apropriados para manter um nível de serviço adequado, especialmente em casos nos quais as aplicações de streaming enfrentam flutuações na taxa de entrada e carga de trabalho. Abordar esse desafio requer o ajuste do tamanho do lote em tempo de execução, o que pode ser feito por meio de autoadaptação. Nesta dissertação, avaliamos um conjunto de algoritmos autoadaptativos existentes e propostos para adaptação do tamanho do lote usando uma nova aplicação de processamento de streaming acelerada por GPU. Além disso, propomos um novo conjunto de métricas para ajudar a classificar e comparar os algoritmos de adaptação entre si em termos de qualidade de serviço sob diferentes perspectivas. Os resultados indicam que a aplicação testada e sua carga de trabalho altamente dinâmica representaram um desafio para algoritmos previamente avaliados em trabalhos relacionados, tornando-os 33% menos eficazes na manutenção da latência de microlote dentro dos requisitos de latência mais rigorosos. Os algoritmos atingiram um desempenho comparável na manutenção da latência dentro de níveis aceitáveis, na perspectiva dos elementos do stream. Além disso, com o conjunto certo de parâmetros, um de nossos algoritmos propostos pôde permanecer 40% mais próximo da latência alvo do que os outros algoritmos testados, devido à sua capacidade de combinar ajuste fino do tamanho do lote com reatividade.Pontifícia Universidade Católica do Rio Grande do SulEscola PolitécnicaBrasilPUCRSPrograma de Pós-Graduação em Ciência da ComputaçãoGriebler, Dalvan Jairhttp://lattes.cnpq.br/1989039890812573Leonarczyk, Ricardo Maciel2025-05-28T14:22:58Z2024-01-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://tede2.pucrs.br/tede2/handle/tede/11639enginfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RS2025-05-28T15:01:20Zoai:tede2.pucrs.br:tede/11639Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br\|\|opendoar:2025-05-28T15:01:20Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.none.fl_str_mv	Latency-aware self-adaptive micro-batching techniques for GPU-accelerated stream processing Técnicas de micro-batching autoadaptáveis e sensíveis à latência para processamento em streaming acelerado por GPU
title	Latency-aware self-adaptive micro-batching techniques for GPU-accelerated stream processing
spellingShingle	Latency-aware self-adaptive micro-batching techniques for GPU-accelerated stream processing Leonarczyk, Ricardo Maciel Stream Processing Micro-batching Multicores GPUs Processamento de Streaming CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
title_short	Latency-aware self-adaptive micro-batching techniques for GPU-accelerated stream processing
title_full	Latency-aware self-adaptive micro-batching techniques for GPU-accelerated stream processing
title_fullStr	Latency-aware self-adaptive micro-batching techniques for GPU-accelerated stream processing
title_full_unstemmed	Latency-aware self-adaptive micro-batching techniques for GPU-accelerated stream processing
title_sort	Latency-aware self-adaptive micro-batching techniques for GPU-accelerated stream processing
author	Leonarczyk, Ricardo Maciel
author_facet	Leonarczyk, Ricardo Maciel
author_role	author
dc.contributor.none.fl_str_mv	Griebler, Dalvan Jair http://lattes.cnpq.br/1989039890812573
dc.contributor.author.fl_str_mv	Leonarczyk, Ricardo Maciel
dc.subject.por.fl_str_mv	Stream Processing Micro-batching Multicores GPUs Processamento de Streaming CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
topic	Stream Processing Micro-batching Multicores GPUs Processamento de Streaming CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
description	Stream processing plays a vital role in applications that require continuous, lowlatency data processing. Thanks to their extensive parallel processing capabilities and relatively low cost, GPUs are well-suited to scenarios where such applications require substantial computational resources. However, micro-batching becomes essential for efficient GPU computation within stream processing systems. Micro-batching introduces the challenge of finding appropriate batch sizes to maintain an adequate level of service, particularly in cases where stream processing applications experience fluctuations in input rate and workload. Addressing this challenge requires adjusting the batch size at runtime, which can be done by using self-adaptation. In this thesis, we evaluated a set of existing and proposed self-adaptive algorithms for micro-batch size adaptation using a new GPU-accelerated stream processing application. Furthermore, we proposed a new set of metrics to help rank and compare the adaptation algorithms among themselves in terms of quality of service from different perspectives. The findings indicate that the tested application and its highly dynamic workload proved challenging for the existing algorithms previously evaluated in related work, making them 33% less effective in maintaining micro-batch latency for the most strict latency requirements. Among themselves, the algorithms attained comparable performance in maintaining latency within acceptable levels in the perspective of the stream data items. Furthermore, given the right set of parameters, one of our proposed algorithms could stay 40% closer to the target latency than others due to its ability to combine batch size fine-tuning and reactivity.
publishDate	2024
dc.date.none.fl_str_mv	2024-01-08 2025-05-28T14:22:58Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://tede2.pucrs.br/tede2/handle/tede/11639
url	https://tede2.pucrs.br/tede2/handle/tede/11639
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Pontifícia Universidade Católica do Rio Grande do Sul Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação
publisher.none.fl_str_mv	Pontifícia Universidade Católica do Rio Grande do Sul Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS
instname_str	Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str	PUC_RS
institution	PUC_RS
reponame_str	Biblioteca Digital de Teses e Dissertações da PUC_RS
collection	Biblioteca Digital de Teses e Dissertações da PUC_RS
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv	biblioteca.central@pucrs.br\|\|
_version_	1850041318915440640

Latency-aware self-adaptive micro-batching techniques for GPU-accelerated stream processing

Registros relacionados