Dynamic tuning and reconfiguration of the I/O forwarding layer in HPC platforms

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Bez, Jean Luca
Orientador(a): Navaux, Philippe Olivier Alexandre
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/223297
Resumo: As operações de entrada e saída (E/S) são um gargalo para um número crescente de aplicativos em plataformas de Processamento de Alto Desempenho (PAD). Além disso, tem o potencial de impactar criticamente o desempenho da próxima geração de supercomputadores. As técnicas de otimização de E/S podem melhorar o desempenho para configurações específicas do sistema e para alguns padrões de acesso das aplicações, mas não para todos eles. Chamamos o padrão de acesso a maneira como uma aplicação executa suas operações de E/S. Essas técnicas freqüentemente dependem do ajuste preciso dos parâmetros, que normalmente recai sobre os usuários. Em tais sistemas de grande escala, temos um conjunto de aplicações em execução com características e demandas distintas. Portanto, para melhorar o desempenho global, é essencial adaptar o sistema a uma carga de trabalho que está sempre em constante mudança de forma dinâmica. Neste trabalho, buscamos guiar estratégias de otimização e reconfiguração identificando o padrão de acesso de E/S da aplicação. Avaliamos três técnicas de aprendizado de máquina para automaticamente detectar esses padrões em tempo de execução: árvores de decisão, florestas aleatórias e redes neurais. Utilizando o padrão detectado, propomos uma estratégia de reconfiguração que utiliza uma técnica de aprendizado por reforço (bandidos contextuais) para tornar o sistema capaz de aprender o melhor valor de parâmetro para cada padrão de acesso observado durante sua execução. Isso elimina a necessidade de uma fase anterior de treinamento complicada e demorada. Finalmente, argumentamos a favor de uma alocação dinâmica e sob demanda de nós de E/S considerando as características de E/S da aplicação. Mostramos que a aplicação global da camada de encaminhamento combinada com a política de alocação estática existente baseada exclusivamente no tamanho do aplicativo deve ser dinâmica e considerar os padrões de acesso dos aplicativos para melhorar o desempenho global. Apresentamos uma solução de encaminhamento de E/S em nível de usuário chamada GekkoFWD que não requer modificações nas aplicações e permite um remapeamento dinâmico de recursos de encaminhamento para nós de computação. Propusemos uma nova política de alocação de encaminhamento baseada no problema da mochila de múltipla escolha. Demonstramos a aplicabilidade de nossa política dinâmica MCKP para arbitrar nós de E/S por meio de extensa avaliação e experimentação. Mostramos que tal solução pode melhorar, de forma transparente, a largura de banda de E/S global em até 23 em comparação com a política estática existente.
id URGS_7556e9b0241ed4d84dc0c8c35de15503
oai_identifier_str oai:www.lume.ufrgs.br:10183/223297
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Bez, Jean LucaNavaux, Philippe Olivier AlexandreRosseló, Antonio Cortés2021-07-06T04:47:09Z2021http://hdl.handle.net/10183/223297001127726As operações de entrada e saída (E/S) são um gargalo para um número crescente de aplicativos em plataformas de Processamento de Alto Desempenho (PAD). Além disso, tem o potencial de impactar criticamente o desempenho da próxima geração de supercomputadores. As técnicas de otimização de E/S podem melhorar o desempenho para configurações específicas do sistema e para alguns padrões de acesso das aplicações, mas não para todos eles. Chamamos o padrão de acesso a maneira como uma aplicação executa suas operações de E/S. Essas técnicas freqüentemente dependem do ajuste preciso dos parâmetros, que normalmente recai sobre os usuários. Em tais sistemas de grande escala, temos um conjunto de aplicações em execução com características e demandas distintas. Portanto, para melhorar o desempenho global, é essencial adaptar o sistema a uma carga de trabalho que está sempre em constante mudança de forma dinâmica. Neste trabalho, buscamos guiar estratégias de otimização e reconfiguração identificando o padrão de acesso de E/S da aplicação. Avaliamos três técnicas de aprendizado de máquina para automaticamente detectar esses padrões em tempo de execução: árvores de decisão, florestas aleatórias e redes neurais. Utilizando o padrão detectado, propomos uma estratégia de reconfiguração que utiliza uma técnica de aprendizado por reforço (bandidos contextuais) para tornar o sistema capaz de aprender o melhor valor de parâmetro para cada padrão de acesso observado durante sua execução. Isso elimina a necessidade de uma fase anterior de treinamento complicada e demorada. Finalmente, argumentamos a favor de uma alocação dinâmica e sob demanda de nós de E/S considerando as características de E/S da aplicação. Mostramos que a aplicação global da camada de encaminhamento combinada com a política de alocação estática existente baseada exclusivamente no tamanho do aplicativo deve ser dinâmica e considerar os padrões de acesso dos aplicativos para melhorar o desempenho global. Apresentamos uma solução de encaminhamento de E/S em nível de usuário chamada GekkoFWD que não requer modificações nas aplicações e permite um remapeamento dinâmico de recursos de encaminhamento para nós de computação. Propusemos uma nova política de alocação de encaminhamento baseada no problema da mochila de múltipla escolha. Demonstramos a aplicabilidade de nossa política dinâmica MCKP para arbitrar nós de E/S por meio de extensa avaliação e experimentação. Mostramos que tal solução pode melhorar, de forma transparente, a largura de banda de E/S global em até 23 em comparação com a política estática existente.Input and output (I/O) operations are a bottleneck for an increasing number of applications in High-Performance Computing (HPC) platforms. Furthermore, it has the potential of critically impacting performance on the next generation of supercomputers. I/O optimization techniques can provide improvements for specific system configurations and application access patterns, but not for all of them. We call the access pattern the way an application performs its I/O operations. These techniques frequently rely on the precise tune of parameters, which commonly falls back to the users. In such large scale systems, we have an ever-changing application set running with distinct characteristics and demands. Hence, to improve performance successfully, it is essential to adapt the system to a changing workload dynamically. In this work, we seek to guide optimization and tuning strategies by identifying the application’s I/O access pattern. We evaluate three machine learning techniques to detect such patterns at runtime automatically: decision trees, random forests, and neural networks. Using the detected pattern, we propose a tuning strategy that uses a reinforcement learning technique (contextual bandits) to make the system capable of learning the best parameter value to each observed access pattern during its execution. That eliminates the need for a complicated and time-consuming previous training phase. Finally, we argue in favor of a dynamic on-demand allocation of I/O nodes considering the application’s I/O characteristics. We show that the forwarding layer’s global deployment combined with the existing static allocation policy based solely on application size should instead be dynamic and consider the applications’ access patterns to improve global performance. We presented a user-level I/O forwarding solution named GekkoFWD that does not require application modifications and allows a dynamic remapping of forwarding resources to compute nodes. We proposed a novel I/O forwarding allocation policy based on the Multiple-Choice Knapsack Problem. We demonstrate our dynamic MCKP policy’s applicability to arbitrate I/O nodes through extensive evaluation and experimentation. We show it could transparently improve global I/O bandwidth by up to 23 compared to the existing static policy.application/pdfengProcessamento : Alto desempenhoAprendizado : máquinaSupercomputadoresHigh performance I/OParallel I/OI/O ForwardingI/O SchedulingDynamic tuningDynamic reconfigurationDynamic tuning and reconfiguration of the I/O forwarding layer in HPC platformsAdaptação e reconfiguração dinâmicas da camada de encaminhamento de E/S em plataformas HPC info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2021doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001127726.pdf.txt001127726.pdf.txtExtracted Texttext/plain325685http://www.lume.ufrgs.br/bitstream/10183/223297/2/001127726.pdf.txt0a39e1fefb20a184fc8c2b5fc23fe334MD52ORIGINAL001127726.pdfTexto completo (inglês)application/pdf2112165http://www.lume.ufrgs.br/bitstream/10183/223297/1/001127726.pdf5acb7c8651c0e2e7027c0fd5495ebc1cMD5110183/2232972021-08-18 04:51:47.937153oai:www.lume.ufrgs.br:10183/223297Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532021-08-18T07:51:47Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Dynamic tuning and reconfiguration of the I/O forwarding layer in HPC platforms
dc.title.alternative.pt.fl_str_mv Adaptação e reconfiguração dinâmicas da camada de encaminhamento de E/S em plataformas HPC
title Dynamic tuning and reconfiguration of the I/O forwarding layer in HPC platforms
spellingShingle Dynamic tuning and reconfiguration of the I/O forwarding layer in HPC platforms
Bez, Jean Luca
Processamento : Alto desempenho
Aprendizado : máquina
Supercomputadores
High performance I/O
Parallel I/O
I/O Forwarding
I/O Scheduling
Dynamic tuning
Dynamic reconfiguration
title_short Dynamic tuning and reconfiguration of the I/O forwarding layer in HPC platforms
title_full Dynamic tuning and reconfiguration of the I/O forwarding layer in HPC platforms
title_fullStr Dynamic tuning and reconfiguration of the I/O forwarding layer in HPC platforms
title_full_unstemmed Dynamic tuning and reconfiguration of the I/O forwarding layer in HPC platforms
title_sort Dynamic tuning and reconfiguration of the I/O forwarding layer in HPC platforms
author Bez, Jean Luca
author_facet Bez, Jean Luca
author_role author
dc.contributor.author.fl_str_mv Bez, Jean Luca
dc.contributor.advisor1.fl_str_mv Navaux, Philippe Olivier Alexandre
dc.contributor.advisor-co1.fl_str_mv Rosseló, Antonio Cortés
contributor_str_mv Navaux, Philippe Olivier Alexandre
Rosseló, Antonio Cortés
dc.subject.por.fl_str_mv Processamento : Alto desempenho
Aprendizado : máquina
Supercomputadores
topic Processamento : Alto desempenho
Aprendizado : máquina
Supercomputadores
High performance I/O
Parallel I/O
I/O Forwarding
I/O Scheduling
Dynamic tuning
Dynamic reconfiguration
dc.subject.eng.fl_str_mv High performance I/O
Parallel I/O
I/O Forwarding
I/O Scheduling
Dynamic tuning
Dynamic reconfiguration
description As operações de entrada e saída (E/S) são um gargalo para um número crescente de aplicativos em plataformas de Processamento de Alto Desempenho (PAD). Além disso, tem o potencial de impactar criticamente o desempenho da próxima geração de supercomputadores. As técnicas de otimização de E/S podem melhorar o desempenho para configurações específicas do sistema e para alguns padrões de acesso das aplicações, mas não para todos eles. Chamamos o padrão de acesso a maneira como uma aplicação executa suas operações de E/S. Essas técnicas freqüentemente dependem do ajuste preciso dos parâmetros, que normalmente recai sobre os usuários. Em tais sistemas de grande escala, temos um conjunto de aplicações em execução com características e demandas distintas. Portanto, para melhorar o desempenho global, é essencial adaptar o sistema a uma carga de trabalho que está sempre em constante mudança de forma dinâmica. Neste trabalho, buscamos guiar estratégias de otimização e reconfiguração identificando o padrão de acesso de E/S da aplicação. Avaliamos três técnicas de aprendizado de máquina para automaticamente detectar esses padrões em tempo de execução: árvores de decisão, florestas aleatórias e redes neurais. Utilizando o padrão detectado, propomos uma estratégia de reconfiguração que utiliza uma técnica de aprendizado por reforço (bandidos contextuais) para tornar o sistema capaz de aprender o melhor valor de parâmetro para cada padrão de acesso observado durante sua execução. Isso elimina a necessidade de uma fase anterior de treinamento complicada e demorada. Finalmente, argumentamos a favor de uma alocação dinâmica e sob demanda de nós de E/S considerando as características de E/S da aplicação. Mostramos que a aplicação global da camada de encaminhamento combinada com a política de alocação estática existente baseada exclusivamente no tamanho do aplicativo deve ser dinâmica e considerar os padrões de acesso dos aplicativos para melhorar o desempenho global. Apresentamos uma solução de encaminhamento de E/S em nível de usuário chamada GekkoFWD que não requer modificações nas aplicações e permite um remapeamento dinâmico de recursos de encaminhamento para nós de computação. Propusemos uma nova política de alocação de encaminhamento baseada no problema da mochila de múltipla escolha. Demonstramos a aplicabilidade de nossa política dinâmica MCKP para arbitrar nós de E/S por meio de extensa avaliação e experimentação. Mostramos que tal solução pode melhorar, de forma transparente, a largura de banda de E/S global em até 23 em comparação com a política estática existente.
publishDate 2021
dc.date.accessioned.fl_str_mv 2021-07-06T04:47:09Z
dc.date.issued.fl_str_mv 2021
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/223297
dc.identifier.nrb.pt_BR.fl_str_mv 001127726
url http://hdl.handle.net/10183/223297
identifier_str_mv 001127726
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/223297/2/001127726.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/223297/1/001127726.pdf
bitstream.checksum.fl_str_mv 0a39e1fefb20a184fc8c2b5fc23fe334
5acb7c8651c0e2e7027c0fd5495ebc1c
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1831316115555352576