Providing support to uncovering I/O usage in HPC platforms
| Ano de defesa: | 2022 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Link de acesso: | http://hdl.handle.net/10183/248301 |
Resumo: | Plataformas de Processamento de Alto Desempenho (PAD) são necessárias para resolver os mais diversos problemas científicos de grande escala em várias áreas de pesquisa, tais como biologia, química, física e ciências da saúde. Pesquisadores utilizam uma infinidade de aplicações científicas, que por sua vez possuem diferentes requisitos. Dentre esses re quisitos estão as operações de entrada e saída, que impactam diretamente o desempenho devido a diferença de velocidade existente entre o processamento e o acesso aos dados. Dessa forma, os supercomputadores devem lidar de forma eficiente com uma carga de trabalho mista ao armazenar os dados utilizados pelas aplicações. O entendimento do conjunto de aplicações e seus desempenhos ao executar em um supercomputador é pri mordial para entender a utilização do sistema de armazenamento, identificando possíveis gargalos, e orientando técnicas de otimização. Essa dissertação propõe uma metodologia e uma ferramenta de visualização para avaliar o desempenho da infraestrutura de arma zenamento de dados de um supercomputador, levando em consideração as demandas e cargas de trabalho diversas do sistema durante um longo período de operação. Como estudo de caso, o supercomputador Santos Dumont foi estudado. Com a ajuda de nossa metodologia, identificamos uso ineficiente e fatores de desempenho problemáticos, como: (I) o sistema recebeu uma enorme quantidade de operações de leitura ineficientes, abaixo de 100 KiB por 75% do tempo; (II) desequilíbrio entre os recursos de armazenamento, onde a sobrecarga pode corresponder a 3× a carga média; e (III) alta demanda por ope rações de metadados, representando 60% de todas as operações do sistema de arquivos. Também fornecemos algumas diretrizes sobre como lidar com esses problemas. |
| id |
URGS_375e8ea7066ba65ceac403ffedc1e496 |
|---|---|
| oai_identifier_str |
oai:www.lume.ufrgs.br:10183/248301 |
| network_acronym_str |
URGS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| repository_id_str |
|
| spelling |
Carneiro, André RamosNavaux, Philippe Olivier AlexandreOsthoff, Carla2022-08-31T04:55:26Z2022http://hdl.handle.net/10183/248301001148717Plataformas de Processamento de Alto Desempenho (PAD) são necessárias para resolver os mais diversos problemas científicos de grande escala em várias áreas de pesquisa, tais como biologia, química, física e ciências da saúde. Pesquisadores utilizam uma infinidade de aplicações científicas, que por sua vez possuem diferentes requisitos. Dentre esses re quisitos estão as operações de entrada e saída, que impactam diretamente o desempenho devido a diferença de velocidade existente entre o processamento e o acesso aos dados. Dessa forma, os supercomputadores devem lidar de forma eficiente com uma carga de trabalho mista ao armazenar os dados utilizados pelas aplicações. O entendimento do conjunto de aplicações e seus desempenhos ao executar em um supercomputador é pri mordial para entender a utilização do sistema de armazenamento, identificando possíveis gargalos, e orientando técnicas de otimização. Essa dissertação propõe uma metodologia e uma ferramenta de visualização para avaliar o desempenho da infraestrutura de arma zenamento de dados de um supercomputador, levando em consideração as demandas e cargas de trabalho diversas do sistema durante um longo período de operação. Como estudo de caso, o supercomputador Santos Dumont foi estudado. Com a ajuda de nossa metodologia, identificamos uso ineficiente e fatores de desempenho problemáticos, como: (I) o sistema recebeu uma enorme quantidade de operações de leitura ineficientes, abaixo de 100 KiB por 75% do tempo; (II) desequilíbrio entre os recursos de armazenamento, onde a sobrecarga pode corresponder a 3× a carga média; e (III) alta demanda por ope rações de metadados, representando 60% de todas as operações do sistema de arquivos. Também fornecemos algumas diretrizes sobre como lidar com esses problemas.High-Performance Computing (HPC) platforms are required to solve the most diverse large-scale scientific problems in various research areas, such as biology, chemistry, physics, and health sciences. Researchers use a multitude of scientific software, which have dif ferent requirements. These include input and output operations, directly impacting per formance because the existing difference in processing and data access speeds. Thus, supercomputers must efficiently handle a mixed workload when storing data from the ap plications. Understanding the set of applications and their performance running in a super computer is paramount to understanding the storage system’s usage, pinpointing possible bottlenecks, and guiding optimization techniques. This research proposes a methodology and visualization tool to evaluate a supercomputer’s data storage infrastructure’s perfor mance, taking into account the diverse workload and demands of the system over a long period of operation. We used the Santos Dumont supercomputer as a study case. With our methodology’s help, we identified inefficient usage and problematic performance factors, such as: (I) the system received an enormous amount of inefficient read operations, below 100 KiB for 75% of the time; (II) imbalance among storage resources, where the overload can correspond to 3× the average load; and (III) high demand for metadata operations, accounting for 60% of all file system operations. We also provide some guidelines on how to tackle those issues.application/pdfporProcessamento : Alto desempenhoVisualizaçãoArquivos paralelosVisualizationLustreParallel File SystemHigh-Performance StorageI/O WorkloadI/O CharacterizationMetadataProviding support to uncovering I/O usage in HPC platformsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2022mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001148717.pdf.txt001148717.pdf.txtExtracted Texttext/plain189100http://www.lume.ufrgs.br/bitstream/10183/248301/2/001148717.pdf.txt074e87dca94ab484b90f894af7c99ad7MD52ORIGINAL001148717.pdfTexto completo (inglês)application/pdf17250063http://www.lume.ufrgs.br/bitstream/10183/248301/1/001148717.pdffb97a639eac24fe8f862d3f8c480d440MD5110183/2483012022-09-01 05:00:53.449599oai:www.lume.ufrgs.br:10183/248301Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532022-09-01T08:00:53Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
| dc.title.pt_BR.fl_str_mv |
Providing support to uncovering I/O usage in HPC platforms |
| title |
Providing support to uncovering I/O usage in HPC platforms |
| spellingShingle |
Providing support to uncovering I/O usage in HPC platforms Carneiro, André Ramos Processamento : Alto desempenho Visualização Arquivos paralelos Visualization Lustre Parallel File System High-Performance Storage I/O Workload I/O Characterization Metadata |
| title_short |
Providing support to uncovering I/O usage in HPC platforms |
| title_full |
Providing support to uncovering I/O usage in HPC platforms |
| title_fullStr |
Providing support to uncovering I/O usage in HPC platforms |
| title_full_unstemmed |
Providing support to uncovering I/O usage in HPC platforms |
| title_sort |
Providing support to uncovering I/O usage in HPC platforms |
| author |
Carneiro, André Ramos |
| author_facet |
Carneiro, André Ramos |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Carneiro, André Ramos |
| dc.contributor.advisor1.fl_str_mv |
Navaux, Philippe Olivier Alexandre |
| dc.contributor.advisor-co1.fl_str_mv |
Osthoff, Carla |
| contributor_str_mv |
Navaux, Philippe Olivier Alexandre Osthoff, Carla |
| dc.subject.por.fl_str_mv |
Processamento : Alto desempenho Visualização Arquivos paralelos |
| topic |
Processamento : Alto desempenho Visualização Arquivos paralelos Visualization Lustre Parallel File System High-Performance Storage I/O Workload I/O Characterization Metadata |
| dc.subject.eng.fl_str_mv |
Visualization Lustre Parallel File System High-Performance Storage I/O Workload I/O Characterization Metadata |
| description |
Plataformas de Processamento de Alto Desempenho (PAD) são necessárias para resolver os mais diversos problemas científicos de grande escala em várias áreas de pesquisa, tais como biologia, química, física e ciências da saúde. Pesquisadores utilizam uma infinidade de aplicações científicas, que por sua vez possuem diferentes requisitos. Dentre esses re quisitos estão as operações de entrada e saída, que impactam diretamente o desempenho devido a diferença de velocidade existente entre o processamento e o acesso aos dados. Dessa forma, os supercomputadores devem lidar de forma eficiente com uma carga de trabalho mista ao armazenar os dados utilizados pelas aplicações. O entendimento do conjunto de aplicações e seus desempenhos ao executar em um supercomputador é pri mordial para entender a utilização do sistema de armazenamento, identificando possíveis gargalos, e orientando técnicas de otimização. Essa dissertação propõe uma metodologia e uma ferramenta de visualização para avaliar o desempenho da infraestrutura de arma zenamento de dados de um supercomputador, levando em consideração as demandas e cargas de trabalho diversas do sistema durante um longo período de operação. Como estudo de caso, o supercomputador Santos Dumont foi estudado. Com a ajuda de nossa metodologia, identificamos uso ineficiente e fatores de desempenho problemáticos, como: (I) o sistema recebeu uma enorme quantidade de operações de leitura ineficientes, abaixo de 100 KiB por 75% do tempo; (II) desequilíbrio entre os recursos de armazenamento, onde a sobrecarga pode corresponder a 3× a carga média; e (III) alta demanda por ope rações de metadados, representando 60% de todas as operações do sistema de arquivos. Também fornecemos algumas diretrizes sobre como lidar com esses problemas. |
| publishDate |
2022 |
| dc.date.accessioned.fl_str_mv |
2022-08-31T04:55:26Z |
| dc.date.issued.fl_str_mv |
2022 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/248301 |
| dc.identifier.nrb.pt_BR.fl_str_mv |
001148717 |
| url |
http://hdl.handle.net/10183/248301 |
| identifier_str_mv |
001148717 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
| instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
| instacron_str |
UFRGS |
| institution |
UFRGS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/248301/2/001148717.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/248301/1/001148717.pdf |
| bitstream.checksum.fl_str_mv |
074e87dca94ab484b90f894af7c99ad7 fb97a639eac24fe8f862d3f8c480d440 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
| repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
| _version_ |
1831316140179062784 |