Optimizing graph processing execution on NUMA machines

Rocha, Hiago Mayk Gomes de Araújo

Optimizing graph processing execution on NUMA machines

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Rocha, Hiago Mayk Gomes de Araújo
Orientador(a):	Beck Filho, Antonio Carlos Schneider
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Processamento paralelo de grafos Threads Algoritmos Aprendizado de máquina Computação de alto desempenho Computação paralela
Palavras-chave em Inglês:	Thread and data mapping NUMA systems Graphs’ high-level features Single-source graph algorithms
Link de acesso:	http://hdl.handle.net/10183/280326
Resumo:	Nos últimos anos, houve um crescimento sem precedentes de dados interconectados construídos sobre estruturas de dados de grafos, com aplicações de grafos processando grandes quantidades de informações. Algoritmos de grafos, como Breadth-First-Search (BFS) e PageRank (PR), beneficiam diretamente várias áreas, como computação científica, neurociência e análise de redes sociais, executando em servidores de Computação de Alto Desempenho (HPC). Esses sistemas de HPC geralmente são compostos por máquinas de Acesso Não Uniforme à Memória (NUMA), onde o tempo de acesso à memória depende da localização da memória em relação aos núcleos, portanto, o desempenho depende fortemente de como as threads e páginas (dados) são mapeadas para diferentes nós do processador e o número de núcleos ativos. Dada a natureza altamente irregular do padrão de comunicação e a baixa localidade dos dados, o processamento de grafos é mais sensível a essas configurações alternativas, introduzindo desafios adicionais. Portanto, considerando que o mapeamento ideal de threads/dados e o número de threads ativas podem mudar de acordo com o sistema (por exemplo, microarquitetura e número de núcleos), algoritmo de grafos, grafo de entrada ou até mesmo o vértice de origem, escolher adequadamente a configuração ideal não é uma tarefa trivial. Nesse cenário, esta tese propõe novas abordagens para encontrar configurações otimizadas para algoritmos de grafos executando em máquinas NUMA. Para alcançar isso, aproveitamos as características únicas que descrevem a estrutura dos grafos (por exemplo, o número de vértices e coeficiente de agrupamento) para usar em um framework de aprendizado de máquina. Nossos resultados experimentais, considerando diferentes grafos de entrada e algoritmos executados em três máquinas NUMA, e comparando-os com outras abordagens para ajuste do número de threads e mapeamento de threads e dados, revelam a eficácia de nossos métodos propostos em melhorar o tempo de execução do algoritmo, reduzindo significativamente o consumo de energia.

Metadados do item

id	URGS_eff91ebb673caf58c11422b7a2d00f6e
oai_identifier_str	oai:www.lume.ufrgs.br:10183/280326
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling	Rocha, Hiago Mayk Gomes de AraújoBeck Filho, Antonio Carlos Schneider2024-10-22T06:56:25Z2024http://hdl.handle.net/10183/280326001200832Nos últimos anos, houve um crescimento sem precedentes de dados interconectados construídos sobre estruturas de dados de grafos, com aplicações de grafos processando grandes quantidades de informações. Algoritmos de grafos, como Breadth-First-Search (BFS) e PageRank (PR), beneficiam diretamente várias áreas, como computação científica, neurociência e análise de redes sociais, executando em servidores de Computação de Alto Desempenho (HPC). Esses sistemas de HPC geralmente são compostos por máquinas de Acesso Não Uniforme à Memória (NUMA), onde o tempo de acesso à memória depende da localização da memória em relação aos núcleos, portanto, o desempenho depende fortemente de como as threads e páginas (dados) são mapeadas para diferentes nós do processador e o número de núcleos ativos. Dada a natureza altamente irregular do padrão de comunicação e a baixa localidade dos dados, o processamento de grafos é mais sensível a essas configurações alternativas, introduzindo desafios adicionais. Portanto, considerando que o mapeamento ideal de threads/dados e o número de threads ativas podem mudar de acordo com o sistema (por exemplo, microarquitetura e número de núcleos), algoritmo de grafos, grafo de entrada ou até mesmo o vértice de origem, escolher adequadamente a configuração ideal não é uma tarefa trivial. Nesse cenário, esta tese propõe novas abordagens para encontrar configurações otimizadas para algoritmos de grafos executando em máquinas NUMA. Para alcançar isso, aproveitamos as características únicas que descrevem a estrutura dos grafos (por exemplo, o número de vértices e coeficiente de agrupamento) para usar em um framework de aprendizado de máquina. Nossos resultados experimentais, considerando diferentes grafos de entrada e algoritmos executados em três máquinas NUMA, e comparando-os com outras abordagens para ajuste do número de threads e mapeamento de threads e dados, revelam a eficácia de nossos métodos propostos em melhorar o tempo de execução do algoritmo, reduzindo significativamente o consumo de energia.In recent years, there has been an unprecedented growth of interconnected data built on top of graph data structures, with graph applications processing large amounts of information. Graph algorithms, such as Breadth-First-Search (BFS) and PageRank (PR), directly benefit several fields, such as scientific computing, neuroscience, and social network analysis, and execute on High-Performance Computing (HPC) servers. These HPC systems are usually Non-Uniform Memory Access (NUMA) machines, where the memory access time depends on the memory location in relation to the cores, so performance strongly depends on how threads and pages (data) are mapped to different processor nodes, and the number of actives cores. Given their highly irregular communication pattern and poor data locality, graph processing are more sensitive to such alternative configurations, introducing additional challenges. Therefore, considering that the ideal thread/data mapping and number of active threads may change according to the system (e.g., microarchitecture and number of cores), graph algorithm, input graph, or even the source vertex, rightly choosing the ideal configuration is not straightforward. In this scenario, this thesis proposes new approaches to finding such near-optimal configurations for graph algorithms executing on NUMA machines. To achieve that, we leverage the unique features that characterize graph data (e.g., the number of vertices and clustering coefficient) to use in a machine learning framework. Our experimental results, considering different input graphs and algorithms executing on three NUMA machines, and comparing them with other approaches for tuning the number of threads, thread mapping, and/or data mapping, reveal the effectiveness of our proposed methods in improving algorithm execution time while significantly reducing energy consumption.application/pdfengProcessamento paralelo de grafosThreadsAlgoritmosAprendizado de máquinaComputação de alto desempenhoComputação paralelaThread and data mappingNUMA systemsGraphs’ high-level featuresSingle-source graph algorithmsOptimizing graph processing execution on NUMA machinesOtimizando a execução de algoritmos de processamento de grafos em máquinas NUMA info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2024doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001200832.pdf.txt001200832.pdf.txtExtracted Texttext/plain295678http://www.lume.ufrgs.br/bitstream/10183/280326/2/001200832.pdf.txt3ea6c188ca0601a814770437146a88b5MD52ORIGINAL001200832.pdfTexto completo (inglês)application/pdf2660523http://www.lume.ufrgs.br/bitstream/10183/280326/1/001200832.pdf9c4ee28e7a0753793933ce2ea094ece3MD5110183/2803262024-10-23 06:49:22.873793oai:www.lume.ufrgs.br:10183/280326Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532024-10-23T09:49:22Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Optimizing graph processing execution on NUMA machines
dc.title.alternative.pt.fl_str_mv	Otimizando a execução de algoritmos de processamento de grafos em máquinas NUMA
title	Optimizing graph processing execution on NUMA machines
spellingShingle	Optimizing graph processing execution on NUMA machines Rocha, Hiago Mayk Gomes de Araújo Processamento paralelo de grafos Threads Algoritmos Aprendizado de máquina Computação de alto desempenho Computação paralela Thread and data mapping NUMA systems Graphs’ high-level features Single-source graph algorithms
title_short	Optimizing graph processing execution on NUMA machines
title_full	Optimizing graph processing execution on NUMA machines
title_fullStr	Optimizing graph processing execution on NUMA machines
title_full_unstemmed	Optimizing graph processing execution on NUMA machines
title_sort	Optimizing graph processing execution on NUMA machines
author	Rocha, Hiago Mayk Gomes de Araújo
author_facet	Rocha, Hiago Mayk Gomes de Araújo
author_role	author
dc.contributor.author.fl_str_mv	Rocha, Hiago Mayk Gomes de Araújo
dc.contributor.advisor1.fl_str_mv	Beck Filho, Antonio Carlos Schneider
contributor_str_mv	Beck Filho, Antonio Carlos Schneider
dc.subject.por.fl_str_mv	Processamento paralelo de grafos Threads Algoritmos Aprendizado de máquina Computação de alto desempenho Computação paralela
topic	Processamento paralelo de grafos Threads Algoritmos Aprendizado de máquina Computação de alto desempenho Computação paralela Thread and data mapping NUMA systems Graphs’ high-level features Single-source graph algorithms
dc.subject.eng.fl_str_mv	Thread and data mapping NUMA systems Graphs’ high-level features Single-source graph algorithms
description	Nos últimos anos, houve um crescimento sem precedentes de dados interconectados construídos sobre estruturas de dados de grafos, com aplicações de grafos processando grandes quantidades de informações. Algoritmos de grafos, como Breadth-First-Search (BFS) e PageRank (PR), beneficiam diretamente várias áreas, como computação científica, neurociência e análise de redes sociais, executando em servidores de Computação de Alto Desempenho (HPC). Esses sistemas de HPC geralmente são compostos por máquinas de Acesso Não Uniforme à Memória (NUMA), onde o tempo de acesso à memória depende da localização da memória em relação aos núcleos, portanto, o desempenho depende fortemente de como as threads e páginas (dados) são mapeadas para diferentes nós do processador e o número de núcleos ativos. Dada a natureza altamente irregular do padrão de comunicação e a baixa localidade dos dados, o processamento de grafos é mais sensível a essas configurações alternativas, introduzindo desafios adicionais. Portanto, considerando que o mapeamento ideal de threads/dados e o número de threads ativas podem mudar de acordo com o sistema (por exemplo, microarquitetura e número de núcleos), algoritmo de grafos, grafo de entrada ou até mesmo o vértice de origem, escolher adequadamente a configuração ideal não é uma tarefa trivial. Nesse cenário, esta tese propõe novas abordagens para encontrar configurações otimizadas para algoritmos de grafos executando em máquinas NUMA. Para alcançar isso, aproveitamos as características únicas que descrevem a estrutura dos grafos (por exemplo, o número de vértices e coeficiente de agrupamento) para usar em um framework de aprendizado de máquina. Nossos resultados experimentais, considerando diferentes grafos de entrada e algoritmos executados em três máquinas NUMA, e comparando-os com outras abordagens para ajuste do número de threads e mapeamento de threads e dados, revelam a eficácia de nossos métodos propostos em melhorar o tempo de execução do algoritmo, reduzindo significativamente o consumo de energia.
publishDate	2024
dc.date.accessioned.fl_str_mv	2024-10-22T06:56:25Z
dc.date.issued.fl_str_mv	2024
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/280326
dc.identifier.nrb.pt_BR.fl_str_mv	001200832
url	http://hdl.handle.net/10183/280326
identifier_str_mv	001200832
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/280326/2/001200832.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/280326/1/001200832.pdf
bitstream.checksum.fl_str_mv	3ea6c188ca0601a814770437146a88b5 9c4ee28e7a0753793933ce2ea094ece3
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1831316188135686144

Optimizing graph processing execution on NUMA machines

Registros relacionados