The design and implementation of query execution in modern processing-in-memory hardware

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Kepe, Tiago Rodrigo, 1985-
Orientador(a): Almeida, Eduardo Cunha de, 1977-
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/1884/65726
Resumo: Orientador: Prof. Dr. Eduardo Cunha de Almeida
id UFPR_bb7e07f675a6b37510c78d63a0f1a56e
oai_identifier_str oai:acervodigital.ufpr.br:1884/65726
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str
spelling Kepe, Tiago Rodrigo, 1985-Alves, Marco Antonio Zanata, 1984-Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaAlmeida, Eduardo Cunha de, 1977-2021-12-16T10:55:05Z2021-12-16T10:55:05Z2019https://hdl.handle.net/1884/65726Orientador: Prof. Dr. Eduardo Cunha de AlmeidaCoorientador: Prof. Dr. Marco Antonio Zanata AlvesTese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 20/12/2019Inclui referências: p. 100-113Área de concentração: Ciência da ComputaçãoResumo: Os sistemas modernos de processamento de consultas foram projetados com base em modelos de arquitetura centrados na computação. No entanto, o rápido crescimento de "big data" intensificou o problema de movimentação de dados ao realizar o processamento analítco de consultas: grandes quantidades de dados precisam passar pela memória até a CPU antes que qualquer computação ocorra. Portanto, esses sistemas são afetados pela movimentação de dados que degrada severamente o desempenho e exige muita energia durante a transferência de dados. Estudos recentes sobre a carga de trabalho do Google mostraram que cerca de 63% de energia é gasta em média na movimentação de dados. Para resolver esse problema oneroso, propomos explorar as arquiteturas Processamento-em-Memória (PIM) que invertem o processamento de dados tradicional, enviando a computação para a memória repercutindo no desempenho e na eficiência energética. Nesta tese, demonstramos empiricamente que a movimentação de dados exerce grande influência nos sistemas de banco de dados atuais e identificamos os principais operadores de consulta que são afetados. Apresentamos um estudo experimental sobre o processamento de operadores de consulta SIMD (Single Instruction Multiple Data) em hardware PIM em comparação com processadores x86 modernos (ou seja, usando as instruções AVX512). Discutimos o tempo de execução e a diferença de eficiência energética entre essas arquiteturas. Este é o primeiro estudo experimental, na comunidade de bancos de dados, a discutir as compensações entre tempo de execução e consumo de energia entre PIM e x86 nos sistemas atuais de execução de consultas: materializado, vetorizado e pipelined. Como resultado, nós introduzimos um novo sistema híbrido de processamento de consultas PIM-x86 SIMD que incita novos desafios e oportunidades. Além disso, também discutimos os resultados de um escalonador de consultas híbridas ao intercalar a execução dos operadores de consultas SIMD entre o hardware de processamento PIM e x86. Em nossos resultados, o plano de consulta híbrido reduziu o tempo de execução em 45%. Também reduziu drasticamente o consumo de energia em mais de 2 vezes em comparação com os planos de consulta específicos para cada hardware. Palavras-chave: Execução de Consulta 1. Processamento em Memória 2. Escalonador de Consulta Híbrido 3. Eficiência Energética.Abstract: Modern query execution systems have been designing upon compute-centric architecture models. However, the rapid growth of "big-data" intensified the problems of data movement, especially for processing analytic applications: Large amounts of data need to move through the memory up to the CPU before any computation takes place. Therefore, analytic database systems still pay for the data movement drawbacks that severely degrades performance and requires much energy during data transferring. Recent studies on Google's workload have shown that almost 63% of energy, on average, is spent in data movement. To tackle this costly problem, we propose to exploit the up-to-date Processing-in-Memory (PIM) architectures that invert the traditional data processing by pushing computation to memory with an impact on performance and energy efficiency. In this thesis, we empirically demonstrate that data movement has an impact on today's database systems yet, and we identify the foremost query operators that undergo it. Therefore, we present an experimental study on processing query Single Instruction Multiple Data (SIMD) operators in PIM compared to the modern x86 processor (i.e., using AVX512 instructions). We discuss the execution time and energy efficiency gap between those architectures. However, this is the first experimental study, in the database community, to discuss the trade-offs of execution time and energy consumption between PIM and x86 in the current query execution models: materialized, vectorized, and pipelined. As a result, a new hybrid PIM-x86 SIMD query execution system is introduced, bringing new challenges and opportunities. Besides, we also discuss the results of a hybrid query scheduler when interleaving the execution of the SIMD query operators between PIM and x86 processing hardware. In our results, the hybrid query plan reduced the execution time by 45%. It also drastically reduced energy consumption by more than 2× compared to hardware-specific query plans. Keywords: Query Execution 1. Processing-in-Memory 2. Hybrid Query Scheduler 3. Energy Efficiency 4.113 p. : PDF.application/pdfGerenciamento de memória (Computaçao)Big dataBanco de dadosCiência da ComputaçãoThe design and implementation of query execution in modern processing-in-memory hardwareinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisengreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - T - TIAGO RODRIGO KEPE.pdfapplication/pdf4520895https://acervodigital.ufpr.br/bitstream/1884/65726/1/R%20-%20T%20-%20TIAGO%20RODRIGO%20KEPE.pdffc966239d63eb6c741d1f2233a6d889dMD51open access1884/657262021-12-16 07:55:05.765open accessoai:acervodigital.ufpr.br:1884/65726Repositório InstitucionalPUBhttp://acervodigital.ufpr.br/oai/requestinformacaodigital@ufpr.bropendoar:3082021-12-16T10:55:05Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv The design and implementation of query execution in modern processing-in-memory hardware
title The design and implementation of query execution in modern processing-in-memory hardware
spellingShingle The design and implementation of query execution in modern processing-in-memory hardware
Kepe, Tiago Rodrigo, 1985-
Gerenciamento de memória (Computaçao)
Big data
Banco de dados
Ciência da Computação
title_short The design and implementation of query execution in modern processing-in-memory hardware
title_full The design and implementation of query execution in modern processing-in-memory hardware
title_fullStr The design and implementation of query execution in modern processing-in-memory hardware
title_full_unstemmed The design and implementation of query execution in modern processing-in-memory hardware
title_sort The design and implementation of query execution in modern processing-in-memory hardware
author Kepe, Tiago Rodrigo, 1985-
author_facet Kepe, Tiago Rodrigo, 1985-
author_role author
dc.contributor.other.pt_BR.fl_str_mv Alves, Marco Antonio Zanata, 1984-
Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática
dc.contributor.author.fl_str_mv Kepe, Tiago Rodrigo, 1985-
dc.contributor.advisor1.fl_str_mv Almeida, Eduardo Cunha de, 1977-
contributor_str_mv Almeida, Eduardo Cunha de, 1977-
dc.subject.por.fl_str_mv Gerenciamento de memória (Computaçao)
Big data
Banco de dados
Ciência da Computação
topic Gerenciamento de memória (Computaçao)
Big data
Banco de dados
Ciência da Computação
description Orientador: Prof. Dr. Eduardo Cunha de Almeida
publishDate 2019
dc.date.issued.fl_str_mv 2019
dc.date.accessioned.fl_str_mv 2021-12-16T10:55:05Z
dc.date.available.fl_str_mv 2021-12-16T10:55:05Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/65726
url https://hdl.handle.net/1884/65726
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 113 p. : PDF.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/65726/1/R%20-%20T%20-%20TIAGO%20RODRIGO%20KEPE.pdf
bitstream.checksum.fl_str_mv fc966239d63eb6c741d1f2233a6d889d
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv informacaodigital@ufpr.br
_version_ 1847526099504857088