Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: AZEVEDO, Alesanco Andrade
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso embargado
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/40912
Resumo: Data Warehouses (DWs) são bancos de dados projetados para favorecer o processamento ana- lítico de grandes volumes de dados. Com o intuito de prover melhor desempenho de armazena- mento e processamento analítico em DWs, sistemas de bancos de dados NewSQL surgem como uma alternativa promissora. Essa classe de banco de dados oferece facilidades para suportar es- calabilidade horizontal, linguagem SQL e armazenamento principal em memória RAM. Existem estudos que analisam o desempenho de distribuições NewSQL em processamento transacional e analítico de dados, contudo, até onde sabemos, não há estudo que analise o impacto do uso de diferentes esquemas de dados, métodos de distribuição e formas de armazenamento no desempenho de um DW implementado em NewSQL. Dessa forma, usando diferentes volumes de dados, propomos uma análise de desempenho em DWs NewSQL comparando diferentes esquemas de dados (esquema estrela e tabela flat), formas de armazenamento (rowstore e columnstore) e métodos de distribuição (replicação e particionamento por round-robin ou por hash). Para alcançar esse objetivo, realizamos uma avaliação experimental de desempenho em DWs, utilizando o Star Schema Benchmark (SSB) e o Sistema Gerenciador de Banco de Dados (SGBD) MemSQL, em estrutura de cluster de 3 computadores. Para a avaliação experimental, utilizamos métricas de volume e desempenho de tempo em tarefas de carga e consultas de dados. A partir dos dados coletados, verificamos que o uso de tabelas flat, armazenamento columnstore e particionamento por chave hash gerou os melhores resultados no tempo médio de consultas, apresentando, contudo, desvantagens no tempo de carga e no volume de dados armazenado. Destacamos ainda que o uso de columnstore, realizado em disco, conseguiu obter melhores resultados em tarefas de consulta, quando comparado rowstore realizado em RAM, diante todos os cenários avaliados.
id UFPE_2e1667aeee6dc24183368e2196ea07e0
oai_identifier_str oai:repositorio.ufpe.br:123456789/40912
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str
spelling Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuiçãoBanco de dadosData warehouseDesempenhoData Warehouses (DWs) são bancos de dados projetados para favorecer o processamento ana- lítico de grandes volumes de dados. Com o intuito de prover melhor desempenho de armazena- mento e processamento analítico em DWs, sistemas de bancos de dados NewSQL surgem como uma alternativa promissora. Essa classe de banco de dados oferece facilidades para suportar es- calabilidade horizontal, linguagem SQL e armazenamento principal em memória RAM. Existem estudos que analisam o desempenho de distribuições NewSQL em processamento transacional e analítico de dados, contudo, até onde sabemos, não há estudo que analise o impacto do uso de diferentes esquemas de dados, métodos de distribuição e formas de armazenamento no desempenho de um DW implementado em NewSQL. Dessa forma, usando diferentes volumes de dados, propomos uma análise de desempenho em DWs NewSQL comparando diferentes esquemas de dados (esquema estrela e tabela flat), formas de armazenamento (rowstore e columnstore) e métodos de distribuição (replicação e particionamento por round-robin ou por hash). Para alcançar esse objetivo, realizamos uma avaliação experimental de desempenho em DWs, utilizando o Star Schema Benchmark (SSB) e o Sistema Gerenciador de Banco de Dados (SGBD) MemSQL, em estrutura de cluster de 3 computadores. Para a avaliação experimental, utilizamos métricas de volume e desempenho de tempo em tarefas de carga e consultas de dados. A partir dos dados coletados, verificamos que o uso de tabelas flat, armazenamento columnstore e particionamento por chave hash gerou os melhores resultados no tempo médio de consultas, apresentando, contudo, desvantagens no tempo de carga e no volume de dados armazenado. Destacamos ainda que o uso de columnstore, realizado em disco, conseguiu obter melhores resultados em tarefas de consulta, quando comparado rowstore realizado em RAM, diante todos os cenários avaliados.Data Warehouses (DWs) are databases designed to favor the analytical processing of large volumes of data. In order to provide better storage performance and analytical processing in DWs, NewSQL database systems appear as a promising alternative. This class of database provides facilities to support scale-out, SQL language and main storage in RAM. There are studies that analyze the performance of NewSQL distributions in transactional and analytical data processing, however, as far as we know, there is no study that analyzes the impact of the use of different data schemes, distribution methods and forms of storage on the perfor- mance of a DW implemented in NewSQL. Thus, using different data volumes, we propose a performance analysis in NewSQL DWs comparing different data schemas (star schema and flat table), storage forms (rowstore and columnstore) and distribution methods (replication and partitioning by round-robin or hash). To achieve this goal, we performed an experimental performance evaluation on DWs, using the Star Schema Benchmark (SSB) and the MemSQL Database Manager System (SGBD), in a cluster structure of 3 computers. For the experi- mental evaluation, we used volume and time performance metrics in loading tasks and data queries. From the data collected, we verified that the use of flat tables, columnstore storage and hash key partitioning generated the best results in the average time of queries, presenting, however, disadvantages in the load time and in the volume of data stored. We also highlight that the use of columnstore, performed on disk, managed to obtain better results in query tasks, when compared to rowstore performed in RAM, given all the evaluated scenarios.Universidade Federal de PernambucoUFPEBrasilPrograma de Pos Graduacao em Ciencia da ComputacaoFIDALGO, Robson do Nascimentohttp://lattes.cnpq.br/7444646402261152http://lattes.cnpq.br/6390018491925933AZEVEDO, Alesanco Andrade2021-08-10T13:44:25Z2021-08-10T13:44:25Z2021-02-26info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfAZEVEDO, Alesanco Andrade. Data warehouse newSQL: uma análise de desempenho explorando estratégias de armazenamento e distribuição. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2021.https://repositorio.ufpe.br/handle/123456789/40912porAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/embargoedAccessreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPE2021-08-11T05:13:59Zoai:repositorio.ufpe.br:123456789/40912Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212021-08-11T05:13:59Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.none.fl_str_mv Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição
title Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição
spellingShingle Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição
AZEVEDO, Alesanco Andrade
Banco de dados
Data warehouse
Desempenho
title_short Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição
title_full Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição
title_fullStr Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição
title_full_unstemmed Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição
title_sort Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição
author AZEVEDO, Alesanco Andrade
author_facet AZEVEDO, Alesanco Andrade
author_role author
dc.contributor.none.fl_str_mv FIDALGO, Robson do Nascimento
http://lattes.cnpq.br/7444646402261152
http://lattes.cnpq.br/6390018491925933
dc.contributor.author.fl_str_mv AZEVEDO, Alesanco Andrade
dc.subject.por.fl_str_mv Banco de dados
Data warehouse
Desempenho
topic Banco de dados
Data warehouse
Desempenho
description Data Warehouses (DWs) são bancos de dados projetados para favorecer o processamento ana- lítico de grandes volumes de dados. Com o intuito de prover melhor desempenho de armazena- mento e processamento analítico em DWs, sistemas de bancos de dados NewSQL surgem como uma alternativa promissora. Essa classe de banco de dados oferece facilidades para suportar es- calabilidade horizontal, linguagem SQL e armazenamento principal em memória RAM. Existem estudos que analisam o desempenho de distribuições NewSQL em processamento transacional e analítico de dados, contudo, até onde sabemos, não há estudo que analise o impacto do uso de diferentes esquemas de dados, métodos de distribuição e formas de armazenamento no desempenho de um DW implementado em NewSQL. Dessa forma, usando diferentes volumes de dados, propomos uma análise de desempenho em DWs NewSQL comparando diferentes esquemas de dados (esquema estrela e tabela flat), formas de armazenamento (rowstore e columnstore) e métodos de distribuição (replicação e particionamento por round-robin ou por hash). Para alcançar esse objetivo, realizamos uma avaliação experimental de desempenho em DWs, utilizando o Star Schema Benchmark (SSB) e o Sistema Gerenciador de Banco de Dados (SGBD) MemSQL, em estrutura de cluster de 3 computadores. Para a avaliação experimental, utilizamos métricas de volume e desempenho de tempo em tarefas de carga e consultas de dados. A partir dos dados coletados, verificamos que o uso de tabelas flat, armazenamento columnstore e particionamento por chave hash gerou os melhores resultados no tempo médio de consultas, apresentando, contudo, desvantagens no tempo de carga e no volume de dados armazenado. Destacamos ainda que o uso de columnstore, realizado em disco, conseguiu obter melhores resultados em tarefas de consulta, quando comparado rowstore realizado em RAM, diante todos os cenários avaliados.
publishDate 2021
dc.date.none.fl_str_mv 2021-08-10T13:44:25Z
2021-08-10T13:44:25Z
2021-02-26
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv AZEVEDO, Alesanco Andrade. Data warehouse newSQL: uma análise de desempenho explorando estratégias de armazenamento e distribuição. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2021.
https://repositorio.ufpe.br/handle/123456789/40912
identifier_str_mv AZEVEDO, Alesanco Andrade. Data warehouse newSQL: uma análise de desempenho explorando estratégias de armazenamento e distribuição. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2021.
url https://repositorio.ufpe.br/handle/123456789/40912
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/embargoedAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv embargoedAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1856041847918428160