Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: MAGALHÃES, Mateus Nunes de Barros
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso embargado
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/45866
Resumo: A crescente demanda por processamento analítico alinhada à expansão dos casos de uso envolvendo Big Data colocou em xeque a capacidade dos bancos de dados relacionais de atenderem essas aplicações sem comprometerem o desempenho das mesmas ou incorrerem em elevados custos financeiros. Assim, os bancos NoSQL se mostraram uma alternativa promissora em razão de relaxarem muitos dos controles de consistência, integridade e transacionais em troca de disponibilidade, capacidade de processamento paralelo e escalabilidade horizontal. Estudos mostraram que os bancos NoSQL orientados a colunas são boas opções para aplicações analíticas em razão do particionamento vertical onde dados são armazenados de forma contígua e com separação física. O planejamento de esquemas para tais bancos foi objeto de diversos trabalhos acadêmicos, os quais, avaliaram os impactos de abordagens ditas normalizadas e desnormalizadas, bem como, a distribuição dos dados entre famílias de colunas, com o intuito de identificar as boas práticas no projeto esquemático. No entanto, não avaliaram cenários envolvendo o armazenamento e a consulta de dados geoespaciais. Vislumbrando tal lacuna, nós investigamos o projeto esquemático bem como a redundância de dados convencionais e geoespaciais em GDWs construídas sob bancos NoSQL orientados a colunas para finalidades analíticas. Propusemos 40 esquemas criados a partir de abordagens para a implementação dos relacionamentos entre a tabela de fatos e as dimensões convencionais, dimensões convencionais e as geoespaciais e entre as próprias geoespaciais. Adoramos o benchmark geográfico denominado Spadawan para geração de bases em conformidade com os esquemas propostos, e para fatores de escala equivalentes a 1 e 10 vezes o tamanho padrão do benchmark. Os esquemas foram avaliados em um cluster computacional rodando o Hadoop, HBase e Spark de acordo com os tempos demandados para a execução de uma carga de consultas, tempos de ingestão dos dados e os volumes ocupados por cada uma deles. Os resultados experimentais mostraram que a desnormalização das dimensões convencionais foi a abordagem que mais contribuiu para a redução dos tempos de execução, apesar de incorrer em bases maiores. A normalização das dimensões geográficas de menor seletividade trouxe impactos positivos, enquanto as mais seletivas não influenciaram significativamente de forma positiva ou negativa.
id UFPE_5ae145cf2eeae6168c8b1b4c0a30b0c6
oai_identifier_str oai:repositorio.ufpe.br:123456789/45866
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str
spelling Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunasBanco de dadosData-warehouseA crescente demanda por processamento analítico alinhada à expansão dos casos de uso envolvendo Big Data colocou em xeque a capacidade dos bancos de dados relacionais de atenderem essas aplicações sem comprometerem o desempenho das mesmas ou incorrerem em elevados custos financeiros. Assim, os bancos NoSQL se mostraram uma alternativa promissora em razão de relaxarem muitos dos controles de consistência, integridade e transacionais em troca de disponibilidade, capacidade de processamento paralelo e escalabilidade horizontal. Estudos mostraram que os bancos NoSQL orientados a colunas são boas opções para aplicações analíticas em razão do particionamento vertical onde dados são armazenados de forma contígua e com separação física. O planejamento de esquemas para tais bancos foi objeto de diversos trabalhos acadêmicos, os quais, avaliaram os impactos de abordagens ditas normalizadas e desnormalizadas, bem como, a distribuição dos dados entre famílias de colunas, com o intuito de identificar as boas práticas no projeto esquemático. No entanto, não avaliaram cenários envolvendo o armazenamento e a consulta de dados geoespaciais. Vislumbrando tal lacuna, nós investigamos o projeto esquemático bem como a redundância de dados convencionais e geoespaciais em GDWs construídas sob bancos NoSQL orientados a colunas para finalidades analíticas. Propusemos 40 esquemas criados a partir de abordagens para a implementação dos relacionamentos entre a tabela de fatos e as dimensões convencionais, dimensões convencionais e as geoespaciais e entre as próprias geoespaciais. Adoramos o benchmark geográfico denominado Spadawan para geração de bases em conformidade com os esquemas propostos, e para fatores de escala equivalentes a 1 e 10 vezes o tamanho padrão do benchmark. Os esquemas foram avaliados em um cluster computacional rodando o Hadoop, HBase e Spark de acordo com os tempos demandados para a execução de uma carga de consultas, tempos de ingestão dos dados e os volumes ocupados por cada uma deles. Os resultados experimentais mostraram que a desnormalização das dimensões convencionais foi a abordagem que mais contribuiu para a redução dos tempos de execução, apesar de incorrer em bases maiores. A normalização das dimensões geográficas de menor seletividade trouxe impactos positivos, enquanto as mais seletivas não influenciaram significativamente de forma positiva ou negativa.CAPESThe growing demand for analytical query processing and the multiplication of big data environments challenged the capabilities of relational databases to serve these purposes without worsening their performances or increasing financial costs significantly. NoSQL databases emerged as candidates to solve these issues given that they do not enforce consistency, integrity and transactional constraints in order to offer better availability, parallel computing power and horizontal scalability. Researchers found that column-oriented NoSQL databases are a better choice than row-oriented databases for the implementation of data warehouses due to the fact that they can read and aggregate data faster since columns are physically separated from each other on disk. The development of schemas for this kind of databases were the subject of multiples researchs that studied normalized approaches and denormalized approaches as well as the most optimized ways to distribute data among column families. However, they didn't investigate and evaluate scenarios involving geospatial data and the execution queries that had geospatial predicates. Observing this blank space in the literature, our work investigates the influence of data partitioning and redundancy of conventional and geospatial data in GDW built on top of column-oriented NoSQL databases. We conceived 40 different schemas that present distinct approaches for the implementation of the relationships between conventional dimensions and geospatial dimensões along with approaches for designing relationships between two geospatial dimensions. We used the Spadawan benchmark to create synthetic data that could be modeled according to our proposed schemas using scale factors equivalent to 1 and 10 times the standard size. Then, we used geospatial queries to evaluate them on a cluster running Hadoop, HBase, and also Spark. We’ve collected the schema size, loading time and running time of all our queries. The results indicated that denormalizing conventional dimensions was the best approach to reduce queries execution time, despite increasing the overall space needed. The normalization of low-selectivity geospatial data also contributed to lower execution times and, regarding high-selectivity geospatial data, the normalization or denormalization did not show significant positive or negative impacts.Universidade Federal de PernambucoUFPEBrasilPrograma de Pos Graduacao em Ciencia da ComputacaoFIDALGO, Robson do Nascimentohttp://lattes.cnpq.br/6250764038732153http://lattes.cnpq.br/6390018491925933MAGALHÃES, Mateus Nunes de Barros2022-08-22T17:02:50Z2022-08-22T17:02:50Z2022-02-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfMAGALHÃES, Mateus Nunes de Barros. Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas. 2022. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2022.https://repositorio.ufpe.br/handle/123456789/45866porhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/embargoedAccessreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPE2022-08-23T05:24:07Zoai:repositorio.ufpe.br:123456789/45866Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212022-08-23T05:24:07Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.none.fl_str_mv Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas
title Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas
spellingShingle Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas
MAGALHÃES, Mateus Nunes de Barros
Banco de dados
Data-warehouse
title_short Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas
title_full Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas
title_fullStr Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas
title_full_unstemmed Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas
title_sort Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas
author MAGALHÃES, Mateus Nunes de Barros
author_facet MAGALHÃES, Mateus Nunes de Barros
author_role author
dc.contributor.none.fl_str_mv FIDALGO, Robson do Nascimento
http://lattes.cnpq.br/6250764038732153
http://lattes.cnpq.br/6390018491925933
dc.contributor.author.fl_str_mv MAGALHÃES, Mateus Nunes de Barros
dc.subject.por.fl_str_mv Banco de dados
Data-warehouse
topic Banco de dados
Data-warehouse
description A crescente demanda por processamento analítico alinhada à expansão dos casos de uso envolvendo Big Data colocou em xeque a capacidade dos bancos de dados relacionais de atenderem essas aplicações sem comprometerem o desempenho das mesmas ou incorrerem em elevados custos financeiros. Assim, os bancos NoSQL se mostraram uma alternativa promissora em razão de relaxarem muitos dos controles de consistência, integridade e transacionais em troca de disponibilidade, capacidade de processamento paralelo e escalabilidade horizontal. Estudos mostraram que os bancos NoSQL orientados a colunas são boas opções para aplicações analíticas em razão do particionamento vertical onde dados são armazenados de forma contígua e com separação física. O planejamento de esquemas para tais bancos foi objeto de diversos trabalhos acadêmicos, os quais, avaliaram os impactos de abordagens ditas normalizadas e desnormalizadas, bem como, a distribuição dos dados entre famílias de colunas, com o intuito de identificar as boas práticas no projeto esquemático. No entanto, não avaliaram cenários envolvendo o armazenamento e a consulta de dados geoespaciais. Vislumbrando tal lacuna, nós investigamos o projeto esquemático bem como a redundância de dados convencionais e geoespaciais em GDWs construídas sob bancos NoSQL orientados a colunas para finalidades analíticas. Propusemos 40 esquemas criados a partir de abordagens para a implementação dos relacionamentos entre a tabela de fatos e as dimensões convencionais, dimensões convencionais e as geoespaciais e entre as próprias geoespaciais. Adoramos o benchmark geográfico denominado Spadawan para geração de bases em conformidade com os esquemas propostos, e para fatores de escala equivalentes a 1 e 10 vezes o tamanho padrão do benchmark. Os esquemas foram avaliados em um cluster computacional rodando o Hadoop, HBase e Spark de acordo com os tempos demandados para a execução de uma carga de consultas, tempos de ingestão dos dados e os volumes ocupados por cada uma deles. Os resultados experimentais mostraram que a desnormalização das dimensões convencionais foi a abordagem que mais contribuiu para a redução dos tempos de execução, apesar de incorrer em bases maiores. A normalização das dimensões geográficas de menor seletividade trouxe impactos positivos, enquanto as mais seletivas não influenciaram significativamente de forma positiva ou negativa.
publishDate 2022
dc.date.none.fl_str_mv 2022-08-22T17:02:50Z
2022-08-22T17:02:50Z
2022-02-24
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv MAGALHÃES, Mateus Nunes de Barros. Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas. 2022. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2022.
https://repositorio.ufpe.br/handle/123456789/45866
identifier_str_mv MAGALHÃES, Mateus Nunes de Barros. Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas. 2022. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2022.
url https://repositorio.ufpe.br/handle/123456789/45866
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/embargoedAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv embargoedAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1856041920773488640