Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas
| Ano de defesa: | 2022 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso embargado |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de Pernambuco
UFPE Brasil Programa de Pos Graduacao em Ciencia da Computacao |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://repositorio.ufpe.br/handle/123456789/45866 |
Resumo: | A crescente demanda por processamento analítico alinhada à expansão dos casos de uso envolvendo Big Data colocou em xeque a capacidade dos bancos de dados relacionais de atenderem essas aplicações sem comprometerem o desempenho das mesmas ou incorrerem em elevados custos financeiros. Assim, os bancos NoSQL se mostraram uma alternativa promissora em razão de relaxarem muitos dos controles de consistência, integridade e transacionais em troca de disponibilidade, capacidade de processamento paralelo e escalabilidade horizontal. Estudos mostraram que os bancos NoSQL orientados a colunas são boas opções para aplicações analíticas em razão do particionamento vertical onde dados são armazenados de forma contígua e com separação física. O planejamento de esquemas para tais bancos foi objeto de diversos trabalhos acadêmicos, os quais, avaliaram os impactos de abordagens ditas normalizadas e desnormalizadas, bem como, a distribuição dos dados entre famílias de colunas, com o intuito de identificar as boas práticas no projeto esquemático. No entanto, não avaliaram cenários envolvendo o armazenamento e a consulta de dados geoespaciais. Vislumbrando tal lacuna, nós investigamos o projeto esquemático bem como a redundância de dados convencionais e geoespaciais em GDWs construídas sob bancos NoSQL orientados a colunas para finalidades analíticas. Propusemos 40 esquemas criados a partir de abordagens para a implementação dos relacionamentos entre a tabela de fatos e as dimensões convencionais, dimensões convencionais e as geoespaciais e entre as próprias geoespaciais. Adoramos o benchmark geográfico denominado Spadawan para geração de bases em conformidade com os esquemas propostos, e para fatores de escala equivalentes a 1 e 10 vezes o tamanho padrão do benchmark. Os esquemas foram avaliados em um cluster computacional rodando o Hadoop, HBase e Spark de acordo com os tempos demandados para a execução de uma carga de consultas, tempos de ingestão dos dados e os volumes ocupados por cada uma deles. Os resultados experimentais mostraram que a desnormalização das dimensões convencionais foi a abordagem que mais contribuiu para a redução dos tempos de execução, apesar de incorrer em bases maiores. A normalização das dimensões geográficas de menor seletividade trouxe impactos positivos, enquanto as mais seletivas não influenciaram significativamente de forma positiva ou negativa. |
| id |
UFPE_5ae145cf2eeae6168c8b1b4c0a30b0c6 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufpe.br:123456789/45866 |
| network_acronym_str |
UFPE |
| network_name_str |
Repositório Institucional da UFPE |
| repository_id_str |
|
| spelling |
Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunasBanco de dadosData-warehouseA crescente demanda por processamento analítico alinhada à expansão dos casos de uso envolvendo Big Data colocou em xeque a capacidade dos bancos de dados relacionais de atenderem essas aplicações sem comprometerem o desempenho das mesmas ou incorrerem em elevados custos financeiros. Assim, os bancos NoSQL se mostraram uma alternativa promissora em razão de relaxarem muitos dos controles de consistência, integridade e transacionais em troca de disponibilidade, capacidade de processamento paralelo e escalabilidade horizontal. Estudos mostraram que os bancos NoSQL orientados a colunas são boas opções para aplicações analíticas em razão do particionamento vertical onde dados são armazenados de forma contígua e com separação física. O planejamento de esquemas para tais bancos foi objeto de diversos trabalhos acadêmicos, os quais, avaliaram os impactos de abordagens ditas normalizadas e desnormalizadas, bem como, a distribuição dos dados entre famílias de colunas, com o intuito de identificar as boas práticas no projeto esquemático. No entanto, não avaliaram cenários envolvendo o armazenamento e a consulta de dados geoespaciais. Vislumbrando tal lacuna, nós investigamos o projeto esquemático bem como a redundância de dados convencionais e geoespaciais em GDWs construídas sob bancos NoSQL orientados a colunas para finalidades analíticas. Propusemos 40 esquemas criados a partir de abordagens para a implementação dos relacionamentos entre a tabela de fatos e as dimensões convencionais, dimensões convencionais e as geoespaciais e entre as próprias geoespaciais. Adoramos o benchmark geográfico denominado Spadawan para geração de bases em conformidade com os esquemas propostos, e para fatores de escala equivalentes a 1 e 10 vezes o tamanho padrão do benchmark. Os esquemas foram avaliados em um cluster computacional rodando o Hadoop, HBase e Spark de acordo com os tempos demandados para a execução de uma carga de consultas, tempos de ingestão dos dados e os volumes ocupados por cada uma deles. Os resultados experimentais mostraram que a desnormalização das dimensões convencionais foi a abordagem que mais contribuiu para a redução dos tempos de execução, apesar de incorrer em bases maiores. A normalização das dimensões geográficas de menor seletividade trouxe impactos positivos, enquanto as mais seletivas não influenciaram significativamente de forma positiva ou negativa.CAPESThe growing demand for analytical query processing and the multiplication of big data environments challenged the capabilities of relational databases to serve these purposes without worsening their performances or increasing financial costs significantly. NoSQL databases emerged as candidates to solve these issues given that they do not enforce consistency, integrity and transactional constraints in order to offer better availability, parallel computing power and horizontal scalability. Researchers found that column-oriented NoSQL databases are a better choice than row-oriented databases for the implementation of data warehouses due to the fact that they can read and aggregate data faster since columns are physically separated from each other on disk. The development of schemas for this kind of databases were the subject of multiples researchs that studied normalized approaches and denormalized approaches as well as the most optimized ways to distribute data among column families. However, they didn't investigate and evaluate scenarios involving geospatial data and the execution queries that had geospatial predicates. Observing this blank space in the literature, our work investigates the influence of data partitioning and redundancy of conventional and geospatial data in GDW built on top of column-oriented NoSQL databases. We conceived 40 different schemas that present distinct approaches for the implementation of the relationships between conventional dimensions and geospatial dimensões along with approaches for designing relationships between two geospatial dimensions. We used the Spadawan benchmark to create synthetic data that could be modeled according to our proposed schemas using scale factors equivalent to 1 and 10 times the standard size. Then, we used geospatial queries to evaluate them on a cluster running Hadoop, HBase, and also Spark. We’ve collected the schema size, loading time and running time of all our queries. The results indicated that denormalizing conventional dimensions was the best approach to reduce queries execution time, despite increasing the overall space needed. The normalization of low-selectivity geospatial data also contributed to lower execution times and, regarding high-selectivity geospatial data, the normalization or denormalization did not show significant positive or negative impacts.Universidade Federal de PernambucoUFPEBrasilPrograma de Pos Graduacao em Ciencia da ComputacaoFIDALGO, Robson do Nascimentohttp://lattes.cnpq.br/6250764038732153http://lattes.cnpq.br/6390018491925933MAGALHÃES, Mateus Nunes de Barros2022-08-22T17:02:50Z2022-08-22T17:02:50Z2022-02-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfMAGALHÃES, Mateus Nunes de Barros. Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas. 2022. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2022.https://repositorio.ufpe.br/handle/123456789/45866porhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/embargoedAccessreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPE2022-08-23T05:24:07Zoai:repositorio.ufpe.br:123456789/45866Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212022-08-23T05:24:07Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
| dc.title.none.fl_str_mv |
Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas |
| title |
Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas |
| spellingShingle |
Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas MAGALHÃES, Mateus Nunes de Barros Banco de dados Data-warehouse |
| title_short |
Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas |
| title_full |
Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas |
| title_fullStr |
Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas |
| title_full_unstemmed |
Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas |
| title_sort |
Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas |
| author |
MAGALHÃES, Mateus Nunes de Barros |
| author_facet |
MAGALHÃES, Mateus Nunes de Barros |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
FIDALGO, Robson do Nascimento http://lattes.cnpq.br/6250764038732153 http://lattes.cnpq.br/6390018491925933 |
| dc.contributor.author.fl_str_mv |
MAGALHÃES, Mateus Nunes de Barros |
| dc.subject.por.fl_str_mv |
Banco de dados Data-warehouse |
| topic |
Banco de dados Data-warehouse |
| description |
A crescente demanda por processamento analítico alinhada à expansão dos casos de uso envolvendo Big Data colocou em xeque a capacidade dos bancos de dados relacionais de atenderem essas aplicações sem comprometerem o desempenho das mesmas ou incorrerem em elevados custos financeiros. Assim, os bancos NoSQL se mostraram uma alternativa promissora em razão de relaxarem muitos dos controles de consistência, integridade e transacionais em troca de disponibilidade, capacidade de processamento paralelo e escalabilidade horizontal. Estudos mostraram que os bancos NoSQL orientados a colunas são boas opções para aplicações analíticas em razão do particionamento vertical onde dados são armazenados de forma contígua e com separação física. O planejamento de esquemas para tais bancos foi objeto de diversos trabalhos acadêmicos, os quais, avaliaram os impactos de abordagens ditas normalizadas e desnormalizadas, bem como, a distribuição dos dados entre famílias de colunas, com o intuito de identificar as boas práticas no projeto esquemático. No entanto, não avaliaram cenários envolvendo o armazenamento e a consulta de dados geoespaciais. Vislumbrando tal lacuna, nós investigamos o projeto esquemático bem como a redundância de dados convencionais e geoespaciais em GDWs construídas sob bancos NoSQL orientados a colunas para finalidades analíticas. Propusemos 40 esquemas criados a partir de abordagens para a implementação dos relacionamentos entre a tabela de fatos e as dimensões convencionais, dimensões convencionais e as geoespaciais e entre as próprias geoespaciais. Adoramos o benchmark geográfico denominado Spadawan para geração de bases em conformidade com os esquemas propostos, e para fatores de escala equivalentes a 1 e 10 vezes o tamanho padrão do benchmark. Os esquemas foram avaliados em um cluster computacional rodando o Hadoop, HBase e Spark de acordo com os tempos demandados para a execução de uma carga de consultas, tempos de ingestão dos dados e os volumes ocupados por cada uma deles. Os resultados experimentais mostraram que a desnormalização das dimensões convencionais foi a abordagem que mais contribuiu para a redução dos tempos de execução, apesar de incorrer em bases maiores. A normalização das dimensões geográficas de menor seletividade trouxe impactos positivos, enquanto as mais seletivas não influenciaram significativamente de forma positiva ou negativa. |
| publishDate |
2022 |
| dc.date.none.fl_str_mv |
2022-08-22T17:02:50Z 2022-08-22T17:02:50Z 2022-02-24 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
MAGALHÃES, Mateus Nunes de Barros. Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas. 2022. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2022. https://repositorio.ufpe.br/handle/123456789/45866 |
| identifier_str_mv |
MAGALHÃES, Mateus Nunes de Barros. Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas. 2022. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2022. |
| url |
https://repositorio.ufpe.br/handle/123456789/45866 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/embargoedAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
embargoedAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco UFPE Brasil Programa de Pos Graduacao em Ciencia da Computacao |
| publisher.none.fl_str_mv |
Universidade Federal de Pernambuco UFPE Brasil Programa de Pos Graduacao em Ciencia da Computacao |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
| instname_str |
Universidade Federal de Pernambuco (UFPE) |
| instacron_str |
UFPE |
| institution |
UFPE |
| reponame_str |
Repositório Institucional da UFPE |
| collection |
Repositório Institucional da UFPE |
| repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
| repository.mail.fl_str_mv |
attena@ufpe.br |
| _version_ |
1856041920773488640 |