Exportação concluída — 

Otimização de consultas SPARQL em bases RDF distribuídas

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Penteado, Raqueline Ritter de Moura
Orientador(a): Hara, Carmem Satie, 1964-
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/1884/47453
Resumo: Orientadora: Profa. Dra Carmem Satie Hara
id UFPR_fc804c3a4a1cdd6a4923564a01acb00f
oai_identifier_str oai:acervodigital.ufpr.br:1884/47453
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str
spelling Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaHara, Carmem Satie, 1964-Penteado, Raqueline Ritter de Moura2024-11-04T15:02:21Z2024-11-04T15:02:21Z2017https://hdl.handle.net/1884/47453Orientadora: Profa. Dra Carmem Satie HaraTese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 07/04/2017Inclui referências : f. 83-85Resumo; O modelo de dados RDF vem sendo usado em diversas aplicações devido a sua simplicidade e exibilidade na modelagem de dados quando comparado aos modelos de dados tradicionais. Dado o grande volume de dados RDF existente atualmente, diversas abordagens de processamento de consultas têm sido propostas visando garantir a escalabilidade destas aplicações. De uma forma geral, estas abordagens propõem métodos de distribuição de dados a _m de promover o processamento distribuído e paralelo de consultas SPARQL em sistemas RDF. Embora a distribuição forneça escalabilidade de armazenamento, o custo de comunicação no processamento de consultas pode ser alto. Este trabalho propõe uma abordagem de processamento de consultas SPARQL que tem o objetivo de minimizar o custo de comunicação para o processamento de consultas em sistemas RDF distribuídos. A abordagem explora a existência de padrões de alocação (PAs) na distribuição de dados, fornecida por um método de distribuição controlada de dados, que determina como triplas RDF são agrupadas e armazenadas em um mesmo servidor. Sendo assim, durante a distribuição, fragmentos de bases RDF seguem a composição de um determinado PA. Logo, a abordagem de processamento proposta gera planos de execução de consultas baseando-se nestes padrões viabilizando a escolha de duas estratégias de comunicação durante o processamento de consultas: get-frag e send-result. Na primeira estratégia, dada uma consulta, um servidor requisita para servidores remotos fragmentos de dados para a resolução de consultas. Na segunda, o servidor envia resultados intermediários da consulta para outros servidores continuarem a sua execução. Essas estratégias são combinadas em um método, denominado de 2ways, que escolhe a estratégia de comunicação adequada sempre que a execução de consultas transitar entre fragmentos de dados. A escolha da estratégia depende do número de mensagens e do volume de dados a ser transmitido entre servidores. Resultados experimentais mostram que 2ways reduz o custo de comunicação de maneira efetiva e melhora o tempo de resposta do processamento de consultas SPARQL em sistemas RDF distribuídos. Por fim, considerando que bases RDF podem ser alteradas por meio de operações de exclusão/interseção de triplas, este trabalho estende a abordagem de processamento proposta considerando que nem sempre novos dados inseridos estarão de acordo com os PAs predefinidos. A abordagem de atualização define um tipo especial de PA, denominado de PaOverow, para o armazenamento de dados que não podem ser categorizados pelos PAs existentes. Logo, o PaOverow também deve ser considerado no planejamento e no processamento de consultas. Um estudo experimental inicial mostra que, como esperado, a adoção do PaOverow pode aumentar o tempo de resposta de consultas na abordagem de processamento proposta.Abstract: RDF has been used by many applications due to its simplicity and exibility in data modeling. Due to the huge volume of RDF data that exists nowadays, many distributed query processing approaches have been proposed aiming to ensure scalability for these applications. In general, these approaches propose data distribution methods promoting distributed and parallel SPARQL query processing. However, while distribution may provide storage scalability, it may also incur high communication costs for processing queries. This work presents a parallel and distributed query processing approach that aims to minimize the communication cost. The approach explores the existence of data allocation patterns (PAs) for data distribution, provided by a controlled data distribution method, that determine how RDF triples should be grouped and stored on the same server. Fragments of the RDF datastore follow a given allocation pattern. The approach generates execution plans based on this distribution model making possible the choice of two communication strategies for query processing: get-frag and send-result. With the get-frag approach, a server requests remote servers to send fragments that contain data required by a query. The send-result approach, on the other hand, forwards intermediate results to other servers to continue the query processing. These strategies are combined on a method, called 2ways, that chooses the adequate communication strategy whenever queries traverse fragment boundaries. The choice of the communication strategy is based on the number of requisitions and the volume of the data to be transmitted. Experimental results show that our proposed technique e_ectively reduces the communication cost and improves the response time for processing SPARQL queries on a distributed RDF datastore. Finally, considering that RDF datasets are dynamic, and may be updated by delete/insert operations, this work extends the query processing approach considering that not all newly inserted data may conform to the prede_ned allocation patterns. We de_ne a special purpose type of PA, called PaOverow, for storing data that can not be categorized by existing PAs. Consequentelly, the PaOverow must be considered in query planning and processing. An initial experimental study shows that, as expected, the PaOverow adoption can increase the response time for processing queries on the proposed processing approach.85 f. : il. tabs., grafs.application/pdfDisponível em formato digitalCiência da computaçãoBases de dados da WebProcessamento eletronico de dados - ProcessamentoOtimização de consultas SPARQL em bases RDF distribuídasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - T - RAQUELINE RITTER DE MOURA PENTEADO.pdfapplication/pdf2129430https://acervodigital.ufpr.br/bitstream/1884/47453/1/R%20-%20T%20-%20RAQUELINE%20RITTER%20DE%20MOURA%20PENTEADO.pdfc06937a8e27ef102f8855282027f5384MD51open access1884/474532024-11-04 12:02:21.66open accessoai:acervodigital.ufpr.br:1884/47453Repositório InstitucionalPUBhttp://acervodigital.ufpr.br/oai/requestinformacaodigital@ufpr.bropendoar:3082024-11-04T15:02:21Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Otimização de consultas SPARQL em bases RDF distribuídas
title Otimização de consultas SPARQL em bases RDF distribuídas
spellingShingle Otimização de consultas SPARQL em bases RDF distribuídas
Penteado, Raqueline Ritter de Moura
Ciência da computação
Bases de dados da Web
Processamento eletronico de dados - Processamento
title_short Otimização de consultas SPARQL em bases RDF distribuídas
title_full Otimização de consultas SPARQL em bases RDF distribuídas
title_fullStr Otimização de consultas SPARQL em bases RDF distribuídas
title_full_unstemmed Otimização de consultas SPARQL em bases RDF distribuídas
title_sort Otimização de consultas SPARQL em bases RDF distribuídas
author Penteado, Raqueline Ritter de Moura
author_facet Penteado, Raqueline Ritter de Moura
author_role author
dc.contributor.other.pt_BR.fl_str_mv Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática
dc.contributor.advisor1.fl_str_mv Hara, Carmem Satie, 1964-
dc.contributor.author.fl_str_mv Penteado, Raqueline Ritter de Moura
contributor_str_mv Hara, Carmem Satie, 1964-
dc.subject.por.fl_str_mv Ciência da computação
Bases de dados da Web
Processamento eletronico de dados - Processamento
topic Ciência da computação
Bases de dados da Web
Processamento eletronico de dados - Processamento
description Orientadora: Profa. Dra Carmem Satie Hara
publishDate 2017
dc.date.issued.fl_str_mv 2017
dc.date.accessioned.fl_str_mv 2024-11-04T15:02:21Z
dc.date.available.fl_str_mv 2024-11-04T15:02:21Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/47453
url https://hdl.handle.net/1884/47453
dc.language.iso.fl_str_mv por
language por
dc.relation.pt_BR.fl_str_mv Disponível em formato digital
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 85 f. : il. tabs., grafs.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/47453/1/R%20-%20T%20-%20RAQUELINE%20RITTER%20DE%20MOURA%20PENTEADO.pdf
bitstream.checksum.fl_str_mv c06937a8e27ef102f8855282027f5384
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv informacaodigital@ufpr.br
_version_ 1847526107091304448