Processamento de consulta em um framework baseado em mediador para integração de dados no padrão de linked data

Detalhes bibliográficos
Ano de defesa: 2011
Autor(a) principal: Pinheiro, João Carlos
Orientador(a): Vidal, Vânia Maria Ponte
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.repositorio.ufc.br/handle/riufc/61237
Resumo: The Web evolved from a global information space of hypertext to the Linked Data network, also known as Web of Data. The use of RDF, one of the cornerstones of the Semantic Web, has been crucial for storage and publication of Linked Data accessible via SPARQL endpoint through the SPARQL query language, that allows answering distributed queries which could not be answered by a single data source or even search engines on the Web. However the difficulty of distributed query formulation has been an obstacle to take advantage of these data because of the autonomy, distribution and heterogeneous vocabulary of data sources. This scenario confirms the need for efficient mechanisms for data integration that can leverage the reuse of such data simply and efficiently. In that context, this work presents a framework based on a mediator for Linked Data integration accessible via SPARQL endpoint where global schema is represented by a domain ontology, which provides a shared vocabulary. Each data source, published on the Web according to the Linked Data principles, is described by an application ontology, whose vocabulary is restricted to be a subset of the domain ontology vocabulary. Inside this context, this work proposes a method for processing distributed SPARQL queries, including: a) an algorithm for query reformulation in which two key questions are addressed: the search for data only to data sources that may contribute with any intermediate result, without appeal to inference mechanisms for query expansion, and the use of same-as and URI-links to deal with incomplete information, b) the execution step explores algorithms and techniques that enable the reduction in the volume of intermediate data, parallel query processing, pull and push models for delivery of data and processing that combines adaptive join algorithms proficiently. These techniques are essential in the highly dynamic environment of the Linked Data, which have two characteristics that challenge the distributed SPARQL query evaluation: a large scale and unpredictability in time data delivery. The optimization strategy was evaluated through several experiments, and the results provide empirical evidence of its scalability and performance gains for data integration.
id UFC-7_64ea9249caaa6409d5cb4be955cf7ea1
oai_identifier_str oai:repositorio.ufc.br:riufc/61237
network_acronym_str UFC-7
network_name_str Repositório Institucional da Universidade Federal do Ceará (UFC)
repository_id_str
spelling Pinheiro, João CarlosMacêdo, José Antônio Fernandes deVidal, Vânia Maria Ponte2021-10-15T14:16:51Z2021-10-15T14:16:51Z2011PINHEIRO, João Carlos. Processamento de consulta em um framework baseado em mediador para integração de dados no padrão de linked data. 2011. 152 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2011.http://www.repositorio.ufc.br/handle/riufc/61237The Web evolved from a global information space of hypertext to the Linked Data network, also known as Web of Data. The use of RDF, one of the cornerstones of the Semantic Web, has been crucial for storage and publication of Linked Data accessible via SPARQL endpoint through the SPARQL query language, that allows answering distributed queries which could not be answered by a single data source or even search engines on the Web. However the difficulty of distributed query formulation has been an obstacle to take advantage of these data because of the autonomy, distribution and heterogeneous vocabulary of data sources. This scenario confirms the need for efficient mechanisms for data integration that can leverage the reuse of such data simply and efficiently. In that context, this work presents a framework based on a mediator for Linked Data integration accessible via SPARQL endpoint where global schema is represented by a domain ontology, which provides a shared vocabulary. Each data source, published on the Web according to the Linked Data principles, is described by an application ontology, whose vocabulary is restricted to be a subset of the domain ontology vocabulary. Inside this context, this work proposes a method for processing distributed SPARQL queries, including: a) an algorithm for query reformulation in which two key questions are addressed: the search for data only to data sources that may contribute with any intermediate result, without appeal to inference mechanisms for query expansion, and the use of same-as and URI-links to deal with incomplete information, b) the execution step explores algorithms and techniques that enable the reduction in the volume of intermediate data, parallel query processing, pull and push models for delivery of data and processing that combines adaptive join algorithms proficiently. These techniques are essential in the highly dynamic environment of the Linked Data, which have two characteristics that challenge the distributed SPARQL query evaluation: a large scale and unpredictability in time data delivery. The optimization strategy was evaluated through several experiments, and the results provide empirical evidence of its scalability and performance gains for data integration.A Web evoluiu de um espaço de informação global de hipertexto para uma rede de Linked Data conhecida como a Web dos dados. Sendo que o uso de RDF, um dos pilares da Web semântica, tem sido fundamental para armazenamento e publicação de dados no padrão de Linked Data acessível via SPARQL endpoint através da linguagem de consulta SPARQL, que permite responder a consultas distribuídas que não poderiam ser respondidas por uma única fonte de dados ou até mesmo por motores de busca na Web. Porém, a dificuldade para formulação de consultas distribuídas tem sido um obstáculo para aproveitar esses dados em virtude da autonomia, distribuição e vocabulário heterogêneo das fontes de dados. Esse cenário ratifica a necessidade de mecanismos eficientes para a integração de dados, que podem potencializar o reuso desses dados de maneira simples e eficiente. Nesse contexto, este trabalho apresenta um framework baseado em mediador para integração de dados no padrão de Linked Data acessíveis via SPARQL endpoint em que o esquema global é representado por uma ontologia de domínio, que fornece um vocabulário compartilhado. Cada fonte de dados é descrita por uma ontologia de aplicação, que se refere ao mesmo vocabulário compartilhado da ontologia de domínio. Dentro desse escopo, este trabalho propõe um método para o processamento distribuído de consultas SPARQL, destacando-se: a) um algoritmo de reformulação de consulta em que duas questões-chave são tratadas: a busca de dados apenas em fontes de dados que podem contribuir com qualquer resultado intermediário, sem precisar recorrer a mecanismos de inferência para fazer a expansão da consulta; e a utilização de ligações same-as e URI-links para lidar com informação incompleta; b) na etapa de execução exploram-se algoritmos e técnicas que possibilitam a redução do volume de dados intermediários, o processamento paralelo de consultas, os modelos pull e push de entrega de dados e o processamento adaptativo que combina com proficiência os algoritmos junção. Essas técnicas são essenciais no ambiente altamente dinâmico dos Linked Data, que apresentam duas características que desafiam a avaliação de consultas SPARQL distribuídas: larga escala e imprevisibilidade nos tempos de entrega de dados. A estratégia de execução foi avaliado por meio de vários experimentos, e os resultados fornecem evidências empiricas de escalabilidade e ganho de desempenho para integração de dados.Processamento eletrônico de dadosFramework (Arquivo de computador)Web semânticaProcessamento distribuídoProcessamento de consulta em um framework baseado em mediador para integração de dados no padrão de linked datainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisporreponame:Repositório Institucional da Universidade Federal do Ceará (UFC)instname:Universidade Federal do Ceará (UFC)instacron:UFCinfo:eu-repo/semantics/openAccessORIGINAL2011_tese_jcpinheiro.pdf2011_tese_jcpinheiro.pdfapplication/pdf23850875http://repositorio.ufc.br/bitstream/riufc/61237/1/2011_tese_jcpinheiro.pdfb5fd3ad0bf24c400d37389a7e587600bMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.ufc.br/bitstream/riufc/61237/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52riufc/612372021-10-15 11:16:51.139oai:repositorio.ufc.br:riufc/61237Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttp://www.repositorio.ufc.br/ri-oai/requestbu@ufc.br || repositorio@ufc.bropendoar:2021-10-15T14:16:51Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)false
dc.title.pt_BR.fl_str_mv Processamento de consulta em um framework baseado em mediador para integração de dados no padrão de linked data
title Processamento de consulta em um framework baseado em mediador para integração de dados no padrão de linked data
spellingShingle Processamento de consulta em um framework baseado em mediador para integração de dados no padrão de linked data
Pinheiro, João Carlos
Processamento eletrônico de dados
Framework (Arquivo de computador)
Web semântica
Processamento distribuído
title_short Processamento de consulta em um framework baseado em mediador para integração de dados no padrão de linked data
title_full Processamento de consulta em um framework baseado em mediador para integração de dados no padrão de linked data
title_fullStr Processamento de consulta em um framework baseado em mediador para integração de dados no padrão de linked data
title_full_unstemmed Processamento de consulta em um framework baseado em mediador para integração de dados no padrão de linked data
title_sort Processamento de consulta em um framework baseado em mediador para integração de dados no padrão de linked data
author Pinheiro, João Carlos
author_facet Pinheiro, João Carlos
author_role author
dc.contributor.co-advisor.none.fl_str_mv Macêdo, José Antônio Fernandes de
dc.contributor.author.fl_str_mv Pinheiro, João Carlos
dc.contributor.advisor1.fl_str_mv Vidal, Vânia Maria Ponte
contributor_str_mv Vidal, Vânia Maria Ponte
dc.subject.por.fl_str_mv Processamento eletrônico de dados
Framework (Arquivo de computador)
Web semântica
Processamento distribuído
topic Processamento eletrônico de dados
Framework (Arquivo de computador)
Web semântica
Processamento distribuído
description The Web evolved from a global information space of hypertext to the Linked Data network, also known as Web of Data. The use of RDF, one of the cornerstones of the Semantic Web, has been crucial for storage and publication of Linked Data accessible via SPARQL endpoint through the SPARQL query language, that allows answering distributed queries which could not be answered by a single data source or even search engines on the Web. However the difficulty of distributed query formulation has been an obstacle to take advantage of these data because of the autonomy, distribution and heterogeneous vocabulary of data sources. This scenario confirms the need for efficient mechanisms for data integration that can leverage the reuse of such data simply and efficiently. In that context, this work presents a framework based on a mediator for Linked Data integration accessible via SPARQL endpoint where global schema is represented by a domain ontology, which provides a shared vocabulary. Each data source, published on the Web according to the Linked Data principles, is described by an application ontology, whose vocabulary is restricted to be a subset of the domain ontology vocabulary. Inside this context, this work proposes a method for processing distributed SPARQL queries, including: a) an algorithm for query reformulation in which two key questions are addressed: the search for data only to data sources that may contribute with any intermediate result, without appeal to inference mechanisms for query expansion, and the use of same-as and URI-links to deal with incomplete information, b) the execution step explores algorithms and techniques that enable the reduction in the volume of intermediate data, parallel query processing, pull and push models for delivery of data and processing that combines adaptive join algorithms proficiently. These techniques are essential in the highly dynamic environment of the Linked Data, which have two characteristics that challenge the distributed SPARQL query evaluation: a large scale and unpredictability in time data delivery. The optimization strategy was evaluated through several experiments, and the results provide empirical evidence of its scalability and performance gains for data integration.
publishDate 2011
dc.date.issued.fl_str_mv 2011
dc.date.accessioned.fl_str_mv 2021-10-15T14:16:51Z
dc.date.available.fl_str_mv 2021-10-15T14:16:51Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv PINHEIRO, João Carlos. Processamento de consulta em um framework baseado em mediador para integração de dados no padrão de linked data. 2011. 152 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2011.
dc.identifier.uri.fl_str_mv http://www.repositorio.ufc.br/handle/riufc/61237
identifier_str_mv PINHEIRO, João Carlos. Processamento de consulta em um framework baseado em mediador para integração de dados no padrão de linked data. 2011. 152 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2011.
url http://www.repositorio.ufc.br/handle/riufc/61237
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal do Ceará (UFC)
instname:Universidade Federal do Ceará (UFC)
instacron:UFC
instname_str Universidade Federal do Ceará (UFC)
instacron_str UFC
institution UFC
reponame_str Repositório Institucional da Universidade Federal do Ceará (UFC)
collection Repositório Institucional da Universidade Federal do Ceará (UFC)
bitstream.url.fl_str_mv http://repositorio.ufc.br/bitstream/riufc/61237/1/2011_tese_jcpinheiro.pdf
http://repositorio.ufc.br/bitstream/riufc/61237/2/license.txt
bitstream.checksum.fl_str_mv b5fd3ad0bf24c400d37389a7e587600b
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)
repository.mail.fl_str_mv bu@ufc.br || repositorio@ufc.br
_version_ 1847793413057937408