A framework for exploiting open data to improve spatial keyword query applications

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Almeida, João Paulo Dias de
Orientador(a): Durão, Frederico Araújo
Banca de defesa: Ferraz, Carlos André Guimarães, Pires, Carlos Eduardo Santos, Claro, Daniela Barreiro, Santos, Vaninha Vieira dos
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal da Bahia
Instituto de Matemática e Estatística
Programa de Pós-Graduação: em Ciência da Computação
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.ufba.br/ri/handle/ri/33699
Resumo: Estima-se que 80% de todos os aplicativos baseados em dados possuem dados georreferenciados. Consultas espaciais são amplamente empregadas para recuperar este tipo de dado eficientemente. Entretanto, o usuário tem um papel importante no processo de recuperação dos dados georreferenciados. Um problema frequente neste cenário é quando o usuário não consegue descrever aquilo que ele deseja encontrar, dificultando a busca pelo ponto de interesse (POI) que o melhor satisfaça. Por décadas, pesquisadores propuseram técnicas para auxiliar usuários a expressar as suas necessidades. Dentre estas técnicas, pode-se citar os modelos booleanos, correspondência de padrões e expansão de consulta. Apesar da existência de alternativas importantes, faltam soluções que auxiliem o/a usuário/a a utilizar consultas do tipo preferencial que utilizem palavras-chave. O top-k Spatial Keyword Preference Query (SKPQ) é uma consulta deste tipo que surge como uma solução potencial para auxiliar usuários a encontrar POIs. O SKPQ seleciona POIs considerando a descrição de locais na vizinhança. Em essência, o usuário define uma restrição espacial (i.e. raio) e textual (i.e. palavras-chave) a ser satisfeita. Nesse contexto, esta tese propõe estratégias para melhorar a recuperação de informação proporcionada pela SKPQ e consultas similares. A contribuição desta tese pode ser dividida em três etapas. Na primeira, dois repositórios Linked Open Data (LOD) são explorados para melhorar a descrição dos POIs e suas vizinhanças. A descrição do POI no LOD contém mais informação do que nos bancos de dados espaciais tradicionais, o que resulta em uma descrição mais detalhada. Na segunda etapa, os resultados da consulta são personalizados para apresentar os melhores POIs para o usuário nas primeiras posições do rank. Ao explorar comentários relacionados aos POIs, o sistema identifica o objeto que melhor satisfaz a usuária da consulta e reordena o rank de acordo com a preferência dela. Na terceira etapa, utilizamos uma função probabilística para descrever a preferência por POIs próximos um do outro. Esta função probabilística é incorporada à função de ranqueamento para que a busca também considere esta preferência. Por fim, avaliou-se separadamente cada estratégia proposta nesta tese. A primeira estratégia alcançou melhora de 20% no Normalized Discounted Cumulative Gain (NDCG) ao utilizar palavras-chave aleatórias. Assim como encontrou POIs onde não era possível encontrar com a SKPQ. A segunda estratégia adiciona melhora de 92% no NDCG. Enquanto, a terceira estratégia melhora a consistência do rank, alcançando aumento no coeficiente Tau de 52%. Os resultados alcançados foram obtidos através de experimentos offline, utilizando dados de usuários reais em bases de dados públicas.
id UFBA-2_7cd13156bcf555904d72d68514291c53
oai_identifier_str oai:repositorio.ufba.br:ri/33699
network_acronym_str UFBA-2
network_name_str Repositório Institucional da UFBA
repository_id_str
spelling Almeida, João Paulo Dias deAlmeida, João Paulo Dias deDurão, Frederico AraújoFerraz, Carlos André GuimarãesPires, Carlos Eduardo SantosClaro, Daniela BarreiroSantos, Vaninha Vieira dos2021-07-05T20:15:41Z2021-07-05T20:15:41Z2021-07-052021-05-03http://repositorio.ufba.br/ri/handle/ri/33699Estima-se que 80% de todos os aplicativos baseados em dados possuem dados georreferenciados. Consultas espaciais são amplamente empregadas para recuperar este tipo de dado eficientemente. Entretanto, o usuário tem um papel importante no processo de recuperação dos dados georreferenciados. Um problema frequente neste cenário é quando o usuário não consegue descrever aquilo que ele deseja encontrar, dificultando a busca pelo ponto de interesse (POI) que o melhor satisfaça. Por décadas, pesquisadores propuseram técnicas para auxiliar usuários a expressar as suas necessidades. Dentre estas técnicas, pode-se citar os modelos booleanos, correspondência de padrões e expansão de consulta. Apesar da existência de alternativas importantes, faltam soluções que auxiliem o/a usuário/a a utilizar consultas do tipo preferencial que utilizem palavras-chave. O top-k Spatial Keyword Preference Query (SKPQ) é uma consulta deste tipo que surge como uma solução potencial para auxiliar usuários a encontrar POIs. O SKPQ seleciona POIs considerando a descrição de locais na vizinhança. Em essência, o usuário define uma restrição espacial (i.e. raio) e textual (i.e. palavras-chave) a ser satisfeita. Nesse contexto, esta tese propõe estratégias para melhorar a recuperação de informação proporcionada pela SKPQ e consultas similares. A contribuição desta tese pode ser dividida em três etapas. Na primeira, dois repositórios Linked Open Data (LOD) são explorados para melhorar a descrição dos POIs e suas vizinhanças. A descrição do POI no LOD contém mais informação do que nos bancos de dados espaciais tradicionais, o que resulta em uma descrição mais detalhada. Na segunda etapa, os resultados da consulta são personalizados para apresentar os melhores POIs para o usuário nas primeiras posições do rank. Ao explorar comentários relacionados aos POIs, o sistema identifica o objeto que melhor satisfaz a usuária da consulta e reordena o rank de acordo com a preferência dela. Na terceira etapa, utilizamos uma função probabilística para descrever a preferência por POIs próximos um do outro. Esta função probabilística é incorporada à função de ranqueamento para que a busca também considere esta preferência. Por fim, avaliou-se separadamente cada estratégia proposta nesta tese. A primeira estratégia alcançou melhora de 20% no Normalized Discounted Cumulative Gain (NDCG) ao utilizar palavras-chave aleatórias. Assim como encontrou POIs onde não era possível encontrar com a SKPQ. A segunda estratégia adiciona melhora de 92% no NDCG. Enquanto, a terceira estratégia melhora a consistência do rank, alcançando aumento no coeficiente Tau de 52%. Os resultados alcançados foram obtidos através de experimentos offline, utilizando dados de usuários reais em bases de dados públicas.It’s been asserted that 80% of all data business has some locational reference. Spatial queries are widely employed to manipulate spatial data more efficiently. However, the user has a crucial role in the spatial information retrieval process when querying the needed information. A frequent problem in this context occurs when a user is unable to describe the object he/she desires to find. This problem hinders the search for the best point of interest (POI) to satisfies the user. For decades, researchers have proposed techniques to aid users in express their information need, such as Boolean models, pattern matching operators, and query expansion. Despite the existence of relevant alternatives in the field, there is still a lack of solutions to aid users of keyword preference queries to express their needs. The Spatial Keyword Preference Query (SKPQ) arises as a potential solution to assist users in finding POIs. SKPQ selects POI based on the description of features in their neighborhood. In essence, the user defines a spatial (i.e. radius) and textual (i.e. query keywords) constraint to be satisfied. In this context, this thesis aims at proposing strategies to improve SKPQ results. The contribution is threefold. First, two Linked Open Data (LOD) repositories (i.e. DBpedia and LinkedGeoData) are exploited to improve the features description. The feature description in LOD contains more information than traditional spatial databases, leading to a more detailed description. Second, the query results are personalized to present the best POIs for the underlying user. By exploiting reviews on POIs, the system identifies the object that best satisfies the user and re-order the rank with respect to the user preference. Third, we model the user preference in visiting locations near to each other using a probabilistic function. This function is incorporated into the ranking function to retrieve POIs considering this user preference. We evaluate each technique employed in this proposal separately. The first technique achieves a relative Normalized Discounted Cumulative Gain (NDCG) improvement of 20% when using random query keywords. Also, it finds POIs where SKPQ is unable to find. The second technique further improves the relative NDCG by 92%. Finally, the third technique improves the rank consistency achieving a Tau performance of 52%. The results achieved were obtained through offline experiments, using data from real users in public databases.Submitted by João Almeida (jp.dias.almeida@gmail.com) on 2021-07-01T22:31:30Z No. of bitstreams: 1 A Framework for Exploiting Open Data to Improve Spatial Keyword Query Applications.pdf: 5449120 bytes, checksum: e50ec489c8212d4803755ac31fb3ab78 (MD5)Approved for entry into archive by Solange Rocha (soluny@gmail.com) on 2021-07-05T20:15:41Z (GMT) No. of bitstreams: 1 A Framework for Exploiting Open Data to Improve Spatial Keyword Query Applications.pdf: 5449120 bytes, checksum: e50ec489c8212d4803755ac31fb3ab78 (MD5)Made available in DSpace on 2021-07-05T20:15:41Z (GMT). No. of bitstreams: 1 A Framework for Exploiting Open Data to Improve Spatial Keyword Query Applications.pdf: 5449120 bytes, checksum: e50ec489c8212d4803755ac31fb3ab78 (MD5)Fundação de Amparo à Pesquisa do Estado da Bahia (FAPESB)Ciências Exatas e da TerraCiência da ComputaçãoMetodologia e Técnicas da ComputaçãoSKPQSpatial queryLinked open dataQuery evaluationQuery processingQuery personalizationAlgorithmsInformation retrievalData Mining (Computing)Semantic WebOntologyA framework for exploiting open data to improve spatial keyword query applicationsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal da BahiaInstituto de Matemática e Estatísticaem Ciência da ComputaçãoUFBABrasilinfo:eu-repo/semantics/openAccessengreponame:Repositório Institucional da UFBAinstname:Universidade Federal da Bahia (UFBA)instacron:UFBAORIGINALA Framework for Exploiting Open Data to Improve Spatial Keyword Query Applications.pdfA Framework for Exploiting Open Data to Improve Spatial Keyword Query Applications.pdfapplication/pdf5449120https://repositorio.ufba.br/bitstream/ri/33699/1/A%20Framework%20for%20Exploiting%20Open%20Data%20to%20Improve%20Spatial%20Keyword%20Query%20Applications.pdfe50ec489c8212d4803755ac31fb3ab78MD51LICENSElicense.txtlicense.txttext/plain1442https://repositorio.ufba.br/bitstream/ri/33699/2/license.txte3e6f4a9287585a60c07547815529482MD52TEXTA Framework for Exploiting Open Data to Improve Spatial Keyword Query Applications.pdf.txtA Framework for Exploiting Open Data to Improve Spatial Keyword Query Applications.pdf.txtExtracted texttext/plain381075https://repositorio.ufba.br/bitstream/ri/33699/3/A%20Framework%20for%20Exploiting%20Open%20Data%20to%20Improve%20Spatial%20Keyword%20Query%20Applications.pdf.txt35602d27a50a0fd4814741cf5a9e64dcMD53ri/336992022-07-05 14:04:11.736oai:repositorio.ufba.br:ri/33699VGVybW8gZGUgTGljZW4/YSwgbj9vIGV4Y2x1c2l2bywgcGFyYSBvIGRlcD9zaXRvIG5vIFJlcG9zaXQ/cmlvIEluc3RpdHVjaW9uYWwgZGEgVUZCQS4KCiBQZWxvIHByb2Nlc3NvIGRlIHN1Ym1pc3M/Pz8/byBkZSBkb2N1bWVudG9zLCBvIGF1dG9yIG91IHNldSByZXByZXNlbnRhbnRlIGxlZ2FsLCBhbyBhY2VpdGFyIGVzc2UgdGVybW8gZGUgbGljZW4/Pz8/YSwgY29uY2VkZSBhbyBSZXBvc2l0Pz8/P3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRhIEJhaGlhIG8gZGlyZWl0byBkZSBtYW50ZXIgdW1hIGM/Pz8/cGlhIGVtIHNldSByZXBvc2l0Pz8/P3JpbyBjb20gYSBmaW5hbGlkYWRlLCBwcmltZWlyYSwgZGUgcHJlc2VydmE/Pz8/Pz8/P28uIAoKRXNzZXMgdGVybW9zLCBuPz8/P28gZXhjbHVzaXZvcywgbWFudD8/Pz9tIG9zIGRpcmVpdG9zIGRlIGF1dG9yL2NvcHlyaWdodCwgbWFzIGVudGVuZGUgbyBkb2N1bWVudG8gY29tbyBwYXJ0ZSBkbyBhY2Vydm8gaW50ZWxlY3R1YWwgZGVzc2EgVW5pdmVyc2lkYWRlLgoKIFBhcmEgb3MgZG9jdW1lbnRvcyBwdWJsaWNhZG9zIGNvbSByZXBhc3NlIGRlIGRpcmVpdG9zIGRlIGRpc3RyaWJ1aT8/Pz8/Pz8/bywgZXNzZSB0ZXJtbyBkZSBsaWNlbj8/Pz9hIGVudGVuZGUgcXVlOgoKIE1hbnRlbmRvIG9zIGRpcmVpdG9zIGF1dG9yYWlzLCByZXBhc3NhZG9zIGEgdGVyY2Vpcm9zLCBlbSBjYXNvIGRlIHB1YmxpY2E/Pz8/Pz8/P2VzLCBvIHJlcG9zaXQ/Pz8/cmlvIHBvZGUgcmVzdHJpbmdpciBvIGFjZXNzbyBhbyB0ZXh0byBpbnRlZ3JhbCwgbWFzIGxpYmVyYSBhcyBpbmZvcm1hPz8/Pz8/Pz9lcyBzb2JyZSBvIGRvY3VtZW50byAoTWV0YWRhZG9zIGRlc2NyaXRpdm9zKS4KCiBEZXN0YSBmb3JtYSwgYXRlbmRlbmRvIGFvcyBhbnNlaW9zIGRlc3NhIHVuaXZlcnNpZGFkZSBlbSBtYW50ZXIgc3VhIHByb2R1Pz8/Pz8/Pz9vIGNpZW50Pz8/P2ZpY2EgY29tIGFzIHJlc3RyaT8/Pz8/Pz8/ZXMgaW1wb3N0YXMgcGVsb3MgZWRpdG9yZXMgZGUgcGVyaT8/Pz9kaWNvcy4KCiBQYXJhIGFzIHB1YmxpY2E/Pz8/Pz8/P2VzIHNlbSBpbmljaWF0aXZhcyBxdWUgc2VndWVtIGEgcG9sPz8/P3RpY2EgZGUgQWNlc3NvIEFiZXJ0bywgb3MgZGVwPz8/P3NpdG9zIGNvbXB1bHM/Pz8/cmlvcyBuZXNzZSByZXBvc2l0Pz8/P3JpbyBtYW50Pz8/P20gb3MgZGlyZWl0b3MgYXV0b3JhaXMsIG1hcyBtYW50Pz8/P20gYWNlc3NvIGlycmVzdHJpdG8gYW9zIG1ldGFkYWRvcyBlIHRleHRvIGNvbXBsZXRvLiBBc3NpbSwgYSBhY2VpdGE/Pz8/Pz8/P28gZGVzc2UgdGVybW8gbj8/Pz9vIG5lY2Vzc2l0YSBkZSBjb25zZW50aW1lbnRvIHBvciBwYXJ0ZSBkZSBhdXRvcmVzL2RldGVudG9yZXMgZG9zIGRpcmVpdG9zLCBwb3IgZXN0YXJlbSBlbSBpbmljaWF0aXZhcyBkZSBhY2Vzc28gYWJlcnRvLgo=Repositório InstitucionalPUBhttps://repositorio.ufba.br/oai/requestrepositorio@ufba.bropendoar:19322022-07-05T17:04:11Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)false
dc.title.pt_BR.fl_str_mv A framework for exploiting open data to improve spatial keyword query applications
title A framework for exploiting open data to improve spatial keyword query applications
spellingShingle A framework for exploiting open data to improve spatial keyword query applications
Almeida, João Paulo Dias de
Ciências Exatas e da Terra
Ciência da Computação
Metodologia e Técnicas da Computação
SKPQ
Spatial query
Linked open data
Query evaluation
Query processing
Query personalization
Algorithms
Information retrieval
Data Mining (Computing)
Semantic Web
Ontology
title_short A framework for exploiting open data to improve spatial keyword query applications
title_full A framework for exploiting open data to improve spatial keyword query applications
title_fullStr A framework for exploiting open data to improve spatial keyword query applications
title_full_unstemmed A framework for exploiting open data to improve spatial keyword query applications
title_sort A framework for exploiting open data to improve spatial keyword query applications
author Almeida, João Paulo Dias de
author_facet Almeida, João Paulo Dias de
author_role author
dc.contributor.author.fl_str_mv Almeida, João Paulo Dias de
Almeida, João Paulo Dias de
dc.contributor.advisor1.fl_str_mv Durão, Frederico Araújo
dc.contributor.referee1.fl_str_mv Ferraz, Carlos André Guimarães
Pires, Carlos Eduardo Santos
Claro, Daniela Barreiro
Santos, Vaninha Vieira dos
contributor_str_mv Durão, Frederico Araújo
Ferraz, Carlos André Guimarães
Pires, Carlos Eduardo Santos
Claro, Daniela Barreiro
Santos, Vaninha Vieira dos
dc.subject.cnpq.fl_str_mv Ciências Exatas e da Terra
Ciência da Computação
Metodologia e Técnicas da Computação
topic Ciências Exatas e da Terra
Ciência da Computação
Metodologia e Técnicas da Computação
SKPQ
Spatial query
Linked open data
Query evaluation
Query processing
Query personalization
Algorithms
Information retrieval
Data Mining (Computing)
Semantic Web
Ontology
dc.subject.por.fl_str_mv SKPQ
Spatial query
Linked open data
Query evaluation
Query processing
Query personalization
Algorithms
Information retrieval
Data Mining (Computing)
Semantic Web
Ontology
description Estima-se que 80% de todos os aplicativos baseados em dados possuem dados georreferenciados. Consultas espaciais são amplamente empregadas para recuperar este tipo de dado eficientemente. Entretanto, o usuário tem um papel importante no processo de recuperação dos dados georreferenciados. Um problema frequente neste cenário é quando o usuário não consegue descrever aquilo que ele deseja encontrar, dificultando a busca pelo ponto de interesse (POI) que o melhor satisfaça. Por décadas, pesquisadores propuseram técnicas para auxiliar usuários a expressar as suas necessidades. Dentre estas técnicas, pode-se citar os modelos booleanos, correspondência de padrões e expansão de consulta. Apesar da existência de alternativas importantes, faltam soluções que auxiliem o/a usuário/a a utilizar consultas do tipo preferencial que utilizem palavras-chave. O top-k Spatial Keyword Preference Query (SKPQ) é uma consulta deste tipo que surge como uma solução potencial para auxiliar usuários a encontrar POIs. O SKPQ seleciona POIs considerando a descrição de locais na vizinhança. Em essência, o usuário define uma restrição espacial (i.e. raio) e textual (i.e. palavras-chave) a ser satisfeita. Nesse contexto, esta tese propõe estratégias para melhorar a recuperação de informação proporcionada pela SKPQ e consultas similares. A contribuição desta tese pode ser dividida em três etapas. Na primeira, dois repositórios Linked Open Data (LOD) são explorados para melhorar a descrição dos POIs e suas vizinhanças. A descrição do POI no LOD contém mais informação do que nos bancos de dados espaciais tradicionais, o que resulta em uma descrição mais detalhada. Na segunda etapa, os resultados da consulta são personalizados para apresentar os melhores POIs para o usuário nas primeiras posições do rank. Ao explorar comentários relacionados aos POIs, o sistema identifica o objeto que melhor satisfaz a usuária da consulta e reordena o rank de acordo com a preferência dela. Na terceira etapa, utilizamos uma função probabilística para descrever a preferência por POIs próximos um do outro. Esta função probabilística é incorporada à função de ranqueamento para que a busca também considere esta preferência. Por fim, avaliou-se separadamente cada estratégia proposta nesta tese. A primeira estratégia alcançou melhora de 20% no Normalized Discounted Cumulative Gain (NDCG) ao utilizar palavras-chave aleatórias. Assim como encontrou POIs onde não era possível encontrar com a SKPQ. A segunda estratégia adiciona melhora de 92% no NDCG. Enquanto, a terceira estratégia melhora a consistência do rank, alcançando aumento no coeficiente Tau de 52%. Os resultados alcançados foram obtidos através de experimentos offline, utilizando dados de usuários reais em bases de dados públicas.
publishDate 2021
dc.date.submitted.none.fl_str_mv 2021-05-03
dc.date.accessioned.fl_str_mv 2021-07-05T20:15:41Z
dc.date.available.fl_str_mv 2021-07-05T20:15:41Z
dc.date.issued.fl_str_mv 2021-07-05
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://repositorio.ufba.br/ri/handle/ri/33699
url http://repositorio.ufba.br/ri/handle/ri/33699
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal da Bahia
Instituto de Matemática e Estatística
dc.publisher.program.fl_str_mv em Ciência da Computação
dc.publisher.initials.fl_str_mv UFBA
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal da Bahia
Instituto de Matemática e Estatística
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFBA
instname:Universidade Federal da Bahia (UFBA)
instacron:UFBA
instname_str Universidade Federal da Bahia (UFBA)
instacron_str UFBA
institution UFBA
reponame_str Repositório Institucional da UFBA
collection Repositório Institucional da UFBA
bitstream.url.fl_str_mv https://repositorio.ufba.br/bitstream/ri/33699/1/A%20Framework%20for%20Exploiting%20Open%20Data%20to%20Improve%20Spatial%20Keyword%20Query%20Applications.pdf
https://repositorio.ufba.br/bitstream/ri/33699/2/license.txt
https://repositorio.ufba.br/bitstream/ri/33699/3/A%20Framework%20for%20Exploiting%20Open%20Data%20to%20Improve%20Spatial%20Keyword%20Query%20Applications.pdf.txt
bitstream.checksum.fl_str_mv e50ec489c8212d4803755ac31fb3ab78
e3e6f4a9287585a60c07547815529482
35602d27a50a0fd4814741cf5a9e64dc
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)
repository.mail.fl_str_mv repositorio@ufba.br
_version_ 1847342239926190080