Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação

Detalhes bibliográficos
Ano de defesa: 2012
Autor(a) principal: Viana, Talles Brito
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal da Paraí­ba
BR
Informática
Programa de Pós-Graduação em Informática
UFPB
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpb.br/jspui/handle/tede/6076
Resumo: The explosive growth of web-based information systems has created various sources and vast quantities of semi-structured data, which need to be indexed by search engines in order to allow the retrieval of documents according to user needs. However, one of the major challenges in the development of indexing techniques for semi-structured data is related to how to index not only textual but also structural content. The main issue is how to efficiently handle branching path expressions without introducing precision loss as well as undesired growth of query processing costs and index file sizes. Several proposals for indexing semistructured data can be found in the literature. Despite their relevant contributions, existing proposals suffer from at least one of the problems related to precision loss, storage space requirements and query processing costs. In such a context, this thesis proposes an efficient, lossless path-based indexing technique (named as BranchGuide) for semi-structured data, which deals with a well-defined class of branching path expressions. This well-defined class includes branching paths that allow expressing parent-child dependencies between elements in which may be imposed restrictions over the textual value of attributes of such elements. As evinced by experimental evaluation, the adoption of the BranchGuide technique results in excellent query processing time and generates smaller index file sizes than a structural join indexing technique.
id UFPB_d08b2aa076637d54e156a26a3419bd72
oai_identifier_str oai:repositorio.ufpb.br:tede/6076
network_acronym_str UFPB
network_name_str Biblioteca Digital de Teses e Dissertações da UFPB
repository_id_str
spelling Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificaçãoInformáticaIndexaçãoRecuperação de InformaçãoDados Semi-EstruturadosData ProcessingIndexing TechniquesInformation RetrievalSemi-Structured DataCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOThe explosive growth of web-based information systems has created various sources and vast quantities of semi-structured data, which need to be indexed by search engines in order to allow the retrieval of documents according to user needs. However, one of the major challenges in the development of indexing techniques for semi-structured data is related to how to index not only textual but also structural content. The main issue is how to efficiently handle branching path expressions without introducing precision loss as well as undesired growth of query processing costs and index file sizes. Several proposals for indexing semistructured data can be found in the literature. Despite their relevant contributions, existing proposals suffer from at least one of the problems related to precision loss, storage space requirements and query processing costs. In such a context, this thesis proposes an efficient, lossless path-based indexing technique (named as BranchGuide) for semi-structured data, which deals with a well-defined class of branching path expressions. This well-defined class includes branching paths that allow expressing parent-child dependencies between elements in which may be imposed restrictions over the textual value of attributes of such elements. As evinced by experimental evaluation, the adoption of the BranchGuide technique results in excellent query processing time and generates smaller index file sizes than a structural join indexing technique.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESO surgimento de sistemas baseados na Web tem gerado uma vasta quantidade de fontes de documentos semi-estruturados, os quais necessitam ser indexados por sistemas de busca a fim de possibilitar a descoberta de documentos de acordo com necessidades de informação do usuário. Entretanto, um dos maiores desafios no desenvolvimento de técnicas de indexação para documentos semi-estruturados diz respeito a como indexar não somente o conteúdo textual, mas também a informação estrutural dos documentos. O principal problema está em prover suporte para consultas com ramificação sem introduzir fatores que causem perda de precisão aos resultados de pesquisa, bem como, o crescimento indesejado do tempo de processamento de consultas e dos tamanhos de índice. Várias técnicas de indexação para dados semi-estruturados são encontradas na literatura. Apesar das relevantes contribuições, as propostas existentes sofrem com problemas relacionados à perda de precisão, requisitos de armazenamento ou custos de processamento de consultas. Neste contexto, nesta dissertação é proposta uma técnica de indexação (denominada BranchGuide) para dados semi-estruturados que suporta uma bem definida classe de consultas com ramificação sem perda de precisão. Esta classe compreende caminhos com ramificação que permitem expressar dependências paifilho entre elementos nos quais podem ser impostas restrições sob os valores de atributos de tais elementos. Como evidenciado experimentalmente, a adoção da técnica BranchGuide gera excelentes tempos de processamento de consulta e tamanhos de índice menores do que os gerados por uma técnica de interseção estrutural.Universidade Federal da Paraí­baBRInformáticaPrograma de Pós-Graduação em InformáticaUFPBSilveira, Glêdson Elias dahttp://lattes.cnpq.br/5810209465098759Viana, Talles Brito2015-05-14T12:36:35Z2018-07-21T00:14:12Z2013-02-012018-07-21T00:14:12Z2012-04-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfVIANA, Talles Brito. Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação. 2012. 130 f. Dissertação (Mestrado em Informática) - Universidade Federal da Paraí­ba, João Pessoa, 2012.https://repositorio.ufpb.br/jspui/handle/tede/6076porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFPBinstname:Universidade Federal da Paraíba (UFPB)instacron:UFPB2018-09-06T02:05:24Zoai:repositorio.ufpb.br:tede/6076Biblioteca Digital de Teses e Dissertaçõeshttps://repositorio.ufpb.br/PUBhttp://tede.biblioteca.ufpb.br:8080/oai/requestdiretoria@ufpb.br|| bdtd@biblioteca.ufpb.bropendoar:2018-09-06T02:05:24Biblioteca Digital de Teses e Dissertações da UFPB - Universidade Federal da Paraíba (UFPB)false
dc.title.none.fl_str_mv Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação
title Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação
spellingShingle Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação
Viana, Talles Brito
Informática
Indexação
Recuperação de Informação
Dados Semi-Estruturados
Data Processing
Indexing Techniques
Information Retrieval
Semi-Structured Data
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação
title_full Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação
title_fullStr Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação
title_full_unstemmed Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação
title_sort Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação
author Viana, Talles Brito
author_facet Viana, Talles Brito
author_role author
dc.contributor.none.fl_str_mv Silveira, Glêdson Elias da
http://lattes.cnpq.br/5810209465098759
dc.contributor.author.fl_str_mv Viana, Talles Brito
dc.subject.por.fl_str_mv Informática
Indexação
Recuperação de Informação
Dados Semi-Estruturados
Data Processing
Indexing Techniques
Information Retrieval
Semi-Structured Data
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic Informática
Indexação
Recuperação de Informação
Dados Semi-Estruturados
Data Processing
Indexing Techniques
Information Retrieval
Semi-Structured Data
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description The explosive growth of web-based information systems has created various sources and vast quantities of semi-structured data, which need to be indexed by search engines in order to allow the retrieval of documents according to user needs. However, one of the major challenges in the development of indexing techniques for semi-structured data is related to how to index not only textual but also structural content. The main issue is how to efficiently handle branching path expressions without introducing precision loss as well as undesired growth of query processing costs and index file sizes. Several proposals for indexing semistructured data can be found in the literature. Despite their relevant contributions, existing proposals suffer from at least one of the problems related to precision loss, storage space requirements and query processing costs. In such a context, this thesis proposes an efficient, lossless path-based indexing technique (named as BranchGuide) for semi-structured data, which deals with a well-defined class of branching path expressions. This well-defined class includes branching paths that allow expressing parent-child dependencies between elements in which may be imposed restrictions over the textual value of attributes of such elements. As evinced by experimental evaluation, the adoption of the BranchGuide technique results in excellent query processing time and generates smaller index file sizes than a structural join indexing technique.
publishDate 2012
dc.date.none.fl_str_mv 2012-04-20
2013-02-01
2015-05-14T12:36:35Z
2018-07-21T00:14:12Z
2018-07-21T00:14:12Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv VIANA, Talles Brito. Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação. 2012. 130 f. Dissertação (Mestrado em Informática) - Universidade Federal da Paraí­ba, João Pessoa, 2012.
https://repositorio.ufpb.br/jspui/handle/tede/6076
identifier_str_mv VIANA, Talles Brito. Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação. 2012. 130 f. Dissertação (Mestrado em Informática) - Universidade Federal da Paraí­ba, João Pessoa, 2012.
url https://repositorio.ufpb.br/jspui/handle/tede/6076
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal da Paraí­ba
BR
Informática
Programa de Pós-Graduação em Informática
UFPB
publisher.none.fl_str_mv Universidade Federal da Paraí­ba
BR
Informática
Programa de Pós-Graduação em Informática
UFPB
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFPB
instname:Universidade Federal da Paraíba (UFPB)
instacron:UFPB
instname_str Universidade Federal da Paraíba (UFPB)
instacron_str UFPB
institution UFPB
reponame_str Biblioteca Digital de Teses e Dissertações da UFPB
collection Biblioteca Digital de Teses e Dissertações da UFPB
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFPB - Universidade Federal da Paraíba (UFPB)
repository.mail.fl_str_mv diretoria@ufpb.br|| bdtd@biblioteca.ufpb.br
_version_ 1831315269246517248