Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação
| Ano de defesa: | 2012 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal da Paraíba
BR Informática Programa de Pós-Graduação em Informática UFPB |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://repositorio.ufpb.br/jspui/handle/tede/6076 |
Resumo: | The explosive growth of web-based information systems has created various sources and vast quantities of semi-structured data, which need to be indexed by search engines in order to allow the retrieval of documents according to user needs. However, one of the major challenges in the development of indexing techniques for semi-structured data is related to how to index not only textual but also structural content. The main issue is how to efficiently handle branching path expressions without introducing precision loss as well as undesired growth of query processing costs and index file sizes. Several proposals for indexing semistructured data can be found in the literature. Despite their relevant contributions, existing proposals suffer from at least one of the problems related to precision loss, storage space requirements and query processing costs. In such a context, this thesis proposes an efficient, lossless path-based indexing technique (named as BranchGuide) for semi-structured data, which deals with a well-defined class of branching path expressions. This well-defined class includes branching paths that allow expressing parent-child dependencies between elements in which may be imposed restrictions over the textual value of attributes of such elements. As evinced by experimental evaluation, the adoption of the BranchGuide technique results in excellent query processing time and generates smaller index file sizes than a structural join indexing technique. |
| id |
UFPB_d08b2aa076637d54e156a26a3419bd72 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufpb.br:tede/6076 |
| network_acronym_str |
UFPB |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UFPB |
| repository_id_str |
|
| spelling |
Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificaçãoInformáticaIndexaçãoRecuperação de InformaçãoDados Semi-EstruturadosData ProcessingIndexing TechniquesInformation RetrievalSemi-Structured DataCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOThe explosive growth of web-based information systems has created various sources and vast quantities of semi-structured data, which need to be indexed by search engines in order to allow the retrieval of documents according to user needs. However, one of the major challenges in the development of indexing techniques for semi-structured data is related to how to index not only textual but also structural content. The main issue is how to efficiently handle branching path expressions without introducing precision loss as well as undesired growth of query processing costs and index file sizes. Several proposals for indexing semistructured data can be found in the literature. Despite their relevant contributions, existing proposals suffer from at least one of the problems related to precision loss, storage space requirements and query processing costs. In such a context, this thesis proposes an efficient, lossless path-based indexing technique (named as BranchGuide) for semi-structured data, which deals with a well-defined class of branching path expressions. This well-defined class includes branching paths that allow expressing parent-child dependencies between elements in which may be imposed restrictions over the textual value of attributes of such elements. As evinced by experimental evaluation, the adoption of the BranchGuide technique results in excellent query processing time and generates smaller index file sizes than a structural join indexing technique.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESO surgimento de sistemas baseados na Web tem gerado uma vasta quantidade de fontes de documentos semi-estruturados, os quais necessitam ser indexados por sistemas de busca a fim de possibilitar a descoberta de documentos de acordo com necessidades de informação do usuário. Entretanto, um dos maiores desafios no desenvolvimento de técnicas de indexação para documentos semi-estruturados diz respeito a como indexar não somente o conteúdo textual, mas também a informação estrutural dos documentos. O principal problema está em prover suporte para consultas com ramificação sem introduzir fatores que causem perda de precisão aos resultados de pesquisa, bem como, o crescimento indesejado do tempo de processamento de consultas e dos tamanhos de índice. Várias técnicas de indexação para dados semi-estruturados são encontradas na literatura. Apesar das relevantes contribuições, as propostas existentes sofrem com problemas relacionados à perda de precisão, requisitos de armazenamento ou custos de processamento de consultas. Neste contexto, nesta dissertação é proposta uma técnica de indexação (denominada BranchGuide) para dados semi-estruturados que suporta uma bem definida classe de consultas com ramificação sem perda de precisão. Esta classe compreende caminhos com ramificação que permitem expressar dependências paifilho entre elementos nos quais podem ser impostas restrições sob os valores de atributos de tais elementos. Como evidenciado experimentalmente, a adoção da técnica BranchGuide gera excelentes tempos de processamento de consulta e tamanhos de índice menores do que os gerados por uma técnica de interseção estrutural.Universidade Federal da ParaíbaBRInformáticaPrograma de Pós-Graduação em InformáticaUFPBSilveira, Glêdson Elias dahttp://lattes.cnpq.br/5810209465098759Viana, Talles Brito2015-05-14T12:36:35Z2018-07-21T00:14:12Z2013-02-012018-07-21T00:14:12Z2012-04-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfVIANA, Talles Brito. Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação. 2012. 130 f. Dissertação (Mestrado em Informática) - Universidade Federal da Paraíba, João Pessoa, 2012.https://repositorio.ufpb.br/jspui/handle/tede/6076porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFPBinstname:Universidade Federal da Paraíba (UFPB)instacron:UFPB2018-09-06T02:05:24Zoai:repositorio.ufpb.br:tede/6076Biblioteca Digital de Teses e Dissertaçõeshttps://repositorio.ufpb.br/PUBhttp://tede.biblioteca.ufpb.br:8080/oai/requestdiretoria@ufpb.br|| bdtd@biblioteca.ufpb.bropendoar:2018-09-06T02:05:24Biblioteca Digital de Teses e Dissertações da UFPB - Universidade Federal da Paraíba (UFPB)false |
| dc.title.none.fl_str_mv |
Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação |
| title |
Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação |
| spellingShingle |
Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação Viana, Talles Brito Informática Indexação Recuperação de Informação Dados Semi-Estruturados Data Processing Indexing Techniques Information Retrieval Semi-Structured Data CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| title_short |
Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação |
| title_full |
Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação |
| title_fullStr |
Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação |
| title_full_unstemmed |
Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação |
| title_sort |
Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação |
| author |
Viana, Talles Brito |
| author_facet |
Viana, Talles Brito |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Silveira, Glêdson Elias da http://lattes.cnpq.br/5810209465098759 |
| dc.contributor.author.fl_str_mv |
Viana, Talles Brito |
| dc.subject.por.fl_str_mv |
Informática Indexação Recuperação de Informação Dados Semi-Estruturados Data Processing Indexing Techniques Information Retrieval Semi-Structured Data CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| topic |
Informática Indexação Recuperação de Informação Dados Semi-Estruturados Data Processing Indexing Techniques Information Retrieval Semi-Structured Data CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| description |
The explosive growth of web-based information systems has created various sources and vast quantities of semi-structured data, which need to be indexed by search engines in order to allow the retrieval of documents according to user needs. However, one of the major challenges in the development of indexing techniques for semi-structured data is related to how to index not only textual but also structural content. The main issue is how to efficiently handle branching path expressions without introducing precision loss as well as undesired growth of query processing costs and index file sizes. Several proposals for indexing semistructured data can be found in the literature. Despite their relevant contributions, existing proposals suffer from at least one of the problems related to precision loss, storage space requirements and query processing costs. In such a context, this thesis proposes an efficient, lossless path-based indexing technique (named as BranchGuide) for semi-structured data, which deals with a well-defined class of branching path expressions. This well-defined class includes branching paths that allow expressing parent-child dependencies between elements in which may be imposed restrictions over the textual value of attributes of such elements. As evinced by experimental evaluation, the adoption of the BranchGuide technique results in excellent query processing time and generates smaller index file sizes than a structural join indexing technique. |
| publishDate |
2012 |
| dc.date.none.fl_str_mv |
2012-04-20 2013-02-01 2015-05-14T12:36:35Z 2018-07-21T00:14:12Z 2018-07-21T00:14:12Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
VIANA, Talles Brito. Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação. 2012. 130 f. Dissertação (Mestrado em Informática) - Universidade Federal da Paraíba, João Pessoa, 2012. https://repositorio.ufpb.br/jspui/handle/tede/6076 |
| identifier_str_mv |
VIANA, Talles Brito. Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação. 2012. 130 f. Dissertação (Mestrado em Informática) - Universidade Federal da Paraíba, João Pessoa, 2012. |
| url |
https://repositorio.ufpb.br/jspui/handle/tede/6076 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal da Paraíba BR Informática Programa de Pós-Graduação em Informática UFPB |
| publisher.none.fl_str_mv |
Universidade Federal da Paraíba BR Informática Programa de Pós-Graduação em Informática UFPB |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFPB instname:Universidade Federal da Paraíba (UFPB) instacron:UFPB |
| instname_str |
Universidade Federal da Paraíba (UFPB) |
| instacron_str |
UFPB |
| institution |
UFPB |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UFPB |
| collection |
Biblioteca Digital de Teses e Dissertações da UFPB |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFPB - Universidade Federal da Paraíba (UFPB) |
| repository.mail.fl_str_mv |
diretoria@ufpb.br|| bdtd@biblioteca.ufpb.br |
| _version_ |
1831315269246517248 |