Uma proposta de interface de consulta para recuperação de informação em documentos semi-estruturados

Detalhes bibliográficos
Ano de defesa: 2009
Autor(a) principal: Junqueira, Mirella Silva
Orientador(a): Silva, Ilmério Reis da lattes
Banca de defesa: Souza, João Nunes de lattes, Torres, Ricardo da Silva lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Uberlândia
Programa de Pós-Graduação: Programa de Pós-graduação em Ciência da Computação
Departamento: Ciências Exatas e da Terra
País: BR
Palavras-chave em Português:
XML
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufu.br/handle/123456789/12474
Resumo: Semi-Structured Information Retrieval is an intermediate way to retrieve information between Textual Retrieval and Structured Retrieval (typical in relational database systems). In structured retrieval systems, users generally know the available data structure and query languages, so they can formulate queries that produce more accurate results. In textual retrieval users dont known the data structure and formulate queries with keywords only, which produces not so accurate results. In Semi-Structured Retrieval, users generally dont known the data structure and formulate queries that mix textual search and structured retrieval mechanisms. In this context, the problem of how to improve the results accuracy using the structure inside semi-structured documents appears. Semi-structured data is usually stored as XML documents and can be seen as trees. Internal nodes of these trees have the structure of documents, while leaf nodes contain text. The design of interfaces for users in this context is one of the biggest challenges in semi-structured information retrieval. This occurs especially because the users dont known the document structure and have problems in formulating structured queries. This dissertation presents a proposal and a prototype interface developed to help users in the process of formulation of structured queries. The aim is to increase the precision in the results of the queries. The proposal is validated by experiments involving volunteers users and by comparing the results of textual queries and structured queries made with the help of the interface. The improvement reaches 440% for well structured queries, with a user who knows the interface, and 179.75% for reasonably structured queries, by users without experience to use the interface.
id UFU_7a8affc455436d5c4c31df089850d289
oai_identifier_str oai:repositorio.ufu.br:123456789/12474
network_acronym_str UFU
network_name_str Repositório Institucional da UFU
repository_id_str
spelling 2016-06-22T18:32:14Z2009-08-102016-06-22T18:32:14Z2009-02-19JUNQUEIRA, Mirella Silva. Uma proposta de interface de consulta para recuperação de informação em documentos semi-estruturados. 2009. 125 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de Uberlândia, Uberlândia, 2009.https://repositorio.ufu.br/handle/123456789/12474Semi-Structured Information Retrieval is an intermediate way to retrieve information between Textual Retrieval and Structured Retrieval (typical in relational database systems). In structured retrieval systems, users generally know the available data structure and query languages, so they can formulate queries that produce more accurate results. In textual retrieval users dont known the data structure and formulate queries with keywords only, which produces not so accurate results. In Semi-Structured Retrieval, users generally dont known the data structure and formulate queries that mix textual search and structured retrieval mechanisms. In this context, the problem of how to improve the results accuracy using the structure inside semi-structured documents appears. Semi-structured data is usually stored as XML documents and can be seen as trees. Internal nodes of these trees have the structure of documents, while leaf nodes contain text. The design of interfaces for users in this context is one of the biggest challenges in semi-structured information retrieval. This occurs especially because the users dont known the document structure and have problems in formulating structured queries. This dissertation presents a proposal and a prototype interface developed to help users in the process of formulation of structured queries. The aim is to increase the precision in the results of the queries. The proposal is validated by experiments involving volunteers users and by comparing the results of textual queries and structured queries made with the help of the interface. The improvement reaches 440% for well structured queries, with a user who knows the interface, and 179.75% for reasonably structured queries, by users without experience to use the interface.A Recuperação Semi-Estruturada é uma forma de recuperação de informação intermediária entre a Recuperação Textual e a Recuperação Estruturada (típica em sistemas de banco de dados relacionais). Em sistemas de recuperação estruturada, o usuário geralmente conhece a estrutura dos dados e as linguagens de consulta disponíveis, conseguindo assim formular consultas que produzem resultados mais precisos. Na Recuperação Textual o usuário não conhece a estrutura dos dados e formula as consultas apenas com palavraschaves, as quais geram resultados não tão precisos. Na Recuperação Semi-Estruturada, o usuário geralmente desconhece a estrutura dos dados e formula consultas que mesclam buscas textuais e mecanismos de recuperação estruturada. Neste contexto, surge o problema de como melhorar a precisão dos resultados aproveitando a estrutura contida nos documentos semi-estruturados. Dados semi-estruturados são comummente armazenados como documentos XML, os quais podem ser vistos como árvores. Nós internos dessas árvores contem a estrutura do documento enquanto os nós folhas contêm os dados. O projeto de interfaces para usuários neste contexto é um dos grandes desafios na recuperação semi-estruturada. Isso ocorre especialmente porque os usuários não conhecem a estrutura do documento e têm dificuldade na formulação de consultas estruturadas. Este trabalho apresenta uma proposta e um protótipo de interface desenvolvido para auxiliar os usuários no processo de formulação de consultas estruturadas. Pretende-se com isso aumentar a precisão nos resultados das consultas. A proposta é validada por meio de experimentos envolvendo usuários voluntários e pela comparação de resultados obtidos com consultas textuais e consultas estruturadas formuladas com o auxílio da ferramenta. A melhoria atinge 440% para consultas bem estruturadas, realizadas por usuário que conhece bem a interface, e 179,75% para consultas razoavelmente estruturadas, realizadas por usuários sem experiência no uso da interface.Conselho Nacional de Desenvolvimento Científico e TecnológicoMestre em Ciência da Computaçãoapplication/pdfporUniversidade Federal de UberlândiaPrograma de Pós-graduação em Ciência da ComputaçãoUFUBRCiências Exatas e da TerraRecuperação de informaçãoRecuperação semiestruturadaInterfaces homem-máquinaXMLBanco de dadosDatabaseInformation retrievalSemi-structured information retrievalHuman-machine interfacesCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOUma proposta de interface de consulta para recuperação de informação em documentos semi-estruturadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSilva, Ilmério Reis dahttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4760865T7Souza, João Nunes dehttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4781313D9Torres, Ricardo da Silvahttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4769295A9Junqueira, Mirella Silvainfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFUinstname:Universidade Federal de Uberlândia (UFU)instacron:UFUTHUMBNAILdis.pdf.jpgdis.pdf.jpgGenerated Thumbnailimage/jpeg1256https://repositorio.ufu.br/bitstream/123456789/12474/3/dis.pdf.jpgde69cccced907e9b85bfe103ec452d7aMD53ORIGINALdis.pdfapplication/pdf2520248https://repositorio.ufu.br/bitstream/123456789/12474/1/dis.pdf6c301e9f21312ddaad8d842f431cebf4MD51TEXTdis.pdf.txtdis.pdf.txtExtracted texttext/plain230213https://repositorio.ufu.br/bitstream/123456789/12474/2/dis.pdf.txt9a204600037a7d495fc37170d936972dMD52123456789/124742017-06-23 09:55:15.825oai:repositorio.ufu.br:123456789/12474Repositório InstitucionalONGhttp://repositorio.ufu.br/oai/requestdiinf@dirbi.ufu.bropendoar:2017-06-23T12:55:15Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)false
dc.title.por.fl_str_mv Uma proposta de interface de consulta para recuperação de informação em documentos semi-estruturados
title Uma proposta de interface de consulta para recuperação de informação em documentos semi-estruturados
spellingShingle Uma proposta de interface de consulta para recuperação de informação em documentos semi-estruturados
Junqueira, Mirella Silva
Recuperação de informação
Recuperação semiestruturada
Interfaces homem-máquina
XML
Banco de dados
Database
Information retrieval
Semi-structured information retrieval
Human-machine interfaces
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Uma proposta de interface de consulta para recuperação de informação em documentos semi-estruturados
title_full Uma proposta de interface de consulta para recuperação de informação em documentos semi-estruturados
title_fullStr Uma proposta de interface de consulta para recuperação de informação em documentos semi-estruturados
title_full_unstemmed Uma proposta de interface de consulta para recuperação de informação em documentos semi-estruturados
title_sort Uma proposta de interface de consulta para recuperação de informação em documentos semi-estruturados
author Junqueira, Mirella Silva
author_facet Junqueira, Mirella Silva
author_role author
dc.contributor.advisor1.fl_str_mv Silva, Ilmério Reis da
dc.contributor.advisor1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4760865T7
dc.contributor.referee1.fl_str_mv Souza, João Nunes de
dc.contributor.referee1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4781313D9
dc.contributor.referee2.fl_str_mv Torres, Ricardo da Silva
dc.contributor.referee2Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4769295A9
dc.contributor.author.fl_str_mv Junqueira, Mirella Silva
contributor_str_mv Silva, Ilmério Reis da
Souza, João Nunes de
Torres, Ricardo da Silva
dc.subject.por.fl_str_mv Recuperação de informação
Recuperação semiestruturada
Interfaces homem-máquina
XML
Banco de dados
topic Recuperação de informação
Recuperação semiestruturada
Interfaces homem-máquina
XML
Banco de dados
Database
Information retrieval
Semi-structured information retrieval
Human-machine interfaces
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Database
Information retrieval
Semi-structured information retrieval
Human-machine interfaces
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Semi-Structured Information Retrieval is an intermediate way to retrieve information between Textual Retrieval and Structured Retrieval (typical in relational database systems). In structured retrieval systems, users generally know the available data structure and query languages, so they can formulate queries that produce more accurate results. In textual retrieval users dont known the data structure and formulate queries with keywords only, which produces not so accurate results. In Semi-Structured Retrieval, users generally dont known the data structure and formulate queries that mix textual search and structured retrieval mechanisms. In this context, the problem of how to improve the results accuracy using the structure inside semi-structured documents appears. Semi-structured data is usually stored as XML documents and can be seen as trees. Internal nodes of these trees have the structure of documents, while leaf nodes contain text. The design of interfaces for users in this context is one of the biggest challenges in semi-structured information retrieval. This occurs especially because the users dont known the document structure and have problems in formulating structured queries. This dissertation presents a proposal and a prototype interface developed to help users in the process of formulation of structured queries. The aim is to increase the precision in the results of the queries. The proposal is validated by experiments involving volunteers users and by comparing the results of textual queries and structured queries made with the help of the interface. The improvement reaches 440% for well structured queries, with a user who knows the interface, and 179.75% for reasonably structured queries, by users without experience to use the interface.
publishDate 2009
dc.date.available.fl_str_mv 2009-08-10
2016-06-22T18:32:14Z
dc.date.issued.fl_str_mv 2009-02-19
dc.date.accessioned.fl_str_mv 2016-06-22T18:32:14Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv JUNQUEIRA, Mirella Silva. Uma proposta de interface de consulta para recuperação de informação em documentos semi-estruturados. 2009. 125 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de Uberlândia, Uberlândia, 2009.
dc.identifier.uri.fl_str_mv https://repositorio.ufu.br/handle/123456789/12474
identifier_str_mv JUNQUEIRA, Mirella Silva. Uma proposta de interface de consulta para recuperação de informação em documentos semi-estruturados. 2009. 125 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de Uberlândia, Uberlândia, 2009.
url https://repositorio.ufu.br/handle/123456789/12474
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Uberlândia
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv UFU
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Ciências Exatas e da Terra
publisher.none.fl_str_mv Universidade Federal de Uberlândia
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFU
instname:Universidade Federal de Uberlândia (UFU)
instacron:UFU
instname_str Universidade Federal de Uberlândia (UFU)
instacron_str UFU
institution UFU
reponame_str Repositório Institucional da UFU
collection Repositório Institucional da UFU
bitstream.url.fl_str_mv https://repositorio.ufu.br/bitstream/123456789/12474/3/dis.pdf.jpg
https://repositorio.ufu.br/bitstream/123456789/12474/1/dis.pdf
https://repositorio.ufu.br/bitstream/123456789/12474/2/dis.pdf.txt
bitstream.checksum.fl_str_mv de69cccced907e9b85bfe103ec452d7a
6c301e9f21312ddaad8d842f431cebf4
9a204600037a7d495fc37170d936972d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)
repository.mail.fl_str_mv diinf@dirbi.ufu.br
_version_ 1792331414615621632