DBFIRE: recuperação de documentos relacionados a consultas a banco de dados.

Detalhes bibliográficos
Ano de defesa: 2014
Autor(a) principal: CATÃO, Vladimir Soares. lattes
Orientador(a): SCHIEL, Ulrich. lattes, SAMPAIO, Marcus Costa. lattes
Banca de defesa: PIRES, Carlos Eduardo Santos., TORRES, Ricardo da Silva., CAMPELO, Cláudio Elizio Calazans., MOURA, Edleno Silva de.
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Campina Grande
Programa de Pós-Graduação: PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
Departamento: Centro de Engenharia Elétrica e Informática - CEEI
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/2342
Resumo: Bancos de dados e documentos são comumente mantidos em separado nas organizações, controlados por Sistemas Gerenciadores de Bancos de Dados (SGBDs) e Sistemas de Recuperação de Informação (SRIs), respectivamente. Essa separação tem ligação com a natureza dos dados manipulados: estruturados, no primeiro caso; não estruturados, no segundo. Enquanto os SGBDs processam consultas exatas a bancos de dados, os SRIs recuperam documentos com base em buscas por palavras-chave, que são inerentemente imprecisas. Apesar disso, a integração desses sistemas pode resultar em grandes ganhos ao usuário, uma vez que, numa mesma organização, bancos de dados e documentos frequentemente se referem a entidades comuns. Uma das possibilidades de integração é a recuperação de documentos associados a uma dada consulta a banco de dados. Por exemplo, considerando a consulta "Quais os clientes com contratos acima de X reais?", como recuperar documentos que possam estar associados a esta consulta, como os próprios contratos desses clientes, propostas de novas vendas em aberto, entre outros documentos? A solução proposta nesta tese baseia-se numa abordagem especial de expansão de busca para a recuperação de documentos: um conjunto inicial de palavras-chave é expandido com termos potencialmente úteis contidos no resultado de uma consulta a banco de dados; o conjunto de palavras-chave resultante é então enviado a um SRI para a recuperação dos documentos de interesse para a consulta. Propõe-se ainda uma nova forma de ordenação dos termos para expansão: partindo do pressuposto de que uma consulta a banco de dados representa com exatidão a necessidade de informação do usuário, a seleção dos termos é medida por sua difusão ao longo do resultado da consulta. Essa medida é usada não apenas para selecionar os melhores termos, mas também para estabelecer seus pesos relativos na expansão. Para validar o método proposto, foram realizados experimentos em dois domínios distintos, com resultados evidenciando melhorias significativas em termos da recuperação de documentos relacionados às consultas na comparação com outros modelos destacados na literatura.
id UFCG_8a67c0e83aba9f2d525d09ff7be78c5d
oai_identifier_str oai:localhost:riufcg/2342
network_acronym_str UFCG
network_name_str Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str
spelling SCHIEL, Ulrich.SCHIEL, U.http://lattes.cnpq.br/2971250918247087SAMPAIO, Marcus Costa.SAMPAIO, M. C.http://lattes.cnpq.br/7407058401863661PIRES, Carlos Eduardo Santos.TORRES, Ricardo da Silva.CAMPELO, Cláudio Elizio Calazans.MOURA, Edleno Silva de.CATAO, V. S.http://lattes.cnpq.br/9004848457100237CATÃO, Vladimir Soares.Submitted by Emanuel Varela Cardoso (emanuel.varela@ufcg.edu.br) on 2018-12-04T18:09:47Z No. of bitstreams: 1 VLADIMIR SOARES CATÃO – TESE (PPGCC) 2014.pdf: 4567060 bytes, checksum: 4bd103e68aed5b1bf278fa6cd89704bf (MD5)Made available in DSpace on 2018-12-04T18:09:47Z (GMT). No. of bitstreams: 1 VLADIMIR SOARES CATÃO – TESE (PPGCC) 2014.pdf: 4567060 bytes, checksum: 4bd103e68aed5b1bf278fa6cd89704bf (MD5) Previous issue date: 2014-11-21Bancos de dados e documentos são comumente mantidos em separado nas organizações, controlados por Sistemas Gerenciadores de Bancos de Dados (SGBDs) e Sistemas de Recuperação de Informação (SRIs), respectivamente. Essa separação tem ligação com a natureza dos dados manipulados: estruturados, no primeiro caso; não estruturados, no segundo. Enquanto os SGBDs processam consultas exatas a bancos de dados, os SRIs recuperam documentos com base em buscas por palavras-chave, que são inerentemente imprecisas. Apesar disso, a integração desses sistemas pode resultar em grandes ganhos ao usuário, uma vez que, numa mesma organização, bancos de dados e documentos frequentemente se referem a entidades comuns. Uma das possibilidades de integração é a recuperação de documentos associados a uma dada consulta a banco de dados. Por exemplo, considerando a consulta "Quais os clientes com contratos acima de X reais?", como recuperar documentos que possam estar associados a esta consulta, como os próprios contratos desses clientes, propostas de novas vendas em aberto, entre outros documentos? A solução proposta nesta tese baseia-se numa abordagem especial de expansão de busca para a recuperação de documentos: um conjunto inicial de palavras-chave é expandido com termos potencialmente úteis contidos no resultado de uma consulta a banco de dados; o conjunto de palavras-chave resultante é então enviado a um SRI para a recuperação dos documentos de interesse para a consulta. Propõe-se ainda uma nova forma de ordenação dos termos para expansão: partindo do pressuposto de que uma consulta a banco de dados representa com exatidão a necessidade de informação do usuário, a seleção dos termos é medida por sua difusão ao longo do resultado da consulta. Essa medida é usada não apenas para selecionar os melhores termos, mas também para estabelecer seus pesos relativos na expansão. Para validar o método proposto, foram realizados experimentos em dois domínios distintos, com resultados evidenciando melhorias significativas em termos da recuperação de documentos relacionados às consultas na comparação com outros modelos destacados na literatura.Universidade Federal de Campina GrandePÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGBrasilCentro de Engenharia Elétrica e Informática - CEEICiência da ComputaçãoMetodologia e Técnicas da ComputaçãoBanco de DadosDBFIRERecuperação de documentosBanco de dadosSGBDSSRISDocumentos XMLDocument retrievalDatabaseXML documentsDBFIRE: recuperação de documentos relacionados a consultas a banco de dados.2014-11-212018-12-04T18:09:47Z2018-12-042018-12-04T18:09:47Zhttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/2342CATÃO, V. S. DBFIRE: recuperação de documentos relacionados a consultas a banco de dados. 2014. 132 f. Tese (Doutorado em Ciência da Computação) Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2014. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/2342info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisporinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCGORIGINALVLADIMIR SOARES CATÃO – TESE (PPGCC) 2014.pdfVLADIMIR SOARES CATÃO – TESE (PPGCC) 2014.pdfapplication/pdf2629709http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/2342/3/VLADIMIR+SOARES+CAT%C3%83O+%E2%80%93+TESE+%28PPGCC%29+2014.pdfd78f839e48c34cb3769bf12d34a28acdMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/2342/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52riufcg/23422022-03-14 16:44:44.696oai:localhost:riufcg/2342Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512022-03-14T19:44:44Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.pt_BR.fl_str_mv DBFIRE: recuperação de documentos relacionados a consultas a banco de dados.
title DBFIRE: recuperação de documentos relacionados a consultas a banco de dados.
spellingShingle DBFIRE: recuperação de documentos relacionados a consultas a banco de dados.
CATÃO, Vladimir Soares.
Ciência da Computação
Metodologia e Técnicas da Computação
Banco de Dados
DBFIRE
Recuperação de documentos
Banco de dados
SGBDS
SRIS
Documentos XML
Document retrieval
Database
XML documents
title_short DBFIRE: recuperação de documentos relacionados a consultas a banco de dados.
title_full DBFIRE: recuperação de documentos relacionados a consultas a banco de dados.
title_fullStr DBFIRE: recuperação de documentos relacionados a consultas a banco de dados.
title_full_unstemmed DBFIRE: recuperação de documentos relacionados a consultas a banco de dados.
title_sort DBFIRE: recuperação de documentos relacionados a consultas a banco de dados.
author CATÃO, Vladimir Soares.
author_facet CATÃO, Vladimir Soares.
author_role author
dc.contributor.advisor2ID.pt_BR.fl_str_mv SAMPAIO, M. C.
dc.contributor.advisor1.fl_str_mv SCHIEL, Ulrich.
dc.contributor.advisor1ID.fl_str_mv SCHIEL, U.
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/2971250918247087
dc.contributor.advisor2.fl_str_mv SAMPAIO, Marcus Costa.
dc.contributor.advisor2Lattes.fl_str_mv http://lattes.cnpq.br/7407058401863661
dc.contributor.referee1.fl_str_mv PIRES, Carlos Eduardo Santos.
dc.contributor.referee2.fl_str_mv TORRES, Ricardo da Silva.
dc.contributor.referee3.fl_str_mv CAMPELO, Cláudio Elizio Calazans.
dc.contributor.referee4.fl_str_mv MOURA, Edleno Silva de.
dc.contributor.authorID.fl_str_mv CATAO, V. S.
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/9004848457100237
dc.contributor.author.fl_str_mv CATÃO, Vladimir Soares.
contributor_str_mv SCHIEL, Ulrich.
SAMPAIO, Marcus Costa.
PIRES, Carlos Eduardo Santos.
TORRES, Ricardo da Silva.
CAMPELO, Cláudio Elizio Calazans.
MOURA, Edleno Silva de.
dc.subject.cnpq.fl_str_mv Ciência da Computação
Metodologia e Técnicas da Computação
Banco de Dados
topic Ciência da Computação
Metodologia e Técnicas da Computação
Banco de Dados
DBFIRE
Recuperação de documentos
Banco de dados
SGBDS
SRIS
Documentos XML
Document retrieval
Database
XML documents
dc.subject.por.fl_str_mv DBFIRE
Recuperação de documentos
Banco de dados
SGBDS
SRIS
Documentos XML
Document retrieval
Database
XML documents
description Bancos de dados e documentos são comumente mantidos em separado nas organizações, controlados por Sistemas Gerenciadores de Bancos de Dados (SGBDs) e Sistemas de Recuperação de Informação (SRIs), respectivamente. Essa separação tem ligação com a natureza dos dados manipulados: estruturados, no primeiro caso; não estruturados, no segundo. Enquanto os SGBDs processam consultas exatas a bancos de dados, os SRIs recuperam documentos com base em buscas por palavras-chave, que são inerentemente imprecisas. Apesar disso, a integração desses sistemas pode resultar em grandes ganhos ao usuário, uma vez que, numa mesma organização, bancos de dados e documentos frequentemente se referem a entidades comuns. Uma das possibilidades de integração é a recuperação de documentos associados a uma dada consulta a banco de dados. Por exemplo, considerando a consulta "Quais os clientes com contratos acima de X reais?", como recuperar documentos que possam estar associados a esta consulta, como os próprios contratos desses clientes, propostas de novas vendas em aberto, entre outros documentos? A solução proposta nesta tese baseia-se numa abordagem especial de expansão de busca para a recuperação de documentos: um conjunto inicial de palavras-chave é expandido com termos potencialmente úteis contidos no resultado de uma consulta a banco de dados; o conjunto de palavras-chave resultante é então enviado a um SRI para a recuperação dos documentos de interesse para a consulta. Propõe-se ainda uma nova forma de ordenação dos termos para expansão: partindo do pressuposto de que uma consulta a banco de dados representa com exatidão a necessidade de informação do usuário, a seleção dos termos é medida por sua difusão ao longo do resultado da consulta. Essa medida é usada não apenas para selecionar os melhores termos, mas também para estabelecer seus pesos relativos na expansão. Para validar o método proposto, foram realizados experimentos em dois domínios distintos, com resultados evidenciando melhorias significativas em termos da recuperação de documentos relacionados às consultas na comparação com outros modelos destacados na literatura.
publishDate 2014
dc.date.issued.fl_str_mv 2014-11-21
dc.date.accessioned.fl_str_mv 2018-12-04T18:09:47Z
dc.date.available.fl_str_mv 2018-12-04
2018-12-04T18:09:47Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/2342
dc.identifier.citation.fl_str_mv CATÃO, V. S. DBFIRE: recuperação de documentos relacionados a consultas a banco de dados. 2014. 132 f. Tese (Doutorado em Ciência da Computação) Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2014. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/2342
url http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/2342
identifier_str_mv CATÃO, V. S. DBFIRE: recuperação de documentos relacionados a consultas a banco de dados. 2014. 132 f. Tese (Doutorado em Ciência da Computação) Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2014. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/2342
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Campina Grande
dc.publisher.program.fl_str_mv PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
dc.publisher.initials.fl_str_mv UFCG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Centro de Engenharia Elétrica e Informática - CEEI
publisher.none.fl_str_mv Universidade Federal de Campina Grande
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFCG
instname:Universidade Federal de Campina Grande (UFCG)
instacron:UFCG
instname_str Universidade Federal de Campina Grande (UFCG)
instacron_str UFCG
institution UFCG
reponame_str Biblioteca Digital de Teses e Dissertações da UFCG
collection Biblioteca Digital de Teses e Dissertações da UFCG
bitstream.url.fl_str_mv http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/2342/3/VLADIMIR+SOARES+CAT%C3%83O+%E2%80%93+TESE+%28PPGCC%29+2014.pdf
http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/2342/2/license.txt
bitstream.checksum.fl_str_mv d78f839e48c34cb3769bf12d34a28acd
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br
_version_ 1797044615198539776