DBFIRE: recuperação de documentos relacionados a consultas a banco de dados.
Ano de defesa: | 2014 |
---|---|
Autor(a) principal: | |
Orientador(a): | , |
Banca de defesa: | , , , |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Campina Grande
|
Programa de Pós-Graduação: |
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
|
Departamento: |
Centro de Engenharia Elétrica e Informática - CEEI
|
País: |
Brasil
|
Palavras-chave em Português: | |
Área do conhecimento CNPq: | |
Link de acesso: | http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/2342 |
Resumo: | Bancos de dados e documentos são comumente mantidos em separado nas organizações, controlados por Sistemas Gerenciadores de Bancos de Dados (SGBDs) e Sistemas de Recuperação de Informação (SRIs), respectivamente. Essa separação tem ligação com a natureza dos dados manipulados: estruturados, no primeiro caso; não estruturados, no segundo. Enquanto os SGBDs processam consultas exatas a bancos de dados, os SRIs recuperam documentos com base em buscas por palavras-chave, que são inerentemente imprecisas. Apesar disso, a integração desses sistemas pode resultar em grandes ganhos ao usuário, uma vez que, numa mesma organização, bancos de dados e documentos frequentemente se referem a entidades comuns. Uma das possibilidades de integração é a recuperação de documentos associados a uma dada consulta a banco de dados. Por exemplo, considerando a consulta "Quais os clientes com contratos acima de X reais?", como recuperar documentos que possam estar associados a esta consulta, como os próprios contratos desses clientes, propostas de novas vendas em aberto, entre outros documentos? A solução proposta nesta tese baseia-se numa abordagem especial de expansão de busca para a recuperação de documentos: um conjunto inicial de palavras-chave é expandido com termos potencialmente úteis contidos no resultado de uma consulta a banco de dados; o conjunto de palavras-chave resultante é então enviado a um SRI para a recuperação dos documentos de interesse para a consulta. Propõe-se ainda uma nova forma de ordenação dos termos para expansão: partindo do pressuposto de que uma consulta a banco de dados representa com exatidão a necessidade de informação do usuário, a seleção dos termos é medida por sua difusão ao longo do resultado da consulta. Essa medida é usada não apenas para selecionar os melhores termos, mas também para estabelecer seus pesos relativos na expansão. Para validar o método proposto, foram realizados experimentos em dois domínios distintos, com resultados evidenciando melhorias significativas em termos da recuperação de documentos relacionados às consultas na comparação com outros modelos destacados na literatura. |
id |
UFCG_8a67c0e83aba9f2d525d09ff7be78c5d |
---|---|
oai_identifier_str |
oai:localhost:riufcg/2342 |
network_acronym_str |
UFCG |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFCG |
repository_id_str |
|
spelling |
SCHIEL, Ulrich.SCHIEL, U.http://lattes.cnpq.br/2971250918247087SAMPAIO, Marcus Costa.SAMPAIO, M. C.http://lattes.cnpq.br/7407058401863661PIRES, Carlos Eduardo Santos.TORRES, Ricardo da Silva.CAMPELO, Cláudio Elizio Calazans.MOURA, Edleno Silva de.CATAO, V. S.http://lattes.cnpq.br/9004848457100237CATÃO, Vladimir Soares.Submitted by Emanuel Varela Cardoso (emanuel.varela@ufcg.edu.br) on 2018-12-04T18:09:47Z No. of bitstreams: 1 VLADIMIR SOARES CATÃO – TESE (PPGCC) 2014.pdf: 4567060 bytes, checksum: 4bd103e68aed5b1bf278fa6cd89704bf (MD5)Made available in DSpace on 2018-12-04T18:09:47Z (GMT). No. of bitstreams: 1 VLADIMIR SOARES CATÃO – TESE (PPGCC) 2014.pdf: 4567060 bytes, checksum: 4bd103e68aed5b1bf278fa6cd89704bf (MD5) Previous issue date: 2014-11-21Bancos de dados e documentos são comumente mantidos em separado nas organizações, controlados por Sistemas Gerenciadores de Bancos de Dados (SGBDs) e Sistemas de Recuperação de Informação (SRIs), respectivamente. Essa separação tem ligação com a natureza dos dados manipulados: estruturados, no primeiro caso; não estruturados, no segundo. Enquanto os SGBDs processam consultas exatas a bancos de dados, os SRIs recuperam documentos com base em buscas por palavras-chave, que são inerentemente imprecisas. Apesar disso, a integração desses sistemas pode resultar em grandes ganhos ao usuário, uma vez que, numa mesma organização, bancos de dados e documentos frequentemente se referem a entidades comuns. Uma das possibilidades de integração é a recuperação de documentos associados a uma dada consulta a banco de dados. Por exemplo, considerando a consulta "Quais os clientes com contratos acima de X reais?", como recuperar documentos que possam estar associados a esta consulta, como os próprios contratos desses clientes, propostas de novas vendas em aberto, entre outros documentos? A solução proposta nesta tese baseia-se numa abordagem especial de expansão de busca para a recuperação de documentos: um conjunto inicial de palavras-chave é expandido com termos potencialmente úteis contidos no resultado de uma consulta a banco de dados; o conjunto de palavras-chave resultante é então enviado a um SRI para a recuperação dos documentos de interesse para a consulta. Propõe-se ainda uma nova forma de ordenação dos termos para expansão: partindo do pressuposto de que uma consulta a banco de dados representa com exatidão a necessidade de informação do usuário, a seleção dos termos é medida por sua difusão ao longo do resultado da consulta. Essa medida é usada não apenas para selecionar os melhores termos, mas também para estabelecer seus pesos relativos na expansão. Para validar o método proposto, foram realizados experimentos em dois domínios distintos, com resultados evidenciando melhorias significativas em termos da recuperação de documentos relacionados às consultas na comparação com outros modelos destacados na literatura.Universidade Federal de Campina GrandePÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGBrasilCentro de Engenharia Elétrica e Informática - CEEICiência da ComputaçãoMetodologia e Técnicas da ComputaçãoBanco de DadosDBFIRERecuperação de documentosBanco de dadosSGBDSSRISDocumentos XMLDocument retrievalDatabaseXML documentsDBFIRE: recuperação de documentos relacionados a consultas a banco de dados.2014-11-212018-12-04T18:09:47Z2018-12-042018-12-04T18:09:47Zhttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/2342CATÃO, V. S. DBFIRE: recuperação de documentos relacionados a consultas a banco de dados. 2014. 132 f. Tese (Doutorado em Ciência da Computação) Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2014. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/2342info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisporinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCGORIGINALVLADIMIR SOARES CATÃO – TESE (PPGCC) 2014.pdfVLADIMIR SOARES CATÃO – TESE (PPGCC) 2014.pdfapplication/pdf2629709http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/2342/3/VLADIMIR+SOARES+CAT%C3%83O+%E2%80%93+TESE+%28PPGCC%29+2014.pdfd78f839e48c34cb3769bf12d34a28acdMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/2342/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52riufcg/23422022-03-14 16:44:44.696oai:localhost:riufcg/2342Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512022-03-14T19:44:44Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false |
dc.title.pt_BR.fl_str_mv |
DBFIRE: recuperação de documentos relacionados a consultas a banco de dados. |
title |
DBFIRE: recuperação de documentos relacionados a consultas a banco de dados. |
spellingShingle |
DBFIRE: recuperação de documentos relacionados a consultas a banco de dados. CATÃO, Vladimir Soares. Ciência da Computação Metodologia e Técnicas da Computação Banco de Dados DBFIRE Recuperação de documentos Banco de dados SGBDS SRIS Documentos XML Document retrieval Database XML documents |
title_short |
DBFIRE: recuperação de documentos relacionados a consultas a banco de dados. |
title_full |
DBFIRE: recuperação de documentos relacionados a consultas a banco de dados. |
title_fullStr |
DBFIRE: recuperação de documentos relacionados a consultas a banco de dados. |
title_full_unstemmed |
DBFIRE: recuperação de documentos relacionados a consultas a banco de dados. |
title_sort |
DBFIRE: recuperação de documentos relacionados a consultas a banco de dados. |
author |
CATÃO, Vladimir Soares. |
author_facet |
CATÃO, Vladimir Soares. |
author_role |
author |
dc.contributor.advisor2ID.pt_BR.fl_str_mv |
SAMPAIO, M. C. |
dc.contributor.advisor1.fl_str_mv |
SCHIEL, Ulrich. |
dc.contributor.advisor1ID.fl_str_mv |
SCHIEL, U. |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/2971250918247087 |
dc.contributor.advisor2.fl_str_mv |
SAMPAIO, Marcus Costa. |
dc.contributor.advisor2Lattes.fl_str_mv |
http://lattes.cnpq.br/7407058401863661 |
dc.contributor.referee1.fl_str_mv |
PIRES, Carlos Eduardo Santos. |
dc.contributor.referee2.fl_str_mv |
TORRES, Ricardo da Silva. |
dc.contributor.referee3.fl_str_mv |
CAMPELO, Cláudio Elizio Calazans. |
dc.contributor.referee4.fl_str_mv |
MOURA, Edleno Silva de. |
dc.contributor.authorID.fl_str_mv |
CATAO, V. S. |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/9004848457100237 |
dc.contributor.author.fl_str_mv |
CATÃO, Vladimir Soares. |
contributor_str_mv |
SCHIEL, Ulrich. SAMPAIO, Marcus Costa. PIRES, Carlos Eduardo Santos. TORRES, Ricardo da Silva. CAMPELO, Cláudio Elizio Calazans. MOURA, Edleno Silva de. |
dc.subject.cnpq.fl_str_mv |
Ciência da Computação Metodologia e Técnicas da Computação Banco de Dados |
topic |
Ciência da Computação Metodologia e Técnicas da Computação Banco de Dados DBFIRE Recuperação de documentos Banco de dados SGBDS SRIS Documentos XML Document retrieval Database XML documents |
dc.subject.por.fl_str_mv |
DBFIRE Recuperação de documentos Banco de dados SGBDS SRIS Documentos XML Document retrieval Database XML documents |
description |
Bancos de dados e documentos são comumente mantidos em separado nas organizações, controlados por Sistemas Gerenciadores de Bancos de Dados (SGBDs) e Sistemas de Recuperação de Informação (SRIs), respectivamente. Essa separação tem ligação com a natureza dos dados manipulados: estruturados, no primeiro caso; não estruturados, no segundo. Enquanto os SGBDs processam consultas exatas a bancos de dados, os SRIs recuperam documentos com base em buscas por palavras-chave, que são inerentemente imprecisas. Apesar disso, a integração desses sistemas pode resultar em grandes ganhos ao usuário, uma vez que, numa mesma organização, bancos de dados e documentos frequentemente se referem a entidades comuns. Uma das possibilidades de integração é a recuperação de documentos associados a uma dada consulta a banco de dados. Por exemplo, considerando a consulta "Quais os clientes com contratos acima de X reais?", como recuperar documentos que possam estar associados a esta consulta, como os próprios contratos desses clientes, propostas de novas vendas em aberto, entre outros documentos? A solução proposta nesta tese baseia-se numa abordagem especial de expansão de busca para a recuperação de documentos: um conjunto inicial de palavras-chave é expandido com termos potencialmente úteis contidos no resultado de uma consulta a banco de dados; o conjunto de palavras-chave resultante é então enviado a um SRI para a recuperação dos documentos de interesse para a consulta. Propõe-se ainda uma nova forma de ordenação dos termos para expansão: partindo do pressuposto de que uma consulta a banco de dados representa com exatidão a necessidade de informação do usuário, a seleção dos termos é medida por sua difusão ao longo do resultado da consulta. Essa medida é usada não apenas para selecionar os melhores termos, mas também para estabelecer seus pesos relativos na expansão. Para validar o método proposto, foram realizados experimentos em dois domínios distintos, com resultados evidenciando melhorias significativas em termos da recuperação de documentos relacionados às consultas na comparação com outros modelos destacados na literatura. |
publishDate |
2014 |
dc.date.issued.fl_str_mv |
2014-11-21 |
dc.date.accessioned.fl_str_mv |
2018-12-04T18:09:47Z |
dc.date.available.fl_str_mv |
2018-12-04 2018-12-04T18:09:47Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/2342 |
dc.identifier.citation.fl_str_mv |
CATÃO, V. S. DBFIRE: recuperação de documentos relacionados a consultas a banco de dados. 2014. 132 f. Tese (Doutorado em Ciência da Computação) Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2014. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/2342 |
url |
http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/2342 |
identifier_str_mv |
CATÃO, V. S. DBFIRE: recuperação de documentos relacionados a consultas a banco de dados. 2014. 132 f. Tese (Doutorado em Ciência da Computação) Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2014. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/2342 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Campina Grande |
dc.publisher.program.fl_str_mv |
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO |
dc.publisher.initials.fl_str_mv |
UFCG |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Centro de Engenharia Elétrica e Informática - CEEI |
publisher.none.fl_str_mv |
Universidade Federal de Campina Grande |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFCG instname:Universidade Federal de Campina Grande (UFCG) instacron:UFCG |
instname_str |
Universidade Federal de Campina Grande (UFCG) |
instacron_str |
UFCG |
institution |
UFCG |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFCG |
collection |
Biblioteca Digital de Teses e Dissertações da UFCG |
bitstream.url.fl_str_mv |
http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/2342/3/VLADIMIR+SOARES+CAT%C3%83O+%E2%80%93+TESE+%28PPGCC%29+2014.pdf http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/2342/2/license.txt |
bitstream.checksum.fl_str_mv |
d78f839e48c34cb3769bf12d34a28acd 8a4605be74aa9ea9d79846c1fba20a33 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG) |
repository.mail.fl_str_mv |
bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br |
_version_ |
1797044615198539776 |