Estratégias para busca do texto completo de artigos catalogados em uma biblioteca digital

Detalhes bibliográficos
Ano de defesa: 2007
Autor(a) principal: Allan Jones Costa e Silva
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Minas Gerais
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/1843/RVMR-794QAJ
Resumo: This dissertation proposes a process that uses results from queries submitted to search engines for finding the URL of the corresponding full-text, or of any relevant related material, for those articles cataloged in a digital library for which this information is missing. We present a comprehensive study of this process in different situations by investigating different query strategies applied to three general purpose search engines (Google, Yahoo!, MSN) and two specialized ones (Scholar and CiteSeer), considering five user scenarios characterized by distinct requirement levels. Specifically, we have conducted a set of experiments focused on articles taken from BDBComp - Brazilian Digital Library of Computing and DBLP - Digital Bibliography & Library Project. According to the results of these experiments, Scholar has shown to be more effective than the other tested search engines for this task in all considered scenarios. Moreover, our experiments show that a simple combination Scholar-Google with a re-ranking strategy provides even better results. Our study also presents an analysis of the impact of different factors on the likelihood of finding the full-text of the searched articles.
id UFMG_b2542477e544ab678549ac0cd2fe5970
oai_identifier_str oai:repositorio.ufmg.br:1843/RVMR-794QAJ
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling 2019-08-14T22:14:20Z2025-09-09T00:28:56Z2019-08-14T22:14:20Z2007-03-26https://hdl.handle.net/1843/RVMR-794QAJThis dissertation proposes a process that uses results from queries submitted to search engines for finding the URL of the corresponding full-text, or of any relevant related material, for those articles cataloged in a digital library for which this information is missing. We present a comprehensive study of this process in different situations by investigating different query strategies applied to three general purpose search engines (Google, Yahoo!, MSN) and two specialized ones (Scholar and CiteSeer), considering five user scenarios characterized by distinct requirement levels. Specifically, we have conducted a set of experiments focused on articles taken from BDBComp - Brazilian Digital Library of Computing and DBLP - Digital Bibliography & Library Project. According to the results of these experiments, Scholar has shown to be more effective than the other tested search engines for this task in all considered scenarios. Moreover, our experiments show that a simple combination Scholar-Google with a re-ranking strategy provides even better results. Our study also presents an analysis of the impact of different factors on the likelihood of finding the full-text of the searched articles.Universidade Federal de Minas Geraisbusca em textobiblioteca digitalRecuperação da informaçãoBibliotecas digitaisWorld Wide Web (Sistema de recuperação da informação)ComputaçãoSistemas de recuperação da informaçãoEstratégias para busca do texto completo de artigos catalogados em uma biblioteca digitalinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisAllan Jones Costa e Silvainfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGAlberto Henrique Frade LaenderMarcos Andre GoncalvesEdleno Silva de MouraNivio ZivianiEsta dissertação propõe um processo que utiliza resultados de consultas submetidas a máquinas de busca para encontrar a URL do texto completo correspondente, ou de qualquer outro material relacionado, a artigos catalogados em uma biblioteca digital que não possuem tal informação registrada. Apresentamos um estudo desse processo para investigar diferentes estratégias de consultas aplicadas a três máquinas de busca de propósito geral (Google, Yahoo!, MSN) e a duas especializadas (Scholar e CiteSeer) considerando vários cenários caracterizados por usuários com diferentes níveis de exigências. Especificamente, conduzimos um conjunto de experimentos com artigos provenientes da BDBComp - Biblioteca Digital Brasileira de Computação e da DBLP - Digital Bibliography & Library Project. De acordo com os resultados, Scholar mostrou-se mais eficaz nesta tarefa do que as outras máquinas de busca testadas em todos os cenários estudados. Além disso, nossos experimentos mostraram que estratégias simples para combinação e reordenação fornecem resultados ainda melhores. Nosso estudo também apresenta uma análise do impacto de diferentes fatores na chance de se encontrar o texto completo dos artigos procurados.UFMGORIGINALallanjonescostasilva.pdfapplication/pdf574985https://repositorio.ufmg.br//bitstreams/fa4d3d91-c37e-4db8-a5b6-97e35a56fe4c/downloadd9c8a8fcd4c43e87ae5357ce908e6d6fMD51trueAnonymousREADTEXTallanjonescostasilva.pdf.txttext/plain136211https://repositorio.ufmg.br//bitstreams/28122b87-7323-4459-9550-d1f79d15c352/downloadca643279502374d2af7c910e9617068dMD52falseAnonymousREAD1843/RVMR-794QAJ2025-09-08 21:28:56.365open.accessoai:repositorio.ufmg.br:1843/RVMR-794QAJhttps://repositorio.ufmg.br/Repositório InstitucionalPUBhttps://repositorio.ufmg.br/oairepositorio@ufmg.bropendoar:2025-09-09T00:28:56Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.none.fl_str_mv Estratégias para busca do texto completo de artigos catalogados em uma biblioteca digital
title Estratégias para busca do texto completo de artigos catalogados em uma biblioteca digital
spellingShingle Estratégias para busca do texto completo de artigos catalogados em uma biblioteca digital
Allan Jones Costa e Silva
Recuperação da informação
Bibliotecas digitais
World Wide Web (Sistema de recuperação da informação)
Computação
Sistemas de recuperação da informação
busca em texto
biblioteca digital
title_short Estratégias para busca do texto completo de artigos catalogados em uma biblioteca digital
title_full Estratégias para busca do texto completo de artigos catalogados em uma biblioteca digital
title_fullStr Estratégias para busca do texto completo de artigos catalogados em uma biblioteca digital
title_full_unstemmed Estratégias para busca do texto completo de artigos catalogados em uma biblioteca digital
title_sort Estratégias para busca do texto completo de artigos catalogados em uma biblioteca digital
author Allan Jones Costa e Silva
author_facet Allan Jones Costa e Silva
author_role author
dc.contributor.author.fl_str_mv Allan Jones Costa e Silva
dc.subject.por.fl_str_mv Recuperação da informação
Bibliotecas digitais
World Wide Web (Sistema de recuperação da informação)
Computação
Sistemas de recuperação da informação
topic Recuperação da informação
Bibliotecas digitais
World Wide Web (Sistema de recuperação da informação)
Computação
Sistemas de recuperação da informação
busca em texto
biblioteca digital
dc.subject.other.none.fl_str_mv busca em texto
biblioteca digital
description This dissertation proposes a process that uses results from queries submitted to search engines for finding the URL of the corresponding full-text, or of any relevant related material, for those articles cataloged in a digital library for which this information is missing. We present a comprehensive study of this process in different situations by investigating different query strategies applied to three general purpose search engines (Google, Yahoo!, MSN) and two specialized ones (Scholar and CiteSeer), considering five user scenarios characterized by distinct requirement levels. Specifically, we have conducted a set of experiments focused on articles taken from BDBComp - Brazilian Digital Library of Computing and DBLP - Digital Bibliography & Library Project. According to the results of these experiments, Scholar has shown to be more effective than the other tested search engines for this task in all considered scenarios. Moreover, our experiments show that a simple combination Scholar-Google with a re-ranking strategy provides even better results. Our study also presents an analysis of the impact of different factors on the likelihood of finding the full-text of the searched articles.
publishDate 2007
dc.date.issued.fl_str_mv 2007-03-26
dc.date.accessioned.fl_str_mv 2019-08-14T22:14:20Z
2025-09-09T00:28:56Z
dc.date.available.fl_str_mv 2019-08-14T22:14:20Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1843/RVMR-794QAJ
url https://hdl.handle.net/1843/RVMR-794QAJ
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br//bitstreams/fa4d3d91-c37e-4db8-a5b6-97e35a56fe4c/download
https://repositorio.ufmg.br//bitstreams/28122b87-7323-4459-9550-d1f79d15c352/download
bitstream.checksum.fl_str_mv d9c8a8fcd4c43e87ae5357ce908e6d6f
ca643279502374d2af7c910e9617068d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv repositorio@ufmg.br
_version_ 1862105667867770880