Métodos de expansão de busca em sistemas de recuperação de informação

Detalhes bibliográficos
Ano de defesa: 2009
Autor(a) principal: Scardua, Wendel
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-22102024-211319/
Resumo: Com o explosivo crescimento da Internet e da produção de conteudo em formato digital área de Recuperação de Informação (RI) e os sistemas de RI têm assumido papel cada vez mais importante na organização da sociedade. Se por um lado os tamanhos sempre mais gigantescos das coleções a serem indexadas colocam desafios sempre mais crescentes, é tambem verdade que o estudo dos algoritmos de busca e de estruturas de dados avancadas ja esta maduro o suficiente para que o problema de uma busca exata por termos de uma consulta possa ser realizado em tempo bastante eficiente e independente do tamanho da coleção de documentos indexada. Como o mesmo não se pode dizer de uma busca inexata, por exemplo, a ferramenta basica num sistema de RI e quase sempre o da busca exata de termos numa coleção de documentos. Se por um lado as respostas a estas buscas exatas são ja uma excelente resposta inicial, a verdade e que muito há ainda que ser melhorado, de forma que os documentos a serem devolvidos sejam aqueles relevantes à pergunta e ao contexto em que o usuario deseja. Os chamados metodos de expansão de consulta são neste contexto bastante importantes de forma a reformular a consulta original e aprimorar os resultados de forma que um documento que fale de automovel possa, por exemplo, ser devolvido quando o usuario formula uma busca por carro. Como fazer isto sem introduzir numero excessivo de documentos espurios (aumentando a cobertura sem contudo prejudicar a precisão da resposta) e sempre um desafio. A corrente dissertação faz uma pequena revisão de varias abordagens que buscam resolver este problema atacado pela expansão de consulta, bem como apresenta resultados de experimentos amplos com duas destas tecnicas, usando um corpus qualificado de 210.734 notcias dos jornais A Folha de São Paulo e O Publico que foram usados na Oficina CLEF-2006. O melhor resultado entre as duas tecnicas aqui estudadas so e inferior aos melhores resultados das duas melhores equipes que então submeteram resultados à trilha de Lngua Portuguesa.
id USP_5457a6e63724e61b5830186d38b71ce4
oai_identifier_str oai:teses.usp.br:tde-22102024-211319
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Métodos de expansão de busca em sistemas de recuperação de informaçãonot availableExpansão de consultaInformation retrievalNoun phrasesQuery expansionRecuperação de InformaçãoSintagmas nominaisCom o explosivo crescimento da Internet e da produção de conteudo em formato digital área de Recuperação de Informação (RI) e os sistemas de RI têm assumido papel cada vez mais importante na organização da sociedade. Se por um lado os tamanhos sempre mais gigantescos das coleções a serem indexadas colocam desafios sempre mais crescentes, é tambem verdade que o estudo dos algoritmos de busca e de estruturas de dados avancadas ja esta maduro o suficiente para que o problema de uma busca exata por termos de uma consulta possa ser realizado em tempo bastante eficiente e independente do tamanho da coleção de documentos indexada. Como o mesmo não se pode dizer de uma busca inexata, por exemplo, a ferramenta basica num sistema de RI e quase sempre o da busca exata de termos numa coleção de documentos. Se por um lado as respostas a estas buscas exatas são ja uma excelente resposta inicial, a verdade e que muito há ainda que ser melhorado, de forma que os documentos a serem devolvidos sejam aqueles relevantes à pergunta e ao contexto em que o usuario deseja. Os chamados metodos de expansão de consulta são neste contexto bastante importantes de forma a reformular a consulta original e aprimorar os resultados de forma que um documento que fale de automovel possa, por exemplo, ser devolvido quando o usuario formula uma busca por carro. Como fazer isto sem introduzir numero excessivo de documentos espurios (aumentando a cobertura sem contudo prejudicar a precisão da resposta) e sempre um desafio. A corrente dissertação faz uma pequena revisão de varias abordagens que buscam resolver este problema atacado pela expansão de consulta, bem como apresenta resultados de experimentos amplos com duas destas tecnicas, usando um corpus qualificado de 210.734 notcias dos jornais A Folha de São Paulo e O Publico que foram usados na Oficina CLEF-2006. O melhor resultado entre as duas tecnicas aqui estudadas so e inferior aos melhores resultados das duas melhores equipes que então submeteram resultados à trilha de Lngua Portuguesa.With the Internet and digital content production boom, the Information Retrievel (IR) área and IR systems have gained more and more importance on our society. Although the even bigger collections to be indexed makes working with them even more challenging, it is also true that the search algorithms and advanced data structures studies are already well-developed enough to the point in which the exact match search can be done in a very short time, no matter how big that document collecion is. As the same can not be said about IR system tools, e.g. inexact match, the most basic tool for such systems is usually that of exact match by terms from a query. Although the results obtained by those exact matches may be good enough for a start, the truth is that there is a lot of space for improvement, so that the documents to be returned to the user be more relevant to the question and context the user had in mind. The so-called query expansion methods are, in this way, very important for rewriting the original query and improve the obtained results so as a document about automobiles can be returned when the user does a search for cars. The challenge is how to do that without introducing an excessive amount of non-related documents (increasing the recall without reducing too much the precision of the answer). This thesis makes a review of many approaches to this problem, as well as it shows the results obtained from the many experiments done with two of those approaches, using an collection of 210.734 news from the newspapers A Folha de São Paulo and O Público, originally used on CLEF-2006. The best result achieved here is only worse than that of the two best teams to have results submitted on CLEFs Portuguese Language track then.Biblioteca Digitais de Teses e Dissertações da USPLago, Alair Pereira doScardua, Wendel2009-05-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-22102024-211319/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-22T23:48:02Zoai:teses.usp.br:tde-22102024-211319Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-22T23:48:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Métodos de expansão de busca em sistemas de recuperação de informação
not available
title Métodos de expansão de busca em sistemas de recuperação de informação
spellingShingle Métodos de expansão de busca em sistemas de recuperação de informação
Scardua, Wendel
Expansão de consulta
Information retrieval
Noun phrases
Query expansion
Recuperação de Informação
Sintagmas nominais
title_short Métodos de expansão de busca em sistemas de recuperação de informação
title_full Métodos de expansão de busca em sistemas de recuperação de informação
title_fullStr Métodos de expansão de busca em sistemas de recuperação de informação
title_full_unstemmed Métodos de expansão de busca em sistemas de recuperação de informação
title_sort Métodos de expansão de busca em sistemas de recuperação de informação
author Scardua, Wendel
author_facet Scardua, Wendel
author_role author
dc.contributor.none.fl_str_mv Lago, Alair Pereira do
dc.contributor.author.fl_str_mv Scardua, Wendel
dc.subject.por.fl_str_mv Expansão de consulta
Information retrieval
Noun phrases
Query expansion
Recuperação de Informação
Sintagmas nominais
topic Expansão de consulta
Information retrieval
Noun phrases
Query expansion
Recuperação de Informação
Sintagmas nominais
description Com o explosivo crescimento da Internet e da produção de conteudo em formato digital área de Recuperação de Informação (RI) e os sistemas de RI têm assumido papel cada vez mais importante na organização da sociedade. Se por um lado os tamanhos sempre mais gigantescos das coleções a serem indexadas colocam desafios sempre mais crescentes, é tambem verdade que o estudo dos algoritmos de busca e de estruturas de dados avancadas ja esta maduro o suficiente para que o problema de uma busca exata por termos de uma consulta possa ser realizado em tempo bastante eficiente e independente do tamanho da coleção de documentos indexada. Como o mesmo não se pode dizer de uma busca inexata, por exemplo, a ferramenta basica num sistema de RI e quase sempre o da busca exata de termos numa coleção de documentos. Se por um lado as respostas a estas buscas exatas são ja uma excelente resposta inicial, a verdade e que muito há ainda que ser melhorado, de forma que os documentos a serem devolvidos sejam aqueles relevantes à pergunta e ao contexto em que o usuario deseja. Os chamados metodos de expansão de consulta são neste contexto bastante importantes de forma a reformular a consulta original e aprimorar os resultados de forma que um documento que fale de automovel possa, por exemplo, ser devolvido quando o usuario formula uma busca por carro. Como fazer isto sem introduzir numero excessivo de documentos espurios (aumentando a cobertura sem contudo prejudicar a precisão da resposta) e sempre um desafio. A corrente dissertação faz uma pequena revisão de varias abordagens que buscam resolver este problema atacado pela expansão de consulta, bem como apresenta resultados de experimentos amplos com duas destas tecnicas, usando um corpus qualificado de 210.734 notcias dos jornais A Folha de São Paulo e O Publico que foram usados na Oficina CLEF-2006. O melhor resultado entre as duas tecnicas aqui estudadas so e inferior aos melhores resultados das duas melhores equipes que então submeteram resultados à trilha de Lngua Portuguesa.
publishDate 2009
dc.date.none.fl_str_mv 2009-05-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45134/tde-22102024-211319/
url https://www.teses.usp.br/teses/disponiveis/45/45134/tde-22102024-211319/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1818279226995900416