Métodos de expansão de busca em sistemas de recuperação de informação
| Ano de defesa: | 2009 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/45/45134/tde-22102024-211319/ |
Resumo: | Com o explosivo crescimento da Internet e da produção de conteudo em formato digital área de Recuperação de Informação (RI) e os sistemas de RI têm assumido papel cada vez mais importante na organização da sociedade. Se por um lado os tamanhos sempre mais gigantescos das coleções a serem indexadas colocam desafios sempre mais crescentes, é tambem verdade que o estudo dos algoritmos de busca e de estruturas de dados avancadas ja esta maduro o suficiente para que o problema de uma busca exata por termos de uma consulta possa ser realizado em tempo bastante eficiente e independente do tamanho da coleção de documentos indexada. Como o mesmo não se pode dizer de uma busca inexata, por exemplo, a ferramenta basica num sistema de RI e quase sempre o da busca exata de termos numa coleção de documentos. Se por um lado as respostas a estas buscas exatas são ja uma excelente resposta inicial, a verdade e que muito há ainda que ser melhorado, de forma que os documentos a serem devolvidos sejam aqueles relevantes à pergunta e ao contexto em que o usuario deseja. Os chamados metodos de expansão de consulta são neste contexto bastante importantes de forma a reformular a consulta original e aprimorar os resultados de forma que um documento que fale de automovel possa, por exemplo, ser devolvido quando o usuario formula uma busca por carro. Como fazer isto sem introduzir numero excessivo de documentos espurios (aumentando a cobertura sem contudo prejudicar a precisão da resposta) e sempre um desafio. A corrente dissertação faz uma pequena revisão de varias abordagens que buscam resolver este problema atacado pela expansão de consulta, bem como apresenta resultados de experimentos amplos com duas destas tecnicas, usando um corpus qualificado de 210.734 notcias dos jornais A Folha de São Paulo e O Publico que foram usados na Oficina CLEF-2006. O melhor resultado entre as duas tecnicas aqui estudadas so e inferior aos melhores resultados das duas melhores equipes que então submeteram resultados à trilha de Lngua Portuguesa. |
| id |
USP_5457a6e63724e61b5830186d38b71ce4 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-22102024-211319 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Métodos de expansão de busca em sistemas de recuperação de informaçãonot availableExpansão de consultaInformation retrievalNoun phrasesQuery expansionRecuperação de InformaçãoSintagmas nominaisCom o explosivo crescimento da Internet e da produção de conteudo em formato digital área de Recuperação de Informação (RI) e os sistemas de RI têm assumido papel cada vez mais importante na organização da sociedade. Se por um lado os tamanhos sempre mais gigantescos das coleções a serem indexadas colocam desafios sempre mais crescentes, é tambem verdade que o estudo dos algoritmos de busca e de estruturas de dados avancadas ja esta maduro o suficiente para que o problema de uma busca exata por termos de uma consulta possa ser realizado em tempo bastante eficiente e independente do tamanho da coleção de documentos indexada. Como o mesmo não se pode dizer de uma busca inexata, por exemplo, a ferramenta basica num sistema de RI e quase sempre o da busca exata de termos numa coleção de documentos. Se por um lado as respostas a estas buscas exatas são ja uma excelente resposta inicial, a verdade e que muito há ainda que ser melhorado, de forma que os documentos a serem devolvidos sejam aqueles relevantes à pergunta e ao contexto em que o usuario deseja. Os chamados metodos de expansão de consulta são neste contexto bastante importantes de forma a reformular a consulta original e aprimorar os resultados de forma que um documento que fale de automovel possa, por exemplo, ser devolvido quando o usuario formula uma busca por carro. Como fazer isto sem introduzir numero excessivo de documentos espurios (aumentando a cobertura sem contudo prejudicar a precisão da resposta) e sempre um desafio. A corrente dissertação faz uma pequena revisão de varias abordagens que buscam resolver este problema atacado pela expansão de consulta, bem como apresenta resultados de experimentos amplos com duas destas tecnicas, usando um corpus qualificado de 210.734 notcias dos jornais A Folha de São Paulo e O Publico que foram usados na Oficina CLEF-2006. O melhor resultado entre as duas tecnicas aqui estudadas so e inferior aos melhores resultados das duas melhores equipes que então submeteram resultados à trilha de Lngua Portuguesa.With the Internet and digital content production boom, the Information Retrievel (IR) área and IR systems have gained more and more importance on our society. Although the even bigger collections to be indexed makes working with them even more challenging, it is also true that the search algorithms and advanced data structures studies are already well-developed enough to the point in which the exact match search can be done in a very short time, no matter how big that document collecion is. As the same can not be said about IR system tools, e.g. inexact match, the most basic tool for such systems is usually that of exact match by terms from a query. Although the results obtained by those exact matches may be good enough for a start, the truth is that there is a lot of space for improvement, so that the documents to be returned to the user be more relevant to the question and context the user had in mind. The so-called query expansion methods are, in this way, very important for rewriting the original query and improve the obtained results so as a document about automobiles can be returned when the user does a search for cars. The challenge is how to do that without introducing an excessive amount of non-related documents (increasing the recall without reducing too much the precision of the answer). This thesis makes a review of many approaches to this problem, as well as it shows the results obtained from the many experiments done with two of those approaches, using an collection of 210.734 news from the newspapers A Folha de São Paulo and O Público, originally used on CLEF-2006. The best result achieved here is only worse than that of the two best teams to have results submitted on CLEFs Portuguese Language track then.Biblioteca Digitais de Teses e Dissertações da USPLago, Alair Pereira doScardua, Wendel2009-05-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-22102024-211319/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-22T23:48:02Zoai:teses.usp.br:tde-22102024-211319Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-22T23:48:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Métodos de expansão de busca em sistemas de recuperação de informação not available |
| title |
Métodos de expansão de busca em sistemas de recuperação de informação |
| spellingShingle |
Métodos de expansão de busca em sistemas de recuperação de informação Scardua, Wendel Expansão de consulta Information retrieval Noun phrases Query expansion Recuperação de Informação Sintagmas nominais |
| title_short |
Métodos de expansão de busca em sistemas de recuperação de informação |
| title_full |
Métodos de expansão de busca em sistemas de recuperação de informação |
| title_fullStr |
Métodos de expansão de busca em sistemas de recuperação de informação |
| title_full_unstemmed |
Métodos de expansão de busca em sistemas de recuperação de informação |
| title_sort |
Métodos de expansão de busca em sistemas de recuperação de informação |
| author |
Scardua, Wendel |
| author_facet |
Scardua, Wendel |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Lago, Alair Pereira do |
| dc.contributor.author.fl_str_mv |
Scardua, Wendel |
| dc.subject.por.fl_str_mv |
Expansão de consulta Information retrieval Noun phrases Query expansion Recuperação de Informação Sintagmas nominais |
| topic |
Expansão de consulta Information retrieval Noun phrases Query expansion Recuperação de Informação Sintagmas nominais |
| description |
Com o explosivo crescimento da Internet e da produção de conteudo em formato digital área de Recuperação de Informação (RI) e os sistemas de RI têm assumido papel cada vez mais importante na organização da sociedade. Se por um lado os tamanhos sempre mais gigantescos das coleções a serem indexadas colocam desafios sempre mais crescentes, é tambem verdade que o estudo dos algoritmos de busca e de estruturas de dados avancadas ja esta maduro o suficiente para que o problema de uma busca exata por termos de uma consulta possa ser realizado em tempo bastante eficiente e independente do tamanho da coleção de documentos indexada. Como o mesmo não se pode dizer de uma busca inexata, por exemplo, a ferramenta basica num sistema de RI e quase sempre o da busca exata de termos numa coleção de documentos. Se por um lado as respostas a estas buscas exatas são ja uma excelente resposta inicial, a verdade e que muito há ainda que ser melhorado, de forma que os documentos a serem devolvidos sejam aqueles relevantes à pergunta e ao contexto em que o usuario deseja. Os chamados metodos de expansão de consulta são neste contexto bastante importantes de forma a reformular a consulta original e aprimorar os resultados de forma que um documento que fale de automovel possa, por exemplo, ser devolvido quando o usuario formula uma busca por carro. Como fazer isto sem introduzir numero excessivo de documentos espurios (aumentando a cobertura sem contudo prejudicar a precisão da resposta) e sempre um desafio. A corrente dissertação faz uma pequena revisão de varias abordagens que buscam resolver este problema atacado pela expansão de consulta, bem como apresenta resultados de experimentos amplos com duas destas tecnicas, usando um corpus qualificado de 210.734 notcias dos jornais A Folha de São Paulo e O Publico que foram usados na Oficina CLEF-2006. O melhor resultado entre as duas tecnicas aqui estudadas so e inferior aos melhores resultados das duas melhores equipes que então submeteram resultados à trilha de Lngua Portuguesa. |
| publishDate |
2009 |
| dc.date.none.fl_str_mv |
2009-05-13 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-22102024-211319/ |
| url |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-22102024-211319/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1818279226995900416 |