Improving approximate nearest neighbor search in HNSW graphs with data clustering
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://hdl.handle.net/10183/298728 |
Resumo: | Estratégias exaustivas para tarefas de busca e recuperação de informações em bancos de dados vetoriais não atendem às expectativas de eficiência de tempo de execução de aplicações modernas. Algoritmos de ANNS (Approximate Nearest Neighbor Search) usam diferentes técnicas de indexação e busca para executar uma busca de similaridade aproximada, reduzindo drasticamente o tempo de execução em troca da falta de garantia de otimalidade. Uma estratégia comum envolve a construção de um PG (Proximity Graph), que pode ser explorado utilizando uma busca gulosa. O algoritmo estado-da-arte HNSW (Hierarchical Navigable Small World) aprimora essa estratégia, organizando os dados em um grafo hi- erárquico de ponto de entrada único para reduzir o número de saltos durante a busca. No entanto, o algoritmo de construção da hierarquia depende de uma distribuição de dados escolhida pseudo aleatoriamente, que não leva em conta as propriedades geométricas do conjunto de dados. Além disso, a estratégia de ponto de entrada único impede a exploração do grafo mais de uma vez, limitando a variedade dos resultados. Neste trabalho, propomos duas novas abordagens para aumentar a robustez da abordagem de grafo hierárquico: (i) HCNSW, uma abordagem baseada em clustering para construir a hierarquia do grafo de busca, e (ii) iHNSW, uma abordagem de busca iterativa que utiliza clustering de dados para trazer resultados mais diversos. Essa abordagem iterativa pode ser utilizada com outras estratégias de indexação de dados ou aproveitar os mesmos clusters construídos pelo algoritmo HCNSW, resultando no índice iHCNSW. Implementamos e testamos empiricamente nossas duas abordagens em quatro conjuntos de dados vetoriais de imagens bem conhecidos: SIFT1M, GIST, MNIST e Fashion- MNIST. Esses experimentos empíricos mostraram que nossas abordagens levam a trade-offs interessantes entre a latência de busca e métricas de recall. Enquanto nosso índice HCNSW reduz consistentemente as métricas de latência de consulta em comparação ao HNSW sem comprometer significativamente (ou até mesmo melhorando) o recall, nossos índices iterativos (iHNSW e iHCNSW) podem adicionar ainda mais às métricas de recall ao estender o processo de busca. Além disso, implementamos nossa abordagem HCNSW sobre a biblioteca NMSLIB, para testá-la em uma implementação HNSW rápida e completa. Nossos testes mostram que nossa solução pode não apenas melhorar a estabilidade geral do desempenho, mas também pode fazê-lo de forma consistente. Entretanto, nossas abordagens adicionam mais complexidade ao processo de indexação e também limitam sua capacidade de inserir progressivamente novos dados. |
| id |
URGS_06041803bc22364b162df45adda35fe7 |
|---|---|
| oai_identifier_str |
oai:www.lume.ufrgs.br:10183/298728 |
| network_acronym_str |
URGS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| repository_id_str |
|
| spelling |
Vieira, Marco Antônio Athayde de AguiarTavares, Anderson Rocha2025-11-12T08:02:25Z2025http://hdl.handle.net/10183/298728001266878Estratégias exaustivas para tarefas de busca e recuperação de informações em bancos de dados vetoriais não atendem às expectativas de eficiência de tempo de execução de aplicações modernas. Algoritmos de ANNS (Approximate Nearest Neighbor Search) usam diferentes técnicas de indexação e busca para executar uma busca de similaridade aproximada, reduzindo drasticamente o tempo de execução em troca da falta de garantia de otimalidade. Uma estratégia comum envolve a construção de um PG (Proximity Graph), que pode ser explorado utilizando uma busca gulosa. O algoritmo estado-da-arte HNSW (Hierarchical Navigable Small World) aprimora essa estratégia, organizando os dados em um grafo hi- erárquico de ponto de entrada único para reduzir o número de saltos durante a busca. No entanto, o algoritmo de construção da hierarquia depende de uma distribuição de dados escolhida pseudo aleatoriamente, que não leva em conta as propriedades geométricas do conjunto de dados. Além disso, a estratégia de ponto de entrada único impede a exploração do grafo mais de uma vez, limitando a variedade dos resultados. Neste trabalho, propomos duas novas abordagens para aumentar a robustez da abordagem de grafo hierárquico: (i) HCNSW, uma abordagem baseada em clustering para construir a hierarquia do grafo de busca, e (ii) iHNSW, uma abordagem de busca iterativa que utiliza clustering de dados para trazer resultados mais diversos. Essa abordagem iterativa pode ser utilizada com outras estratégias de indexação de dados ou aproveitar os mesmos clusters construídos pelo algoritmo HCNSW, resultando no índice iHCNSW. Implementamos e testamos empiricamente nossas duas abordagens em quatro conjuntos de dados vetoriais de imagens bem conhecidos: SIFT1M, GIST, MNIST e Fashion- MNIST. Esses experimentos empíricos mostraram que nossas abordagens levam a trade-offs interessantes entre a latência de busca e métricas de recall. Enquanto nosso índice HCNSW reduz consistentemente as métricas de latência de consulta em comparação ao HNSW sem comprometer significativamente (ou até mesmo melhorando) o recall, nossos índices iterativos (iHNSW e iHCNSW) podem adicionar ainda mais às métricas de recall ao estender o processo de busca. Além disso, implementamos nossa abordagem HCNSW sobre a biblioteca NMSLIB, para testá-la em uma implementação HNSW rápida e completa. Nossos testes mostram que nossa solução pode não apenas melhorar a estabilidade geral do desempenho, mas também pode fazê-lo de forma consistente. Entretanto, nossas abordagens adicionam mais complexidade ao processo de indexação e também limitam sua capacidade de inserir progressivamente novos dados.Exhaustive strategies for search and information retrieval tasks over vector databases do not meet the runtime efficiency expectations of modern applications. Approximate Near- est Neighbor Search (ANNS) algorithms use different indexing and searching techniques to perform an approximate similarity search, drastically reducing runtime in exchange for the lack of an optimality guarantee. A usual strategy involves the construction of a Proximity Graph (PG), which can be nav- igated through a greedy search. The state-of-the-art Hierarchical Navigable Small World (HNSW) algorithm improves this strategy, organizing data in a single-entry-point hier- archical graph to reduce the number of hops during search. However, the algorithm for building the hierarchy relies on a pseudo-randomly chosen distribution of data, which does not account dataset’s geometric properties. Furthermore, the single-entry-point strat- egy blocks the possibility of exploring the graph more than once, limiting results diversity. In this work, we propose two novel approaches to increase the robustness of the hier- archical graph approach: (i) HCNSW, a cluster-based approach to construct the search graph hierarchy, and (ii) iHNSW, an iterative search approach that uses data clusters to bring more diverse results. This iterative approach can be used with other data indexing strategies or leverage the same clusters constructed by HCNSW, resulting in iHCNSW. We implemented and empirically tested our two approaches over four well-known image- sourced vector datasets: SIFT1M, GIST, MNIST and Fashion-MNIST. These empirical experiments showed that our approaches can lead to interesting trade-offs over search efficiency and recall metrics. While our HCNSW index consistently drops query latency metrics in comparison to HNSW without significantly compromising (or even improving) recall, our iterative indexes (iHNSW and iHCNSW) can further add to recall metrics by extending the search process. Additionally, we implemented our HCNSW approach on top of the NMSLIB library to test it against a fast and complete HNSW implementation. Our tests show that our solution can not only improve overall performance stability, but can also do it consistently. However, our approaches add more complexity to the indexing process and also limits its capacity of progressively inserting new data.application/pdfporRecuperacao de informacoesBancos de dadosIndexação de dadosAlgoritmos de buscaClusteringOtimização de algoritmosImproving approximate nearest neighbor search in HNSW graphs with data clusteringAprimorando a busca aproximada do vizinho mais próximo em grafos HNSW com clustering de dados info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2025mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001266878.pdf.txt001266878.pdf.txtExtracted Texttext/plain85735http://www.lume.ufrgs.br/bitstream/10183/298728/2/001266878.pdf.txt5567c6a951edb57713817dfd712f3a5bMD52ORIGINAL001266878.pdfTexto completo (inglês)application/pdf1065295http://www.lume.ufrgs.br/bitstream/10183/298728/1/001266878.pdfbf45765b5a38e6d48c42d7f00423a573MD5110183/2987282025-12-15 08:16:58.943888oai:www.lume.ufrgs.br:10183/298728Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br || lume@ufrgs.bropendoar:18532025-12-15T10:16:58Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
| dc.title.pt_BR.fl_str_mv |
Improving approximate nearest neighbor search in HNSW graphs with data clustering |
| dc.title.alternative.en.fl_str_mv |
Aprimorando a busca aproximada do vizinho mais próximo em grafos HNSW com clustering de dados |
| title |
Improving approximate nearest neighbor search in HNSW graphs with data clustering |
| spellingShingle |
Improving approximate nearest neighbor search in HNSW graphs with data clustering Vieira, Marco Antônio Athayde de Aguiar Recuperacao de informacoes Bancos de dados Indexação de dados Algoritmos de busca Clustering Otimização de algoritmos |
| title_short |
Improving approximate nearest neighbor search in HNSW graphs with data clustering |
| title_full |
Improving approximate nearest neighbor search in HNSW graphs with data clustering |
| title_fullStr |
Improving approximate nearest neighbor search in HNSW graphs with data clustering |
| title_full_unstemmed |
Improving approximate nearest neighbor search in HNSW graphs with data clustering |
| title_sort |
Improving approximate nearest neighbor search in HNSW graphs with data clustering |
| author |
Vieira, Marco Antônio Athayde de Aguiar |
| author_facet |
Vieira, Marco Antônio Athayde de Aguiar |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Vieira, Marco Antônio Athayde de Aguiar |
| dc.contributor.advisor1.fl_str_mv |
Tavares, Anderson Rocha |
| contributor_str_mv |
Tavares, Anderson Rocha |
| dc.subject.por.fl_str_mv |
Recuperacao de informacoes Bancos de dados Indexação de dados Algoritmos de busca Clustering Otimização de algoritmos |
| topic |
Recuperacao de informacoes Bancos de dados Indexação de dados Algoritmos de busca Clustering Otimização de algoritmos |
| description |
Estratégias exaustivas para tarefas de busca e recuperação de informações em bancos de dados vetoriais não atendem às expectativas de eficiência de tempo de execução de aplicações modernas. Algoritmos de ANNS (Approximate Nearest Neighbor Search) usam diferentes técnicas de indexação e busca para executar uma busca de similaridade aproximada, reduzindo drasticamente o tempo de execução em troca da falta de garantia de otimalidade. Uma estratégia comum envolve a construção de um PG (Proximity Graph), que pode ser explorado utilizando uma busca gulosa. O algoritmo estado-da-arte HNSW (Hierarchical Navigable Small World) aprimora essa estratégia, organizando os dados em um grafo hi- erárquico de ponto de entrada único para reduzir o número de saltos durante a busca. No entanto, o algoritmo de construção da hierarquia depende de uma distribuição de dados escolhida pseudo aleatoriamente, que não leva em conta as propriedades geométricas do conjunto de dados. Além disso, a estratégia de ponto de entrada único impede a exploração do grafo mais de uma vez, limitando a variedade dos resultados. Neste trabalho, propomos duas novas abordagens para aumentar a robustez da abordagem de grafo hierárquico: (i) HCNSW, uma abordagem baseada em clustering para construir a hierarquia do grafo de busca, e (ii) iHNSW, uma abordagem de busca iterativa que utiliza clustering de dados para trazer resultados mais diversos. Essa abordagem iterativa pode ser utilizada com outras estratégias de indexação de dados ou aproveitar os mesmos clusters construídos pelo algoritmo HCNSW, resultando no índice iHCNSW. Implementamos e testamos empiricamente nossas duas abordagens em quatro conjuntos de dados vetoriais de imagens bem conhecidos: SIFT1M, GIST, MNIST e Fashion- MNIST. Esses experimentos empíricos mostraram que nossas abordagens levam a trade-offs interessantes entre a latência de busca e métricas de recall. Enquanto nosso índice HCNSW reduz consistentemente as métricas de latência de consulta em comparação ao HNSW sem comprometer significativamente (ou até mesmo melhorando) o recall, nossos índices iterativos (iHNSW e iHCNSW) podem adicionar ainda mais às métricas de recall ao estender o processo de busca. Além disso, implementamos nossa abordagem HCNSW sobre a biblioteca NMSLIB, para testá-la em uma implementação HNSW rápida e completa. Nossos testes mostram que nossa solução pode não apenas melhorar a estabilidade geral do desempenho, mas também pode fazê-lo de forma consistente. Entretanto, nossas abordagens adicionam mais complexidade ao processo de indexação e também limitam sua capacidade de inserir progressivamente novos dados. |
| publishDate |
2025 |
| dc.date.accessioned.fl_str_mv |
2025-11-12T08:02:25Z |
| dc.date.issued.fl_str_mv |
2025 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/298728 |
| dc.identifier.nrb.pt_BR.fl_str_mv |
001266878 |
| url |
http://hdl.handle.net/10183/298728 |
| identifier_str_mv |
001266878 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
| instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
| instacron_str |
UFRGS |
| institution |
UFRGS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/298728/2/001266878.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/298728/1/001266878.pdf |
| bitstream.checksum.fl_str_mv |
5567c6a951edb57713817dfd712f3a5b bf45765b5a38e6d48c42d7f00423a573 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
| repository.mail.fl_str_mv |
lume@ufrgs.br || lume@ufrgs.br |
| _version_ |
1860027826973966336 |