Improving approximate nearest neighbor search in HNSW graphs with data clustering

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Vieira, Marco Antônio Athayde de Aguiar
Orientador(a): Tavares, Anderson Rocha
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/10183/298728
Resumo: Estratégias exaustivas para tarefas de busca e recuperação de informações em bancos de dados vetoriais não atendem às expectativas de eficiência de tempo de execução de aplicações modernas. Algoritmos de ANNS (Approximate Nearest Neighbor Search) usam diferentes técnicas de indexação e busca para executar uma busca de similaridade aproximada, reduzindo drasticamente o tempo de execução em troca da falta de garantia de otimalidade. Uma estratégia comum envolve a construção de um PG (Proximity Graph), que pode ser explorado utilizando uma busca gulosa. O algoritmo estado-da-arte HNSW (Hierarchical Navigable Small World) aprimora essa estratégia, organizando os dados em um grafo hi- erárquico de ponto de entrada único para reduzir o número de saltos durante a busca. No entanto, o algoritmo de construção da hierarquia depende de uma distribuição de dados escolhida pseudo aleatoriamente, que não leva em conta as propriedades geométricas do conjunto de dados. Além disso, a estratégia de ponto de entrada único impede a exploração do grafo mais de uma vez, limitando a variedade dos resultados. Neste trabalho, propomos duas novas abordagens para aumentar a robustez da abordagem de grafo hierárquico: (i) HCNSW, uma abordagem baseada em clustering para construir a hierarquia do grafo de busca, e (ii) iHNSW, uma abordagem de busca iterativa que utiliza clustering de dados para trazer resultados mais diversos. Essa abordagem iterativa pode ser utilizada com outras estratégias de indexação de dados ou aproveitar os mesmos clusters construídos pelo algoritmo HCNSW, resultando no índice iHCNSW. Implementamos e testamos empiricamente nossas duas abordagens em quatro conjuntos de dados vetoriais de imagens bem conhecidos: SIFT1M, GIST, MNIST e Fashion- MNIST. Esses experimentos empíricos mostraram que nossas abordagens levam a trade-offs interessantes entre a latência de busca e métricas de recall. Enquanto nosso índice HCNSW reduz consistentemente as métricas de latência de consulta em comparação ao HNSW sem comprometer significativamente (ou até mesmo melhorando) o recall, nossos índices iterativos (iHNSW e iHCNSW) podem adicionar ainda mais às métricas de recall ao estender o processo de busca. Além disso, implementamos nossa abordagem HCNSW sobre a biblioteca NMSLIB, para testá-la em uma implementação HNSW rápida e completa. Nossos testes mostram que nossa solução pode não apenas melhorar a estabilidade geral do desempenho, mas também pode fazê-lo de forma consistente. Entretanto, nossas abordagens adicionam mais complexidade ao processo de indexação e também limitam sua capacidade de inserir progressivamente novos dados.
id URGS_06041803bc22364b162df45adda35fe7
oai_identifier_str oai:www.lume.ufrgs.br:10183/298728
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Vieira, Marco Antônio Athayde de AguiarTavares, Anderson Rocha2025-11-12T08:02:25Z2025http://hdl.handle.net/10183/298728001266878Estratégias exaustivas para tarefas de busca e recuperação de informações em bancos de dados vetoriais não atendem às expectativas de eficiência de tempo de execução de aplicações modernas. Algoritmos de ANNS (Approximate Nearest Neighbor Search) usam diferentes técnicas de indexação e busca para executar uma busca de similaridade aproximada, reduzindo drasticamente o tempo de execução em troca da falta de garantia de otimalidade. Uma estratégia comum envolve a construção de um PG (Proximity Graph), que pode ser explorado utilizando uma busca gulosa. O algoritmo estado-da-arte HNSW (Hierarchical Navigable Small World) aprimora essa estratégia, organizando os dados em um grafo hi- erárquico de ponto de entrada único para reduzir o número de saltos durante a busca. No entanto, o algoritmo de construção da hierarquia depende de uma distribuição de dados escolhida pseudo aleatoriamente, que não leva em conta as propriedades geométricas do conjunto de dados. Além disso, a estratégia de ponto de entrada único impede a exploração do grafo mais de uma vez, limitando a variedade dos resultados. Neste trabalho, propomos duas novas abordagens para aumentar a robustez da abordagem de grafo hierárquico: (i) HCNSW, uma abordagem baseada em clustering para construir a hierarquia do grafo de busca, e (ii) iHNSW, uma abordagem de busca iterativa que utiliza clustering de dados para trazer resultados mais diversos. Essa abordagem iterativa pode ser utilizada com outras estratégias de indexação de dados ou aproveitar os mesmos clusters construídos pelo algoritmo HCNSW, resultando no índice iHCNSW. Implementamos e testamos empiricamente nossas duas abordagens em quatro conjuntos de dados vetoriais de imagens bem conhecidos: SIFT1M, GIST, MNIST e Fashion- MNIST. Esses experimentos empíricos mostraram que nossas abordagens levam a trade-offs interessantes entre a latência de busca e métricas de recall. Enquanto nosso índice HCNSW reduz consistentemente as métricas de latência de consulta em comparação ao HNSW sem comprometer significativamente (ou até mesmo melhorando) o recall, nossos índices iterativos (iHNSW e iHCNSW) podem adicionar ainda mais às métricas de recall ao estender o processo de busca. Além disso, implementamos nossa abordagem HCNSW sobre a biblioteca NMSLIB, para testá-la em uma implementação HNSW rápida e completa. Nossos testes mostram que nossa solução pode não apenas melhorar a estabilidade geral do desempenho, mas também pode fazê-lo de forma consistente. Entretanto, nossas abordagens adicionam mais complexidade ao processo de indexação e também limitam sua capacidade de inserir progressivamente novos dados.Exhaustive strategies for search and information retrieval tasks over vector databases do not meet the runtime efficiency expectations of modern applications. Approximate Near- est Neighbor Search (ANNS) algorithms use different indexing and searching techniques to perform an approximate similarity search, drastically reducing runtime in exchange for the lack of an optimality guarantee. A usual strategy involves the construction of a Proximity Graph (PG), which can be nav- igated through a greedy search. The state-of-the-art Hierarchical Navigable Small World (HNSW) algorithm improves this strategy, organizing data in a single-entry-point hier- archical graph to reduce the number of hops during search. However, the algorithm for building the hierarchy relies on a pseudo-randomly chosen distribution of data, which does not account dataset’s geometric properties. Furthermore, the single-entry-point strat- egy blocks the possibility of exploring the graph more than once, limiting results diversity. In this work, we propose two novel approaches to increase the robustness of the hier- archical graph approach: (i) HCNSW, a cluster-based approach to construct the search graph hierarchy, and (ii) iHNSW, an iterative search approach that uses data clusters to bring more diverse results. This iterative approach can be used with other data indexing strategies or leverage the same clusters constructed by HCNSW, resulting in iHCNSW. We implemented and empirically tested our two approaches over four well-known image- sourced vector datasets: SIFT1M, GIST, MNIST and Fashion-MNIST. These empirical experiments showed that our approaches can lead to interesting trade-offs over search efficiency and recall metrics. While our HCNSW index consistently drops query latency metrics in comparison to HNSW without significantly compromising (or even improving) recall, our iterative indexes (iHNSW and iHCNSW) can further add to recall metrics by extending the search process. Additionally, we implemented our HCNSW approach on top of the NMSLIB library to test it against a fast and complete HNSW implementation. Our tests show that our solution can not only improve overall performance stability, but can also do it consistently. However, our approaches add more complexity to the indexing process and also limits its capacity of progressively inserting new data.application/pdfporRecuperacao de informacoesBancos de dadosIndexação de dadosAlgoritmos de buscaClusteringOtimização de algoritmosImproving approximate nearest neighbor search in HNSW graphs with data clusteringAprimorando a busca aproximada do vizinho mais próximo em grafos HNSW com clustering de dados info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2025mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001266878.pdf.txt001266878.pdf.txtExtracted Texttext/plain85735http://www.lume.ufrgs.br/bitstream/10183/298728/2/001266878.pdf.txt5567c6a951edb57713817dfd712f3a5bMD52ORIGINAL001266878.pdfTexto completo (inglês)application/pdf1065295http://www.lume.ufrgs.br/bitstream/10183/298728/1/001266878.pdfbf45765b5a38e6d48c42d7f00423a573MD5110183/2987282025-12-15 08:16:58.943888oai:www.lume.ufrgs.br:10183/298728Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br || lume@ufrgs.bropendoar:18532025-12-15T10:16:58Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Improving approximate nearest neighbor search in HNSW graphs with data clustering
dc.title.alternative.en.fl_str_mv Aprimorando a busca aproximada do vizinho mais próximo em grafos HNSW com clustering de dados
title Improving approximate nearest neighbor search in HNSW graphs with data clustering
spellingShingle Improving approximate nearest neighbor search in HNSW graphs with data clustering
Vieira, Marco Antônio Athayde de Aguiar
Recuperacao de informacoes
Bancos de dados
Indexação de dados
Algoritmos de busca
Clustering
Otimização de algoritmos
title_short Improving approximate nearest neighbor search in HNSW graphs with data clustering
title_full Improving approximate nearest neighbor search in HNSW graphs with data clustering
title_fullStr Improving approximate nearest neighbor search in HNSW graphs with data clustering
title_full_unstemmed Improving approximate nearest neighbor search in HNSW graphs with data clustering
title_sort Improving approximate nearest neighbor search in HNSW graphs with data clustering
author Vieira, Marco Antônio Athayde de Aguiar
author_facet Vieira, Marco Antônio Athayde de Aguiar
author_role author
dc.contributor.author.fl_str_mv Vieira, Marco Antônio Athayde de Aguiar
dc.contributor.advisor1.fl_str_mv Tavares, Anderson Rocha
contributor_str_mv Tavares, Anderson Rocha
dc.subject.por.fl_str_mv Recuperacao de informacoes
Bancos de dados
Indexação de dados
Algoritmos de busca
Clustering
Otimização de algoritmos
topic Recuperacao de informacoes
Bancos de dados
Indexação de dados
Algoritmos de busca
Clustering
Otimização de algoritmos
description Estratégias exaustivas para tarefas de busca e recuperação de informações em bancos de dados vetoriais não atendem às expectativas de eficiência de tempo de execução de aplicações modernas. Algoritmos de ANNS (Approximate Nearest Neighbor Search) usam diferentes técnicas de indexação e busca para executar uma busca de similaridade aproximada, reduzindo drasticamente o tempo de execução em troca da falta de garantia de otimalidade. Uma estratégia comum envolve a construção de um PG (Proximity Graph), que pode ser explorado utilizando uma busca gulosa. O algoritmo estado-da-arte HNSW (Hierarchical Navigable Small World) aprimora essa estratégia, organizando os dados em um grafo hi- erárquico de ponto de entrada único para reduzir o número de saltos durante a busca. No entanto, o algoritmo de construção da hierarquia depende de uma distribuição de dados escolhida pseudo aleatoriamente, que não leva em conta as propriedades geométricas do conjunto de dados. Além disso, a estratégia de ponto de entrada único impede a exploração do grafo mais de uma vez, limitando a variedade dos resultados. Neste trabalho, propomos duas novas abordagens para aumentar a robustez da abordagem de grafo hierárquico: (i) HCNSW, uma abordagem baseada em clustering para construir a hierarquia do grafo de busca, e (ii) iHNSW, uma abordagem de busca iterativa que utiliza clustering de dados para trazer resultados mais diversos. Essa abordagem iterativa pode ser utilizada com outras estratégias de indexação de dados ou aproveitar os mesmos clusters construídos pelo algoritmo HCNSW, resultando no índice iHCNSW. Implementamos e testamos empiricamente nossas duas abordagens em quatro conjuntos de dados vetoriais de imagens bem conhecidos: SIFT1M, GIST, MNIST e Fashion- MNIST. Esses experimentos empíricos mostraram que nossas abordagens levam a trade-offs interessantes entre a latência de busca e métricas de recall. Enquanto nosso índice HCNSW reduz consistentemente as métricas de latência de consulta em comparação ao HNSW sem comprometer significativamente (ou até mesmo melhorando) o recall, nossos índices iterativos (iHNSW e iHCNSW) podem adicionar ainda mais às métricas de recall ao estender o processo de busca. Além disso, implementamos nossa abordagem HCNSW sobre a biblioteca NMSLIB, para testá-la em uma implementação HNSW rápida e completa. Nossos testes mostram que nossa solução pode não apenas melhorar a estabilidade geral do desempenho, mas também pode fazê-lo de forma consistente. Entretanto, nossas abordagens adicionam mais complexidade ao processo de indexação e também limitam sua capacidade de inserir progressivamente novos dados.
publishDate 2025
dc.date.accessioned.fl_str_mv 2025-11-12T08:02:25Z
dc.date.issued.fl_str_mv 2025
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/298728
dc.identifier.nrb.pt_BR.fl_str_mv 001266878
url http://hdl.handle.net/10183/298728
identifier_str_mv 001266878
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/298728/2/001266878.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/298728/1/001266878.pdf
bitstream.checksum.fl_str_mv 5567c6a951edb57713817dfd712f3a5b
bf45765b5a38e6d48c42d7f00423a573
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br || lume@ufrgs.br
_version_ 1860027826973966336