Improving approximate nearest neighbor search in HNSW graphs with data clustering

Vieira, Marco Antônio Athayde de Aguiar

Improving approximate nearest neighbor search in HNSW graphs with data clustering

Detalhes bibliográficos
Ano de defesa:	2025
Autor(a) principal:	Vieira, Marco Antônio Athayde de Aguiar
Orientador(a):	Tavares, Anderson Rocha
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Recuperacao de informacoes Bancos de dados Indexação de dados Algoritmos de busca Clustering Otimização de algoritmos
Link de acesso:	http://hdl.handle.net/10183/298728
Resumo:	Estratégias exaustivas para tarefas de busca e recuperação de informações em bancos de dados vetoriais não atendem às expectativas de eficiência de tempo de execução de aplicações modernas. Algoritmos de ANNS (Approximate Nearest Neighbor Search) usam diferentes técnicas de indexação e busca para executar uma busca de similaridade aproximada, reduzindo drasticamente o tempo de execução em troca da falta de garantia de otimalidade. Uma estratégia comum envolve a construção de um PG (Proximity Graph), que pode ser explorado utilizando uma busca gulosa. O algoritmo estado-da-arte HNSW (Hierarchical Navigable Small World) aprimora essa estratégia, organizando os dados em um grafo hi- erárquico de ponto de entrada único para reduzir o número de saltos durante a busca. No entanto, o algoritmo de construção da hierarquia depende de uma distribuição de dados escolhida pseudo aleatoriamente, que não leva em conta as propriedades geométricas do conjunto de dados. Além disso, a estratégia de ponto de entrada único impede a exploração do grafo mais de uma vez, limitando a variedade dos resultados. Neste trabalho, propomos duas novas abordagens para aumentar a robustez da abordagem de grafo hierárquico: (i) HCNSW, uma abordagem baseada em clustering para construir a hierarquia do grafo de busca, e (ii) iHNSW, uma abordagem de busca iterativa que utiliza clustering de dados para trazer resultados mais diversos. Essa abordagem iterativa pode ser utilizada com outras estratégias de indexação de dados ou aproveitar os mesmos clusters construídos pelo algoritmo HCNSW, resultando no índice iHCNSW. Implementamos e testamos empiricamente nossas duas abordagens em quatro conjuntos de dados vetoriais de imagens bem conhecidos: SIFT1M, GIST, MNIST e Fashion- MNIST. Esses experimentos empíricos mostraram que nossas abordagens levam a trade-offs interessantes entre a latência de busca e métricas de recall. Enquanto nosso índice HCNSW reduz consistentemente as métricas de latência de consulta em comparação ao HNSW sem comprometer significativamente (ou até mesmo melhorando) o recall, nossos índices iterativos (iHNSW e iHCNSW) podem adicionar ainda mais às métricas de recall ao estender o processo de busca. Além disso, implementamos nossa abordagem HCNSW sobre a biblioteca NMSLIB, para testá-la em uma implementação HNSW rápida e completa. Nossos testes mostram que nossa solução pode não apenas melhorar a estabilidade geral do desempenho, mas também pode fazê-lo de forma consistente. Entretanto, nossas abordagens adicionam mais complexidade ao processo de indexação e também limitam sua capacidade de inserir progressivamente novos dados.

Metadados do item

id	URGS_06041803bc22364b162df45adda35fe7
oai_identifier_str	oai:www.lume.ufrgs.br:10183/298728
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling	Vieira, Marco Antônio Athayde de AguiarTavares, Anderson Rocha2025-11-12T08:02:25Z2025http://hdl.handle.net/10183/298728001266878Estratégias exaustivas para tarefas de busca e recuperação de informações em bancos de dados vetoriais não atendem às expectativas de eficiência de tempo de execução de aplicações modernas. Algoritmos de ANNS (Approximate Nearest Neighbor Search) usam diferentes técnicas de indexação e busca para executar uma busca de similaridade aproximada, reduzindo drasticamente o tempo de execução em troca da falta de garantia de otimalidade. Uma estratégia comum envolve a construção de um PG (Proximity Graph), que pode ser explorado utilizando uma busca gulosa. O algoritmo estado-da-arte HNSW (Hierarchical Navigable Small World) aprimora essa estratégia, organizando os dados em um grafo hi- erárquico de ponto de entrada único para reduzir o número de saltos durante a busca. No entanto, o algoritmo de construção da hierarquia depende de uma distribuição de dados escolhida pseudo aleatoriamente, que não leva em conta as propriedades geométricas do conjunto de dados. Além disso, a estratégia de ponto de entrada único impede a exploração do grafo mais de uma vez, limitando a variedade dos resultados. Neste trabalho, propomos duas novas abordagens para aumentar a robustez da abordagem de grafo hierárquico: (i) HCNSW, uma abordagem baseada em clustering para construir a hierarquia do grafo de busca, e (ii) iHNSW, uma abordagem de busca iterativa que utiliza clustering de dados para trazer resultados mais diversos. Essa abordagem iterativa pode ser utilizada com outras estratégias de indexação de dados ou aproveitar os mesmos clusters construídos pelo algoritmo HCNSW, resultando no índice iHCNSW. Implementamos e testamos empiricamente nossas duas abordagens em quatro conjuntos de dados vetoriais de imagens bem conhecidos: SIFT1M, GIST, MNIST e Fashion- MNIST. Esses experimentos empíricos mostraram que nossas abordagens levam a trade-offs interessantes entre a latência de busca e métricas de recall. Enquanto nosso índice HCNSW reduz consistentemente as métricas de latência de consulta em comparação ao HNSW sem comprometer significativamente (ou até mesmo melhorando) o recall, nossos índices iterativos (iHNSW e iHCNSW) podem adicionar ainda mais às métricas de recall ao estender o processo de busca. Além disso, implementamos nossa abordagem HCNSW sobre a biblioteca NMSLIB, para testá-la em uma implementação HNSW rápida e completa. Nossos testes mostram que nossa solução pode não apenas melhorar a estabilidade geral do desempenho, mas também pode fazê-lo de forma consistente. Entretanto, nossas abordagens adicionam mais complexidade ao processo de indexação e também limitam sua capacidade de inserir progressivamente novos dados.Exhaustive strategies for search and information retrieval tasks over vector databases do not meet the runtime efficiency expectations of modern applications. Approximate Near- est Neighbor Search (ANNS) algorithms use different indexing and searching techniques to perform an approximate similarity search, drastically reducing runtime in exchange for the lack of an optimality guarantee. A usual strategy involves the construction of a Proximity Graph (PG), which can be nav- igated through a greedy search. The state-of-the-art Hierarchical Navigable Small World (HNSW) algorithm improves this strategy, organizing data in a single-entry-point hier- archical graph to reduce the number of hops during search. However, the algorithm for building the hierarchy relies on a pseudo-randomly chosen distribution of data, which does not account dataset’s geometric properties. Furthermore, the single-entry-point strat- egy blocks the possibility of exploring the graph more than once, limiting results diversity. In this work, we propose two novel approaches to increase the robustness of the hier- archical graph approach: (i) HCNSW, a cluster-based approach to construct the search graph hierarchy, and (ii) iHNSW, an iterative search approach that uses data clusters to bring more diverse results. This iterative approach can be used with other data indexing strategies or leverage the same clusters constructed by HCNSW, resulting in iHCNSW. We implemented and empirically tested our two approaches over four well-known image- sourced vector datasets: SIFT1M, GIST, MNIST and Fashion-MNIST. These empirical experiments showed that our approaches can lead to interesting trade-offs over search efficiency and recall metrics. While our HCNSW index consistently drops query latency metrics in comparison to HNSW without significantly compromising (or even improving) recall, our iterative indexes (iHNSW and iHCNSW) can further add to recall metrics by extending the search process. Additionally, we implemented our HCNSW approach on top of the NMSLIB library to test it against a fast and complete HNSW implementation. Our tests show that our solution can not only improve overall performance stability, but can also do it consistently. However, our approaches add more complexity to the indexing process and also limits its capacity of progressively inserting new data.application/pdfporRecuperacao de informacoesBancos de dadosIndexação de dadosAlgoritmos de buscaClusteringOtimização de algoritmosImproving approximate nearest neighbor search in HNSW graphs with data clusteringAprimorando a busca aproximada do vizinho mais próximo em grafos HNSW com clustering de dados info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2025mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001266878.pdf.txt001266878.pdf.txtExtracted Texttext/plain85735http://www.lume.ufrgs.br/bitstream/10183/298728/2/001266878.pdf.txt5567c6a951edb57713817dfd712f3a5bMD52ORIGINAL001266878.pdfTexto completo (inglês)application/pdf1065295http://www.lume.ufrgs.br/bitstream/10183/298728/1/001266878.pdfbf45765b5a38e6d48c42d7f00423a573MD5110183/2987282025-12-15 08:16:58.943888oai:www.lume.ufrgs.br:10183/298728Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br \|\| lume@ufrgs.bropendoar:18532025-12-15T10:16:58Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Improving approximate nearest neighbor search in HNSW graphs with data clustering
dc.title.alternative.en.fl_str_mv	Aprimorando a busca aproximada do vizinho mais próximo em grafos HNSW com clustering de dados
title	Improving approximate nearest neighbor search in HNSW graphs with data clustering
spellingShingle	Improving approximate nearest neighbor search in HNSW graphs with data clustering Vieira, Marco Antônio Athayde de Aguiar Recuperacao de informacoes Bancos de dados Indexação de dados Algoritmos de busca Clustering Otimização de algoritmos
title_short	Improving approximate nearest neighbor search in HNSW graphs with data clustering
title_full	Improving approximate nearest neighbor search in HNSW graphs with data clustering
title_fullStr	Improving approximate nearest neighbor search in HNSW graphs with data clustering
title_full_unstemmed	Improving approximate nearest neighbor search in HNSW graphs with data clustering
title_sort	Improving approximate nearest neighbor search in HNSW graphs with data clustering
author	Vieira, Marco Antônio Athayde de Aguiar
author_facet	Vieira, Marco Antônio Athayde de Aguiar
author_role	author
dc.contributor.author.fl_str_mv	Vieira, Marco Antônio Athayde de Aguiar
dc.contributor.advisor1.fl_str_mv	Tavares, Anderson Rocha
contributor_str_mv	Tavares, Anderson Rocha
dc.subject.por.fl_str_mv	Recuperacao de informacoes Bancos de dados Indexação de dados Algoritmos de busca Clustering Otimização de algoritmos
topic	Recuperacao de informacoes Bancos de dados Indexação de dados Algoritmos de busca Clustering Otimização de algoritmos
description	Estratégias exaustivas para tarefas de busca e recuperação de informações em bancos de dados vetoriais não atendem às expectativas de eficiência de tempo de execução de aplicações modernas. Algoritmos de ANNS (Approximate Nearest Neighbor Search) usam diferentes técnicas de indexação e busca para executar uma busca de similaridade aproximada, reduzindo drasticamente o tempo de execução em troca da falta de garantia de otimalidade. Uma estratégia comum envolve a construção de um PG (Proximity Graph), que pode ser explorado utilizando uma busca gulosa. O algoritmo estado-da-arte HNSW (Hierarchical Navigable Small World) aprimora essa estratégia, organizando os dados em um grafo hi- erárquico de ponto de entrada único para reduzir o número de saltos durante a busca. No entanto, o algoritmo de construção da hierarquia depende de uma distribuição de dados escolhida pseudo aleatoriamente, que não leva em conta as propriedades geométricas do conjunto de dados. Além disso, a estratégia de ponto de entrada único impede a exploração do grafo mais de uma vez, limitando a variedade dos resultados. Neste trabalho, propomos duas novas abordagens para aumentar a robustez da abordagem de grafo hierárquico: (i) HCNSW, uma abordagem baseada em clustering para construir a hierarquia do grafo de busca, e (ii) iHNSW, uma abordagem de busca iterativa que utiliza clustering de dados para trazer resultados mais diversos. Essa abordagem iterativa pode ser utilizada com outras estratégias de indexação de dados ou aproveitar os mesmos clusters construídos pelo algoritmo HCNSW, resultando no índice iHCNSW. Implementamos e testamos empiricamente nossas duas abordagens em quatro conjuntos de dados vetoriais de imagens bem conhecidos: SIFT1M, GIST, MNIST e Fashion- MNIST. Esses experimentos empíricos mostraram que nossas abordagens levam a trade-offs interessantes entre a latência de busca e métricas de recall. Enquanto nosso índice HCNSW reduz consistentemente as métricas de latência de consulta em comparação ao HNSW sem comprometer significativamente (ou até mesmo melhorando) o recall, nossos índices iterativos (iHNSW e iHCNSW) podem adicionar ainda mais às métricas de recall ao estender o processo de busca. Além disso, implementamos nossa abordagem HCNSW sobre a biblioteca NMSLIB, para testá-la em uma implementação HNSW rápida e completa. Nossos testes mostram que nossa solução pode não apenas melhorar a estabilidade geral do desempenho, mas também pode fazê-lo de forma consistente. Entretanto, nossas abordagens adicionam mais complexidade ao processo de indexação e também limitam sua capacidade de inserir progressivamente novos dados.
publishDate	2025
dc.date.accessioned.fl_str_mv	2025-11-12T08:02:25Z
dc.date.issued.fl_str_mv	2025
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/298728
dc.identifier.nrb.pt_BR.fl_str_mv	001266878
url	http://hdl.handle.net/10183/298728
identifier_str_mv	001266878
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/298728/2/001266878.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/298728/1/001266878.pdf
bitstream.checksum.fl_str_mv	5567c6a951edb57713817dfd712f3a5b bf45765b5a38e6d48c42d7f00423a573
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br \|\| lume@ufrgs.br
_version_	1860027826973966336

Improving approximate nearest neighbor search in HNSW graphs with data clustering

Registros relacionados