Proximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraph

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Shimomura, Larissa Capobianco
Orientador(a): Kaster, Daniel dos Santos [Orientador]
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.uel.br/handle/123456789/11178
Resumo: Resumo: O desenvolvimento tecnológico acelerou o crescimento do volume de dados complexos como imagens, vídeos, séries temporais e dados geográficos Uma abordagem bastante utilizada para a recuperação de dados complexos são as consultas por similaridade As consultas por similaridade têm como objetivo principal recuperar dados similares a partir de características intrínsecas dos dados Assim, para facilitar a recuperação de dados complexos usando consultas por similaridade é necessário organizar grande quantidade de dados de forma que dados similares possam ser recuperados da forma mais rápida possível Diversos métodos de acesso foram propostos na literatura para tornar a recuperação por similaridade de grandes bases de dados mais rápida Artigos publicados recentemente indicam que métodos que utilizam grafos são bastante eficientes e superam o desempenho de métodos de outras categorias em várias situações Porém, de acordo com nosso conhecimento, nenhum trabalho se dedicou a realizar uma análise experimental em um número abrangente de métodos baseados em grafos utilizando os mesmos algoritmos de busca e o mesmo ambiente Esta Dissertação apresenta uma revisão bibliográfica sobre os principais tipos de grafos utilizados para consultas por similaridade, também foi realizado uma avaliação experimental utilizando os mesmos algoritmos de consulta com resposta exata e com resposta aproximada O métodos foram avaliados conforme seu comportamento considerando os principais parâmetros de construção e consulta para uma variedade de bases de dados reais A partir dos resultados desta avaliação foi proposto o método baseado em grafos, HGraph O HGraph é um método baseado em partições conectadas proposto para construir grafos de proximidade e responder consultas por similaridade O HGraph utiliza uma estratégia de divisão e conquista para construir tipos de grafos propostos na literatura Para conectar as diferentes partições do processo de divisão e conquista arestas longas foram adicionadas ao HGraph Foi avaliado o comportamento dos principais parâmetros do HGraph e seu desempenho quanto a tempo de construção e consultas por similaridade foram comparados com os métodos k-NNG (k-Nearest Neighbors Graph) , NSW (Navigable Small World Graph) e SAT (Spatial Approximation Tree) Como resultado, o HGraph foi capaz de melhorar o k-NNG em termos de tempo de construção, tempo de consulta e qualidade de resposta Além disso, o HGraph obteve melhor desempenho na busca em alguns datasets quando comparado ao NSW e a SAT
id UEL_40d54b37f09ca636d677a1855fb24ecf
oai_identifier_str oai:repositorio.uel.br:123456789/11178
network_acronym_str UEL
network_name_str Repositório Institucional da UEL
repository_id_str
spelling Shimomura, Larissa CapobiancoRodrigues Junior, José Fernandoe026b28d-f339-4825-9d9b-0e55103d2e0b-1Felinto, Alan Salvany4e1f4ae0-4c9c-4a28-a6d0-8562888eab79-19fcd0422-35f9-4cdc-858d-4cfd667659b784ea4dd8-8bc5-48ee-a859-dca06838444eKaster, Daniel dos Santos [Orientador]Londrina2024-05-01T13:10:52Z2024-05-01T13:10:52Z2019.0016.04.2019https://repositorio.uel.br/handle/123456789/11178Resumo: O desenvolvimento tecnológico acelerou o crescimento do volume de dados complexos como imagens, vídeos, séries temporais e dados geográficos Uma abordagem bastante utilizada para a recuperação de dados complexos são as consultas por similaridade As consultas por similaridade têm como objetivo principal recuperar dados similares a partir de características intrínsecas dos dados Assim, para facilitar a recuperação de dados complexos usando consultas por similaridade é necessário organizar grande quantidade de dados de forma que dados similares possam ser recuperados da forma mais rápida possível Diversos métodos de acesso foram propostos na literatura para tornar a recuperação por similaridade de grandes bases de dados mais rápida Artigos publicados recentemente indicam que métodos que utilizam grafos são bastante eficientes e superam o desempenho de métodos de outras categorias em várias situações Porém, de acordo com nosso conhecimento, nenhum trabalho se dedicou a realizar uma análise experimental em um número abrangente de métodos baseados em grafos utilizando os mesmos algoritmos de busca e o mesmo ambiente Esta Dissertação apresenta uma revisão bibliográfica sobre os principais tipos de grafos utilizados para consultas por similaridade, também foi realizado uma avaliação experimental utilizando os mesmos algoritmos de consulta com resposta exata e com resposta aproximada O métodos foram avaliados conforme seu comportamento considerando os principais parâmetros de construção e consulta para uma variedade de bases de dados reais A partir dos resultados desta avaliação foi proposto o método baseado em grafos, HGraph O HGraph é um método baseado em partições conectadas proposto para construir grafos de proximidade e responder consultas por similaridade O HGraph utiliza uma estratégia de divisão e conquista para construir tipos de grafos propostos na literatura Para conectar as diferentes partições do processo de divisão e conquista arestas longas foram adicionadas ao HGraph Foi avaliado o comportamento dos principais parâmetros do HGraph e seu desempenho quanto a tempo de construção e consultas por similaridade foram comparados com os métodos k-NNG (k-Nearest Neighbors Graph) , NSW (Navigable Small World Graph) e SAT (Spatial Approximation Tree) Como resultado, o HGraph foi capaz de melhorar o k-NNG em termos de tempo de construção, tempo de consulta e qualidade de resposta Além disso, o HGraph obteve melhor desempenho na busca em alguns datasets quando comparado ao NSW e a SATDissertação (Mestrado em Ciência da Computação) - Universidade Estadual de Londrina, Centro de Ciências Exatas, Programa de Pós-Graduação em Ciência da ComputaçãoAbstract: The technology development has accelerated the growth of the volume of complex data, such as images, videos, time series, and georeferenced data A widely used approach to retrieve complex data are the similarity searches The similarity searches aim at retrieving similar data according to intrinsic characteristics of the data Therefore, in order to facilitate the retrieval of complex data using similarity searches, it is necessary to organize large collections of data in a way that similar data can be retrieved in the shortest time as possible Several access methods were proposed in the literature to speed up similarity data retrieval from large databases Recently, graph-based methods have emerged as a very efficient alternative for similarity retrieval, with reports indicating they have outperformed methods of other categories in several situations However, to the best of our knowledge, there is no previous work with experimental analysis on a comprehensive number of graph-based methods using the same search algorithm and execution environment This work presents two main contributions The first contribution is a survey on the main graph types currently employed for similarity searches and an experimental evaluation of the most representative graphs in a common platform, for exact and approximate search algorithms We evaluated the relative performance behavior of these graphs with respect to the main construction and query parameters for a variety of real-world datasets According to the evaluation of the results, we propose a new graph-based method called HGraph, the second contribution of this work HGraph is a connected partition approach to build graph-based methods and answer similarity searches In HGraph we use a divide and conquer strategy to build graph-based methods proposed in the literature and add long-range edges to connect the different partitions These long-range edges are added in order to increase the answer quality compared to their “base” graph type We evaluated the HGraph main parameters behavior and compared the HGraph construction time and similarity search performance for approximate searches to the k-NNG, SWG and the SAT As a result, the HGraph method was able to accelerate the k-NNG graph construction and improve the k-NNG query time and query recall Thus, the HGraph performed better in similarity searches than the SWG and the SAT in some datasetsporTeoria dos grafosProcessamento de dadosEspaços métricosRecuperação de dados (Computação)Graph theoryMetric spacesData processingProximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraphinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisMestradoCiência da ComputaçãoCentro de Ciências ExatasPrograma de Pós-Graduação em Ciência da Computação-1-1reponame:Repositório Institucional da UELinstname:Universidade Estadual de Londrina (UEL)instacron:UELinfo:eu-repo/semantics/openAccess125276vtls000226937NÃOvtls000226937http://www.bibliotecadigital.uel.br/document/?code=vtls22693761.00NÃOhttp://www.bibliotecadigital.uel.br/document/?code=vtls0002269376671.pdf123456789/5002 - Mestrado - Ciência da ComputaçãoORIGINAL6671.pdfapplication/pdf4207360https://repositorio.uel.br/bitstreams/50057f4a-d09a-41ac-894e-8899ba18c0b9/downloadd62e2e0de8d7e0a55c19f8accb136dc0MD51LICENCElicence.txttext/plain263https://repositorio.uel.br/bitstreams/d08c2a37-745d-42de-9f3f-e22561fa9e5b/download753f376dfdbc064b559839be95ac5523MD52TEXT6671.pdf.txt6671.pdf.txtExtracted texttext/plain247225https://repositorio.uel.br/bitstreams/e0e3e82e-7094-4e1b-9c50-6f885f5a3ff2/downloadd4eecab94010bc1cfa8e3b85c5a0aaa8MD53THUMBNAIL6671.pdf.jpg6671.pdf.jpgGenerated Thumbnailimage/jpeg3769https://repositorio.uel.br/bitstreams/de25c63a-e3dc-422c-b7fd-5fbefc7db6a6/download715ef10431e46f33a27eae7a8c245e63MD54123456789/111782024-07-12 01:20:07.208open.accessoai:repositorio.uel.br:123456789/11178https://repositorio.uel.brBiblioteca Digital de Teses e Dissertaçõeshttp://www.bibliotecadigital.uel.br/PUBhttp://www.bibliotecadigital.uel.br/OAI/oai2.phpbcuel@uel.br||opendoar:2024-07-12T04:20:07Repositório Institucional da UEL - Universidade Estadual de Londrina (UEL)false
dc.title.pt_BR.fl_str_mv Proximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraph
title Proximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraph
spellingShingle Proximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraph
Shimomura, Larissa Capobianco
Teoria dos grafos
Processamento de dados
Espaços métricos
Recuperação de dados (Computação)
Graph theory
Metric spaces
Data processing
title_short Proximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraph
title_full Proximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraph
title_fullStr Proximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraph
title_full_unstemmed Proximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraph
title_sort Proximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraph
author Shimomura, Larissa Capobianco
author_facet Shimomura, Larissa Capobianco
author_role author
dc.contributor.banca.pt_BR.fl_str_mv Rodrigues Junior, José Fernando
Felinto, Alan Salvany
dc.contributor.author.fl_str_mv Shimomura, Larissa Capobianco
dc.contributor.authorID.fl_str_mv 9fcd0422-35f9-4cdc-858d-4cfd667659b7
dc.contributor.advisor1ID.fl_str_mv 84ea4dd8-8bc5-48ee-a859-dca06838444e
dc.contributor.advisor1.fl_str_mv Kaster, Daniel dos Santos [Orientador]
contributor_str_mv Kaster, Daniel dos Santos [Orientador]
dc.subject.por.fl_str_mv Teoria dos grafos
Processamento de dados
Espaços métricos
Recuperação de dados (Computação)
Graph theory
Metric spaces
Data processing
topic Teoria dos grafos
Processamento de dados
Espaços métricos
Recuperação de dados (Computação)
Graph theory
Metric spaces
Data processing
description Resumo: O desenvolvimento tecnológico acelerou o crescimento do volume de dados complexos como imagens, vídeos, séries temporais e dados geográficos Uma abordagem bastante utilizada para a recuperação de dados complexos são as consultas por similaridade As consultas por similaridade têm como objetivo principal recuperar dados similares a partir de características intrínsecas dos dados Assim, para facilitar a recuperação de dados complexos usando consultas por similaridade é necessário organizar grande quantidade de dados de forma que dados similares possam ser recuperados da forma mais rápida possível Diversos métodos de acesso foram propostos na literatura para tornar a recuperação por similaridade de grandes bases de dados mais rápida Artigos publicados recentemente indicam que métodos que utilizam grafos são bastante eficientes e superam o desempenho de métodos de outras categorias em várias situações Porém, de acordo com nosso conhecimento, nenhum trabalho se dedicou a realizar uma análise experimental em um número abrangente de métodos baseados em grafos utilizando os mesmos algoritmos de busca e o mesmo ambiente Esta Dissertação apresenta uma revisão bibliográfica sobre os principais tipos de grafos utilizados para consultas por similaridade, também foi realizado uma avaliação experimental utilizando os mesmos algoritmos de consulta com resposta exata e com resposta aproximada O métodos foram avaliados conforme seu comportamento considerando os principais parâmetros de construção e consulta para uma variedade de bases de dados reais A partir dos resultados desta avaliação foi proposto o método baseado em grafos, HGraph O HGraph é um método baseado em partições conectadas proposto para construir grafos de proximidade e responder consultas por similaridade O HGraph utiliza uma estratégia de divisão e conquista para construir tipos de grafos propostos na literatura Para conectar as diferentes partições do processo de divisão e conquista arestas longas foram adicionadas ao HGraph Foi avaliado o comportamento dos principais parâmetros do HGraph e seu desempenho quanto a tempo de construção e consultas por similaridade foram comparados com os métodos k-NNG (k-Nearest Neighbors Graph) , NSW (Navigable Small World Graph) e SAT (Spatial Approximation Tree) Como resultado, o HGraph foi capaz de melhorar o k-NNG em termos de tempo de construção, tempo de consulta e qualidade de resposta Além disso, o HGraph obteve melhor desempenho na busca em alguns datasets quando comparado ao NSW e a SAT
publishDate 2024
dc.date.defesa.pt_BR.fl_str_mv 16.04.2019
dc.date.created.fl_str_mv 2019.00
dc.date.accessioned.fl_str_mv 2024-05-01T13:10:52Z
dc.date.available.fl_str_mv 2024-05-01T13:10:52Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.uel.br/handle/123456789/11178
url https://repositorio.uel.br/handle/123456789/11178
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv -1
-1
dc.relation.coursedegree.pt_BR.fl_str_mv Mestrado
dc.relation.coursename.pt_BR.fl_str_mv Ciência da Computação
dc.relation.departament.pt_BR.fl_str_mv Centro de Ciências Exatas
dc.relation.ppgname.pt_BR.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.coverage.spatial.pt_BR.fl_str_mv Londrina
dc.source.none.fl_str_mv reponame:Repositório Institucional da UEL
instname:Universidade Estadual de Londrina (UEL)
instacron:UEL
instname_str Universidade Estadual de Londrina (UEL)
instacron_str UEL
institution UEL
reponame_str Repositório Institucional da UEL
collection Repositório Institucional da UEL
bitstream.url.fl_str_mv https://repositorio.uel.br/bitstreams/50057f4a-d09a-41ac-894e-8899ba18c0b9/download
https://repositorio.uel.br/bitstreams/d08c2a37-745d-42de-9f3f-e22561fa9e5b/download
https://repositorio.uel.br/bitstreams/e0e3e82e-7094-4e1b-9c50-6f885f5a3ff2/download
https://repositorio.uel.br/bitstreams/de25c63a-e3dc-422c-b7fd-5fbefc7db6a6/download
bitstream.checksum.fl_str_mv d62e2e0de8d7e0a55c19f8accb136dc0
753f376dfdbc064b559839be95ac5523
d4eecab94010bc1cfa8e3b85c5a0aaa8
715ef10431e46f33a27eae7a8c245e63
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UEL - Universidade Estadual de Londrina (UEL)
repository.mail.fl_str_mv bcuel@uel.br||
_version_ 1856675795514163200