Proximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraph
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://repositorio.uel.br/handle/123456789/11178 |
Resumo: | Resumo: O desenvolvimento tecnológico acelerou o crescimento do volume de dados complexos como imagens, vídeos, séries temporais e dados geográficos Uma abordagem bastante utilizada para a recuperação de dados complexos são as consultas por similaridade As consultas por similaridade têm como objetivo principal recuperar dados similares a partir de características intrínsecas dos dados Assim, para facilitar a recuperação de dados complexos usando consultas por similaridade é necessário organizar grande quantidade de dados de forma que dados similares possam ser recuperados da forma mais rápida possível Diversos métodos de acesso foram propostos na literatura para tornar a recuperação por similaridade de grandes bases de dados mais rápida Artigos publicados recentemente indicam que métodos que utilizam grafos são bastante eficientes e superam o desempenho de métodos de outras categorias em várias situações Porém, de acordo com nosso conhecimento, nenhum trabalho se dedicou a realizar uma análise experimental em um número abrangente de métodos baseados em grafos utilizando os mesmos algoritmos de busca e o mesmo ambiente Esta Dissertação apresenta uma revisão bibliográfica sobre os principais tipos de grafos utilizados para consultas por similaridade, também foi realizado uma avaliação experimental utilizando os mesmos algoritmos de consulta com resposta exata e com resposta aproximada O métodos foram avaliados conforme seu comportamento considerando os principais parâmetros de construção e consulta para uma variedade de bases de dados reais A partir dos resultados desta avaliação foi proposto o método baseado em grafos, HGraph O HGraph é um método baseado em partições conectadas proposto para construir grafos de proximidade e responder consultas por similaridade O HGraph utiliza uma estratégia de divisão e conquista para construir tipos de grafos propostos na literatura Para conectar as diferentes partições do processo de divisão e conquista arestas longas foram adicionadas ao HGraph Foi avaliado o comportamento dos principais parâmetros do HGraph e seu desempenho quanto a tempo de construção e consultas por similaridade foram comparados com os métodos k-NNG (k-Nearest Neighbors Graph) , NSW (Navigable Small World Graph) e SAT (Spatial Approximation Tree) Como resultado, o HGraph foi capaz de melhorar o k-NNG em termos de tempo de construção, tempo de consulta e qualidade de resposta Além disso, o HGraph obteve melhor desempenho na busca em alguns datasets quando comparado ao NSW e a SAT |
| id |
UEL_40d54b37f09ca636d677a1855fb24ecf |
|---|---|
| oai_identifier_str |
oai:repositorio.uel.br:123456789/11178 |
| network_acronym_str |
UEL |
| network_name_str |
Repositório Institucional da UEL |
| repository_id_str |
|
| spelling |
Shimomura, Larissa CapobiancoRodrigues Junior, José Fernandoe026b28d-f339-4825-9d9b-0e55103d2e0b-1Felinto, Alan Salvany4e1f4ae0-4c9c-4a28-a6d0-8562888eab79-19fcd0422-35f9-4cdc-858d-4cfd667659b784ea4dd8-8bc5-48ee-a859-dca06838444eKaster, Daniel dos Santos [Orientador]Londrina2024-05-01T13:10:52Z2024-05-01T13:10:52Z2019.0016.04.2019https://repositorio.uel.br/handle/123456789/11178Resumo: O desenvolvimento tecnológico acelerou o crescimento do volume de dados complexos como imagens, vídeos, séries temporais e dados geográficos Uma abordagem bastante utilizada para a recuperação de dados complexos são as consultas por similaridade As consultas por similaridade têm como objetivo principal recuperar dados similares a partir de características intrínsecas dos dados Assim, para facilitar a recuperação de dados complexos usando consultas por similaridade é necessário organizar grande quantidade de dados de forma que dados similares possam ser recuperados da forma mais rápida possível Diversos métodos de acesso foram propostos na literatura para tornar a recuperação por similaridade de grandes bases de dados mais rápida Artigos publicados recentemente indicam que métodos que utilizam grafos são bastante eficientes e superam o desempenho de métodos de outras categorias em várias situações Porém, de acordo com nosso conhecimento, nenhum trabalho se dedicou a realizar uma análise experimental em um número abrangente de métodos baseados em grafos utilizando os mesmos algoritmos de busca e o mesmo ambiente Esta Dissertação apresenta uma revisão bibliográfica sobre os principais tipos de grafos utilizados para consultas por similaridade, também foi realizado uma avaliação experimental utilizando os mesmos algoritmos de consulta com resposta exata e com resposta aproximada O métodos foram avaliados conforme seu comportamento considerando os principais parâmetros de construção e consulta para uma variedade de bases de dados reais A partir dos resultados desta avaliação foi proposto o método baseado em grafos, HGraph O HGraph é um método baseado em partições conectadas proposto para construir grafos de proximidade e responder consultas por similaridade O HGraph utiliza uma estratégia de divisão e conquista para construir tipos de grafos propostos na literatura Para conectar as diferentes partições do processo de divisão e conquista arestas longas foram adicionadas ao HGraph Foi avaliado o comportamento dos principais parâmetros do HGraph e seu desempenho quanto a tempo de construção e consultas por similaridade foram comparados com os métodos k-NNG (k-Nearest Neighbors Graph) , NSW (Navigable Small World Graph) e SAT (Spatial Approximation Tree) Como resultado, o HGraph foi capaz de melhorar o k-NNG em termos de tempo de construção, tempo de consulta e qualidade de resposta Além disso, o HGraph obteve melhor desempenho na busca em alguns datasets quando comparado ao NSW e a SATDissertação (Mestrado em Ciência da Computação) - Universidade Estadual de Londrina, Centro de Ciências Exatas, Programa de Pós-Graduação em Ciência da ComputaçãoAbstract: The technology development has accelerated the growth of the volume of complex data, such as images, videos, time series, and georeferenced data A widely used approach to retrieve complex data are the similarity searches The similarity searches aim at retrieving similar data according to intrinsic characteristics of the data Therefore, in order to facilitate the retrieval of complex data using similarity searches, it is necessary to organize large collections of data in a way that similar data can be retrieved in the shortest time as possible Several access methods were proposed in the literature to speed up similarity data retrieval from large databases Recently, graph-based methods have emerged as a very efficient alternative for similarity retrieval, with reports indicating they have outperformed methods of other categories in several situations However, to the best of our knowledge, there is no previous work with experimental analysis on a comprehensive number of graph-based methods using the same search algorithm and execution environment This work presents two main contributions The first contribution is a survey on the main graph types currently employed for similarity searches and an experimental evaluation of the most representative graphs in a common platform, for exact and approximate search algorithms We evaluated the relative performance behavior of these graphs with respect to the main construction and query parameters for a variety of real-world datasets According to the evaluation of the results, we propose a new graph-based method called HGraph, the second contribution of this work HGraph is a connected partition approach to build graph-based methods and answer similarity searches In HGraph we use a divide and conquer strategy to build graph-based methods proposed in the literature and add long-range edges to connect the different partitions These long-range edges are added in order to increase the answer quality compared to their “base” graph type We evaluated the HGraph main parameters behavior and compared the HGraph construction time and similarity search performance for approximate searches to the k-NNG, SWG and the SAT As a result, the HGraph method was able to accelerate the k-NNG graph construction and improve the k-NNG query time and query recall Thus, the HGraph performed better in similarity searches than the SWG and the SAT in some datasetsporTeoria dos grafosProcessamento de dadosEspaços métricosRecuperação de dados (Computação)Graph theoryMetric spacesData processingProximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraphinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisMestradoCiência da ComputaçãoCentro de Ciências ExatasPrograma de Pós-Graduação em Ciência da Computação-1-1reponame:Repositório Institucional da UELinstname:Universidade Estadual de Londrina (UEL)instacron:UELinfo:eu-repo/semantics/openAccess125276vtls000226937NÃOvtls000226937http://www.bibliotecadigital.uel.br/document/?code=vtls22693761.00NÃOhttp://www.bibliotecadigital.uel.br/document/?code=vtls0002269376671.pdf123456789/5002 - Mestrado - Ciência da ComputaçãoORIGINAL6671.pdfapplication/pdf4207360https://repositorio.uel.br/bitstreams/50057f4a-d09a-41ac-894e-8899ba18c0b9/downloadd62e2e0de8d7e0a55c19f8accb136dc0MD51LICENCElicence.txttext/plain263https://repositorio.uel.br/bitstreams/d08c2a37-745d-42de-9f3f-e22561fa9e5b/download753f376dfdbc064b559839be95ac5523MD52TEXT6671.pdf.txt6671.pdf.txtExtracted texttext/plain247225https://repositorio.uel.br/bitstreams/e0e3e82e-7094-4e1b-9c50-6f885f5a3ff2/downloadd4eecab94010bc1cfa8e3b85c5a0aaa8MD53THUMBNAIL6671.pdf.jpg6671.pdf.jpgGenerated Thumbnailimage/jpeg3769https://repositorio.uel.br/bitstreams/de25c63a-e3dc-422c-b7fd-5fbefc7db6a6/download715ef10431e46f33a27eae7a8c245e63MD54123456789/111782024-07-12 01:20:07.208open.accessoai:repositorio.uel.br:123456789/11178https://repositorio.uel.brBiblioteca Digital de Teses e Dissertaçõeshttp://www.bibliotecadigital.uel.br/PUBhttp://www.bibliotecadigital.uel.br/OAI/oai2.phpbcuel@uel.br||opendoar:2024-07-12T04:20:07Repositório Institucional da UEL - Universidade Estadual de Londrina (UEL)false |
| dc.title.pt_BR.fl_str_mv |
Proximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraph |
| title |
Proximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraph |
| spellingShingle |
Proximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraph Shimomura, Larissa Capobianco Teoria dos grafos Processamento de dados Espaços métricos Recuperação de dados (Computação) Graph theory Metric spaces Data processing |
| title_short |
Proximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraph |
| title_full |
Proximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraph |
| title_fullStr |
Proximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraph |
| title_full_unstemmed |
Proximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraph |
| title_sort |
Proximity graphs for similarity searches : experimental survey and the newconnected-partition approach HGraph |
| author |
Shimomura, Larissa Capobianco |
| author_facet |
Shimomura, Larissa Capobianco |
| author_role |
author |
| dc.contributor.banca.pt_BR.fl_str_mv |
Rodrigues Junior, José Fernando Felinto, Alan Salvany |
| dc.contributor.author.fl_str_mv |
Shimomura, Larissa Capobianco |
| dc.contributor.authorID.fl_str_mv |
9fcd0422-35f9-4cdc-858d-4cfd667659b7 |
| dc.contributor.advisor1ID.fl_str_mv |
84ea4dd8-8bc5-48ee-a859-dca06838444e |
| dc.contributor.advisor1.fl_str_mv |
Kaster, Daniel dos Santos [Orientador] |
| contributor_str_mv |
Kaster, Daniel dos Santos [Orientador] |
| dc.subject.por.fl_str_mv |
Teoria dos grafos Processamento de dados Espaços métricos Recuperação de dados (Computação) Graph theory Metric spaces Data processing |
| topic |
Teoria dos grafos Processamento de dados Espaços métricos Recuperação de dados (Computação) Graph theory Metric spaces Data processing |
| description |
Resumo: O desenvolvimento tecnológico acelerou o crescimento do volume de dados complexos como imagens, vídeos, séries temporais e dados geográficos Uma abordagem bastante utilizada para a recuperação de dados complexos são as consultas por similaridade As consultas por similaridade têm como objetivo principal recuperar dados similares a partir de características intrínsecas dos dados Assim, para facilitar a recuperação de dados complexos usando consultas por similaridade é necessário organizar grande quantidade de dados de forma que dados similares possam ser recuperados da forma mais rápida possível Diversos métodos de acesso foram propostos na literatura para tornar a recuperação por similaridade de grandes bases de dados mais rápida Artigos publicados recentemente indicam que métodos que utilizam grafos são bastante eficientes e superam o desempenho de métodos de outras categorias em várias situações Porém, de acordo com nosso conhecimento, nenhum trabalho se dedicou a realizar uma análise experimental em um número abrangente de métodos baseados em grafos utilizando os mesmos algoritmos de busca e o mesmo ambiente Esta Dissertação apresenta uma revisão bibliográfica sobre os principais tipos de grafos utilizados para consultas por similaridade, também foi realizado uma avaliação experimental utilizando os mesmos algoritmos de consulta com resposta exata e com resposta aproximada O métodos foram avaliados conforme seu comportamento considerando os principais parâmetros de construção e consulta para uma variedade de bases de dados reais A partir dos resultados desta avaliação foi proposto o método baseado em grafos, HGraph O HGraph é um método baseado em partições conectadas proposto para construir grafos de proximidade e responder consultas por similaridade O HGraph utiliza uma estratégia de divisão e conquista para construir tipos de grafos propostos na literatura Para conectar as diferentes partições do processo de divisão e conquista arestas longas foram adicionadas ao HGraph Foi avaliado o comportamento dos principais parâmetros do HGraph e seu desempenho quanto a tempo de construção e consultas por similaridade foram comparados com os métodos k-NNG (k-Nearest Neighbors Graph) , NSW (Navigable Small World Graph) e SAT (Spatial Approximation Tree) Como resultado, o HGraph foi capaz de melhorar o k-NNG em termos de tempo de construção, tempo de consulta e qualidade de resposta Além disso, o HGraph obteve melhor desempenho na busca em alguns datasets quando comparado ao NSW e a SAT |
| publishDate |
2024 |
| dc.date.defesa.pt_BR.fl_str_mv |
16.04.2019 |
| dc.date.created.fl_str_mv |
2019.00 |
| dc.date.accessioned.fl_str_mv |
2024-05-01T13:10:52Z |
| dc.date.available.fl_str_mv |
2024-05-01T13:10:52Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://repositorio.uel.br/handle/123456789/11178 |
| url |
https://repositorio.uel.br/handle/123456789/11178 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.confidence.fl_str_mv |
-1 -1 |
| dc.relation.coursedegree.pt_BR.fl_str_mv |
Mestrado |
| dc.relation.coursename.pt_BR.fl_str_mv |
Ciência da Computação |
| dc.relation.departament.pt_BR.fl_str_mv |
Centro de Ciências Exatas |
| dc.relation.ppgname.pt_BR.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.coverage.spatial.pt_BR.fl_str_mv |
Londrina |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UEL instname:Universidade Estadual de Londrina (UEL) instacron:UEL |
| instname_str |
Universidade Estadual de Londrina (UEL) |
| instacron_str |
UEL |
| institution |
UEL |
| reponame_str |
Repositório Institucional da UEL |
| collection |
Repositório Institucional da UEL |
| bitstream.url.fl_str_mv |
https://repositorio.uel.br/bitstreams/50057f4a-d09a-41ac-894e-8899ba18c0b9/download https://repositorio.uel.br/bitstreams/d08c2a37-745d-42de-9f3f-e22561fa9e5b/download https://repositorio.uel.br/bitstreams/e0e3e82e-7094-4e1b-9c50-6f885f5a3ff2/download https://repositorio.uel.br/bitstreams/de25c63a-e3dc-422c-b7fd-5fbefc7db6a6/download |
| bitstream.checksum.fl_str_mv |
d62e2e0de8d7e0a55c19f8accb136dc0 753f376dfdbc064b559839be95ac5523 d4eecab94010bc1cfa8e3b85c5a0aaa8 715ef10431e46f33a27eae7a8c245e63 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UEL - Universidade Estadual de Londrina (UEL) |
| repository.mail.fl_str_mv |
bcuel@uel.br|| |
| _version_ |
1856675795514163200 |