Exportação concluída — 

Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Ribeiro Junior, Sidney lattes
Orientador(a): Martins, Wellington Santos lattes
Banca de defesa: Rosa, Thierson Couto, Laender, Alberto Henrique Frade
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
dARK ID: ark:/38995/00130000015px
Idioma: por
Instituição de defesa: Universidade Federal de Goiás
Programa de Pós-Graduação: Programa de Pós-graduação em Ciência da Computação (INF)
Departamento: Instituto de Informática - INF (RG)
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
GPU
Área do conhecimento CNPq:
Link de acesso: http://repositorio.bc.ufg.br/tede/handle/tede/7848
Resumo: Similarity Join is an important operation for information retrieval, near duplicate detection, data analysis etc. State-of-the-art algorithms for similarity join use a technique known as prefix filtering to reduce the amount of sets to be entirely compared by previously discarding dissimilar sets. However, prefix filtering is only effective when looking for very similar data. An alternative to speedup the similarity join when prefix filtering is not efficient is to explore parallelism. In this work we developed three multi-level fine-grained parallel algorithms for many-core architectures (such as modern Graphic Processing Units) to solve the similarity join problem. The proposed algorithms have shown speedup gains of 109x and 17x when compared with sequential (ppjoin) and parallel (fgssjoin) state-of-the-art solutions, respectively, on standard real text databases.
id UFG-2_a8ba671dc21b1122a9f3c591ca226586
oai_identifier_str oai:repositorio.bc.ufg.br:tede/7848
network_acronym_str UFG-2
network_name_str Repositório Institucional da UFG
repository_id_str
spelling Martins, Wellington Santoshttp://lattes.cnpq.br/3041686206689904Ribeiro, Leonardo Andradehttp://lattes.cnpq.br/4036932351063584Rosa, Thierson CoutoLaender, Alberto Henrique Fradehttp://lattes.cnpq.br/5532259927312966Ribeiro Junior, Sidney2017-10-05T11:30:38Z2017-08-29RIBEIRO-JUNIOR, Sidney. Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs. 2017. 50 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2017.http://repositorio.bc.ufg.br/tede/handle/tede/7848ark:/38995/00130000015pxSimilarity Join is an important operation for information retrieval, near duplicate detection, data analysis etc. State-of-the-art algorithms for similarity join use a technique known as prefix filtering to reduce the amount of sets to be entirely compared by previously discarding dissimilar sets. However, prefix filtering is only effective when looking for very similar data. An alternative to speedup the similarity join when prefix filtering is not efficient is to explore parallelism. In this work we developed three multi-level fine-grained parallel algorithms for many-core architectures (such as modern Graphic Processing Units) to solve the similarity join problem. The proposed algorithms have shown speedup gains of 109x and 17x when compared with sequential (ppjoin) and parallel (fgssjoin) state-of-the-art solutions, respectively, on standard real text databases.A Junção por Similaridade é uma operação importante no contexto de recuperação da informação, identificação de duplicatas, análise de dados etc. Os algoritmos do estado da arte que realizam a junção por similaridade utilizam uma técnica chamada filtragem por prefixo, que diminui a quantidade de pares a serem totalmente comparados ao descartar previamente pares dissimilares. No entanto, a filtragem por prefixo é eficaz apenas quando se deseja encontrar pares muito similares. Uma alternativa para melhorar o desempenho da junção por similaridade quando a filtragem por prefixo é ineficaz, é explorar paralelismo. Neste trabalho foram desenvolvidos três algoritmos com paralelismo multinível de granularidade fina para arquiteturas many-core (como as modernas Unidades de Processamento Gráfico) para resolver o problema da junção por similaridade. Os algoritmos desenvolvidos demonstraram ganhos de speedup de até 109x e 17x em relação às soluções do estado da arte sequencial (ppjoin) e paralela (fgssjoin), respectivamente, quando executado sobre bases de dados textuais padrão reais.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESapplication/pdfporUniversidade Federal de GoiásPrograma de Pós-graduação em Ciência da Computação (INF)UFGBrasilInstituto de Informática - INF (RG)http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessJunção de conjuntos por similaridadeJunção por similaridadeRecuperação da informaçãoParalelismoGPU set similarity joinSimilarity joinInformation retrievalParallelismGPUCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOJunção de conjuntos por similaridade explorando paralelismo multinível em GPUsSet similarity joins exploring multilevel parallelism on GPUsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis-3303550325223384799600600600600-771226673463364476836717112058112045092075167498588264571reponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGLICENSElicense.txtlicense.txttext/plain; charset=utf-82165http://repositorio.bc.ufg.br/tede/bitstreams/4ad91ff5-aa2f-4904-bac3-23f6baec1201/downloadbd3efa91386c1718a7f26a329fdcb468MD51CC-LICENSElicense_urllicense_urltext/plain; charset=utf-849http://repositorio.bc.ufg.br/tede/bitstreams/df6224d5-671d-4bba-89f2-ab8f5c0b0158/download4afdbb8c545fd630ea7db775da747b2fMD52license_textlicense_texttext/html; charset=utf-80http://repositorio.bc.ufg.br/tede/bitstreams/13b1dcc5-09dc-4362-b4c9-2f3b8960f8bf/downloadd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/rdf+xml; charset=utf-80http://repositorio.bc.ufg.br/tede/bitstreams/e9b6f6dc-baf7-4ed1-8537-23de6b6a2411/downloadd41d8cd98f00b204e9800998ecf8427eMD54ORIGINALDissertação - Sidney Ribeiro Junior - 2017.pdfDissertação - Sidney Ribeiro Junior - 2017.pdfapplication/pdf1832065http://repositorio.bc.ufg.br/tede/bitstreams/64d172b2-f84f-4650-a4dc-6a8947535be3/download41b96bdea09ea7b5ddb6551265e0622bMD55tede/78482017-10-05 08:30:38.286http://creativecommons.org/licenses/by-nc-nd/4.0/Acesso Abertoopen.accessoai:repositorio.bc.ufg.br:tede/7848http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttps://repositorio.bc.ufg.br/tedeserver/oai/requestgrt.bc@ufg.bropendoar:oai:repositorio.bc.ufg.br:tede/12342017-10-05T11:30:38Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)falseTk9UQTogQ09MT1FVRSBBUVVJIEEgU1VBIFBSw5NQUklBIExJQ0VOw4dBCkVzdGEgbGljZW7Dp2EgZGUgZXhlbXBsbyDDqSBmb3JuZWNpZGEgYXBlbmFzIHBhcmEgZmlucyBpbmZvcm1hdGl2b3MuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgClhYWCAoU2lnbGEgZGEgVW5pdmVyc2lkYWRlKSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IApkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIAplbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhbnNwb3IgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIApwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgU2lnbGEgZGUgVW5pdmVyc2lkYWRlIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBhIHN1YSB0ZXNlIG91IApkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyAKbmVzdGEgbGljZW7Dp2EuIFZvY8OqIHRhbWLDqW0gZGVjbGFyYSBxdWUgbyBkZXDDs3NpdG8gZGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBuw6NvLCBxdWUgc2VqYSBkZSBzZXUgCmNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiAKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSAKb3MgZGlyZWl0b3MgYXByZXNlbnRhZG9zIG5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIAppZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250ZcO6ZG8gZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFRFU0UgT1UgRElTU0VSVEHDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSAKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBTSUdMQSBERSAKVU5JVkVSU0lEQURFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyAKVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIEVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpBIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIApjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=
dc.title.eng.fl_str_mv Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs
dc.title.alternative.eng.fl_str_mv Set similarity joins exploring multilevel parallelism on GPUs
title Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs
spellingShingle Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs
Ribeiro Junior, Sidney
Junção de conjuntos por similaridade
Junção por similaridade
Recuperação da informação
Paralelismo
GPU set similarity join
Similarity join
Information retrieval
Parallelism
GPU
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs
title_full Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs
title_fullStr Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs
title_full_unstemmed Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs
title_sort Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs
author Ribeiro Junior, Sidney
author_facet Ribeiro Junior, Sidney
author_role author
dc.contributor.advisor1.fl_str_mv Martins, Wellington Santos
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/3041686206689904
dc.contributor.advisor-co1.fl_str_mv Ribeiro, Leonardo Andrade
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/4036932351063584
dc.contributor.referee1.fl_str_mv Rosa, Thierson Couto
dc.contributor.referee2.fl_str_mv Laender, Alberto Henrique Frade
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/5532259927312966
dc.contributor.author.fl_str_mv Ribeiro Junior, Sidney
contributor_str_mv Martins, Wellington Santos
Ribeiro, Leonardo Andrade
Rosa, Thierson Couto
Laender, Alberto Henrique Frade
dc.subject.por.fl_str_mv Junção de conjuntos por similaridade
Junção por similaridade
Recuperação da informação
Paralelismo
topic Junção de conjuntos por similaridade
Junção por similaridade
Recuperação da informação
Paralelismo
GPU set similarity join
Similarity join
Information retrieval
Parallelism
GPU
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv GPU set similarity join
Similarity join
Information retrieval
Parallelism
GPU
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Similarity Join is an important operation for information retrieval, near duplicate detection, data analysis etc. State-of-the-art algorithms for similarity join use a technique known as prefix filtering to reduce the amount of sets to be entirely compared by previously discarding dissimilar sets. However, prefix filtering is only effective when looking for very similar data. An alternative to speedup the similarity join when prefix filtering is not efficient is to explore parallelism. In this work we developed three multi-level fine-grained parallel algorithms for many-core architectures (such as modern Graphic Processing Units) to solve the similarity join problem. The proposed algorithms have shown speedup gains of 109x and 17x when compared with sequential (ppjoin) and parallel (fgssjoin) state-of-the-art solutions, respectively, on standard real text databases.
publishDate 2017
dc.date.accessioned.fl_str_mv 2017-10-05T11:30:38Z
dc.date.issued.fl_str_mv 2017-08-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv RIBEIRO-JUNIOR, Sidney. Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs. 2017. 50 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2017.
dc.identifier.uri.fl_str_mv http://repositorio.bc.ufg.br/tede/handle/tede/7848
dc.identifier.dark.fl_str_mv ark:/38995/00130000015px
identifier_str_mv RIBEIRO-JUNIOR, Sidney. Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs. 2017. 50 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2017.
ark:/38995/00130000015px
url http://repositorio.bc.ufg.br/tede/handle/tede/7848
dc.language.iso.fl_str_mv por
language por
dc.relation.program.fl_str_mv -3303550325223384799
dc.relation.confidence.fl_str_mv 600
600
600
600
dc.relation.department.fl_str_mv -7712266734633644768
dc.relation.cnpq.fl_str_mv 3671711205811204509
dc.relation.sponsorship.fl_str_mv 2075167498588264571
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Goiás
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Ciência da Computação (INF)
dc.publisher.initials.fl_str_mv UFG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto de Informática - INF (RG)
publisher.none.fl_str_mv Universidade Federal de Goiás
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFG
instname:Universidade Federal de Goiás (UFG)
instacron:UFG
instname_str Universidade Federal de Goiás (UFG)
instacron_str UFG
institution UFG
reponame_str Repositório Institucional da UFG
collection Repositório Institucional da UFG
bitstream.url.fl_str_mv http://repositorio.bc.ufg.br/tede/bitstreams/4ad91ff5-aa2f-4904-bac3-23f6baec1201/download
http://repositorio.bc.ufg.br/tede/bitstreams/df6224d5-671d-4bba-89f2-ab8f5c0b0158/download
http://repositorio.bc.ufg.br/tede/bitstreams/13b1dcc5-09dc-4362-b4c9-2f3b8960f8bf/download
http://repositorio.bc.ufg.br/tede/bitstreams/e9b6f6dc-baf7-4ed1-8537-23de6b6a2411/download
http://repositorio.bc.ufg.br/tede/bitstreams/64d172b2-f84f-4650-a4dc-6a8947535be3/download
bitstream.checksum.fl_str_mv bd3efa91386c1718a7f26a329fdcb468
4afdbb8c545fd630ea7db775da747b2f
d41d8cd98f00b204e9800998ecf8427e
d41d8cd98f00b204e9800998ecf8427e
41b96bdea09ea7b5ddb6551265e0622b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)
repository.mail.fl_str_mv grt.bc@ufg.br
_version_ 1846536608317177856