Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs
| Ano de defesa: | 2017 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | , |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| dARK ID: | ark:/38995/00130000015px |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de Goiás
|
| Programa de Pós-Graduação: |
Programa de Pós-graduação em Ciência da Computação (INF)
|
| Departamento: |
Instituto de Informática - INF (RG)
|
| País: |
Brasil
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | http://repositorio.bc.ufg.br/tede/handle/tede/7848 |
Resumo: | Similarity Join is an important operation for information retrieval, near duplicate detection, data analysis etc. State-of-the-art algorithms for similarity join use a technique known as prefix filtering to reduce the amount of sets to be entirely compared by previously discarding dissimilar sets. However, prefix filtering is only effective when looking for very similar data. An alternative to speedup the similarity join when prefix filtering is not efficient is to explore parallelism. In this work we developed three multi-level fine-grained parallel algorithms for many-core architectures (such as modern Graphic Processing Units) to solve the similarity join problem. The proposed algorithms have shown speedup gains of 109x and 17x when compared with sequential (ppjoin) and parallel (fgssjoin) state-of-the-art solutions, respectively, on standard real text databases. |
| id |
UFG-2_a8ba671dc21b1122a9f3c591ca226586 |
|---|---|
| oai_identifier_str |
oai:repositorio.bc.ufg.br:tede/7848 |
| network_acronym_str |
UFG-2 |
| network_name_str |
Repositório Institucional da UFG |
| repository_id_str |
|
| spelling |
Martins, Wellington Santoshttp://lattes.cnpq.br/3041686206689904Ribeiro, Leonardo Andradehttp://lattes.cnpq.br/4036932351063584Rosa, Thierson CoutoLaender, Alberto Henrique Fradehttp://lattes.cnpq.br/5532259927312966Ribeiro Junior, Sidney2017-10-05T11:30:38Z2017-08-29RIBEIRO-JUNIOR, Sidney. Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs. 2017. 50 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2017.http://repositorio.bc.ufg.br/tede/handle/tede/7848ark:/38995/00130000015pxSimilarity Join is an important operation for information retrieval, near duplicate detection, data analysis etc. State-of-the-art algorithms for similarity join use a technique known as prefix filtering to reduce the amount of sets to be entirely compared by previously discarding dissimilar sets. However, prefix filtering is only effective when looking for very similar data. An alternative to speedup the similarity join when prefix filtering is not efficient is to explore parallelism. In this work we developed three multi-level fine-grained parallel algorithms for many-core architectures (such as modern Graphic Processing Units) to solve the similarity join problem. The proposed algorithms have shown speedup gains of 109x and 17x when compared with sequential (ppjoin) and parallel (fgssjoin) state-of-the-art solutions, respectively, on standard real text databases.A Junção por Similaridade é uma operação importante no contexto de recuperação da informação, identificação de duplicatas, análise de dados etc. Os algoritmos do estado da arte que realizam a junção por similaridade utilizam uma técnica chamada filtragem por prefixo, que diminui a quantidade de pares a serem totalmente comparados ao descartar previamente pares dissimilares. No entanto, a filtragem por prefixo é eficaz apenas quando se deseja encontrar pares muito similares. Uma alternativa para melhorar o desempenho da junção por similaridade quando a filtragem por prefixo é ineficaz, é explorar paralelismo. Neste trabalho foram desenvolvidos três algoritmos com paralelismo multinível de granularidade fina para arquiteturas many-core (como as modernas Unidades de Processamento Gráfico) para resolver o problema da junção por similaridade. Os algoritmos desenvolvidos demonstraram ganhos de speedup de até 109x e 17x em relação às soluções do estado da arte sequencial (ppjoin) e paralela (fgssjoin), respectivamente, quando executado sobre bases de dados textuais padrão reais.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESapplication/pdfporUniversidade Federal de GoiásPrograma de Pós-graduação em Ciência da Computação (INF)UFGBrasilInstituto de Informática - INF (RG)http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessJunção de conjuntos por similaridadeJunção por similaridadeRecuperação da informaçãoParalelismoGPU set similarity joinSimilarity joinInformation retrievalParallelismGPUCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOJunção de conjuntos por similaridade explorando paralelismo multinível em GPUsSet similarity joins exploring multilevel parallelism on GPUsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis-3303550325223384799600600600600-771226673463364476836717112058112045092075167498588264571reponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGLICENSElicense.txtlicense.txttext/plain; charset=utf-82165http://repositorio.bc.ufg.br/tede/bitstreams/4ad91ff5-aa2f-4904-bac3-23f6baec1201/downloadbd3efa91386c1718a7f26a329fdcb468MD51CC-LICENSElicense_urllicense_urltext/plain; charset=utf-849http://repositorio.bc.ufg.br/tede/bitstreams/df6224d5-671d-4bba-89f2-ab8f5c0b0158/download4afdbb8c545fd630ea7db775da747b2fMD52license_textlicense_texttext/html; charset=utf-80http://repositorio.bc.ufg.br/tede/bitstreams/13b1dcc5-09dc-4362-b4c9-2f3b8960f8bf/downloadd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/rdf+xml; charset=utf-80http://repositorio.bc.ufg.br/tede/bitstreams/e9b6f6dc-baf7-4ed1-8537-23de6b6a2411/downloadd41d8cd98f00b204e9800998ecf8427eMD54ORIGINALDissertação - Sidney Ribeiro Junior - 2017.pdfDissertação - Sidney Ribeiro Junior - 2017.pdfapplication/pdf1832065http://repositorio.bc.ufg.br/tede/bitstreams/64d172b2-f84f-4650-a4dc-6a8947535be3/download41b96bdea09ea7b5ddb6551265e0622bMD55tede/78482017-10-05 08:30:38.286http://creativecommons.org/licenses/by-nc-nd/4.0/Acesso Abertoopen.accessoai:repositorio.bc.ufg.br:tede/7848http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttps://repositorio.bc.ufg.br/tedeserver/oai/requestgrt.bc@ufg.bropendoar:oai:repositorio.bc.ufg.br:tede/12342017-10-05T11:30:38Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)falseTk9UQTogQ09MT1FVRSBBUVVJIEEgU1VBIFBSw5NQUklBIExJQ0VOw4dBCkVzdGEgbGljZW7Dp2EgZGUgZXhlbXBsbyDDqSBmb3JuZWNpZGEgYXBlbmFzIHBhcmEgZmlucyBpbmZvcm1hdGl2b3MuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgClhYWCAoU2lnbGEgZGEgVW5pdmVyc2lkYWRlKSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IApkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIAplbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhbnNwb3IgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIApwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgU2lnbGEgZGUgVW5pdmVyc2lkYWRlIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBhIHN1YSB0ZXNlIG91IApkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyAKbmVzdGEgbGljZW7Dp2EuIFZvY8OqIHRhbWLDqW0gZGVjbGFyYSBxdWUgbyBkZXDDs3NpdG8gZGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBuw6NvLCBxdWUgc2VqYSBkZSBzZXUgCmNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiAKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSAKb3MgZGlyZWl0b3MgYXByZXNlbnRhZG9zIG5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIAppZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250ZcO6ZG8gZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFRFU0UgT1UgRElTU0VSVEHDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSAKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBTSUdMQSBERSAKVU5JVkVSU0lEQURFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyAKVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIEVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpBIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIApjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo= |
| dc.title.eng.fl_str_mv |
Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs |
| dc.title.alternative.eng.fl_str_mv |
Set similarity joins exploring multilevel parallelism on GPUs |
| title |
Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs |
| spellingShingle |
Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs Ribeiro Junior, Sidney Junção de conjuntos por similaridade Junção por similaridade Recuperação da informação Paralelismo GPU set similarity join Similarity join Information retrieval Parallelism GPU CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| title_short |
Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs |
| title_full |
Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs |
| title_fullStr |
Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs |
| title_full_unstemmed |
Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs |
| title_sort |
Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs |
| author |
Ribeiro Junior, Sidney |
| author_facet |
Ribeiro Junior, Sidney |
| author_role |
author |
| dc.contributor.advisor1.fl_str_mv |
Martins, Wellington Santos |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/3041686206689904 |
| dc.contributor.advisor-co1.fl_str_mv |
Ribeiro, Leonardo Andrade |
| dc.contributor.advisor-co1Lattes.fl_str_mv |
http://lattes.cnpq.br/4036932351063584 |
| dc.contributor.referee1.fl_str_mv |
Rosa, Thierson Couto |
| dc.contributor.referee2.fl_str_mv |
Laender, Alberto Henrique Frade |
| dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/5532259927312966 |
| dc.contributor.author.fl_str_mv |
Ribeiro Junior, Sidney |
| contributor_str_mv |
Martins, Wellington Santos Ribeiro, Leonardo Andrade Rosa, Thierson Couto Laender, Alberto Henrique Frade |
| dc.subject.por.fl_str_mv |
Junção de conjuntos por similaridade Junção por similaridade Recuperação da informação Paralelismo |
| topic |
Junção de conjuntos por similaridade Junção por similaridade Recuperação da informação Paralelismo GPU set similarity join Similarity join Information retrieval Parallelism GPU CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| dc.subject.eng.fl_str_mv |
GPU set similarity join Similarity join Information retrieval Parallelism GPU |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| description |
Similarity Join is an important operation for information retrieval, near duplicate detection, data analysis etc. State-of-the-art algorithms for similarity join use a technique known as prefix filtering to reduce the amount of sets to be entirely compared by previously discarding dissimilar sets. However, prefix filtering is only effective when looking for very similar data. An alternative to speedup the similarity join when prefix filtering is not efficient is to explore parallelism. In this work we developed three multi-level fine-grained parallel algorithms for many-core architectures (such as modern Graphic Processing Units) to solve the similarity join problem. The proposed algorithms have shown speedup gains of 109x and 17x when compared with sequential (ppjoin) and parallel (fgssjoin) state-of-the-art solutions, respectively, on standard real text databases. |
| publishDate |
2017 |
| dc.date.accessioned.fl_str_mv |
2017-10-05T11:30:38Z |
| dc.date.issued.fl_str_mv |
2017-08-29 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
RIBEIRO-JUNIOR, Sidney. Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs. 2017. 50 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2017. |
| dc.identifier.uri.fl_str_mv |
http://repositorio.bc.ufg.br/tede/handle/tede/7848 |
| dc.identifier.dark.fl_str_mv |
ark:/38995/00130000015px |
| identifier_str_mv |
RIBEIRO-JUNIOR, Sidney. Junção de conjuntos por similaridade explorando paralelismo multinível em GPUs. 2017. 50 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2017. ark:/38995/00130000015px |
| url |
http://repositorio.bc.ufg.br/tede/handle/tede/7848 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.program.fl_str_mv |
-3303550325223384799 |
| dc.relation.confidence.fl_str_mv |
600 600 600 600 |
| dc.relation.department.fl_str_mv |
-7712266734633644768 |
| dc.relation.cnpq.fl_str_mv |
3671711205811204509 |
| dc.relation.sponsorship.fl_str_mv |
2075167498588264571 |
| dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Goiás |
| dc.publisher.program.fl_str_mv |
Programa de Pós-graduação em Ciência da Computação (INF) |
| dc.publisher.initials.fl_str_mv |
UFG |
| dc.publisher.country.fl_str_mv |
Brasil |
| dc.publisher.department.fl_str_mv |
Instituto de Informática - INF (RG) |
| publisher.none.fl_str_mv |
Universidade Federal de Goiás |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFG instname:Universidade Federal de Goiás (UFG) instacron:UFG |
| instname_str |
Universidade Federal de Goiás (UFG) |
| instacron_str |
UFG |
| institution |
UFG |
| reponame_str |
Repositório Institucional da UFG |
| collection |
Repositório Institucional da UFG |
| bitstream.url.fl_str_mv |
http://repositorio.bc.ufg.br/tede/bitstreams/4ad91ff5-aa2f-4904-bac3-23f6baec1201/download http://repositorio.bc.ufg.br/tede/bitstreams/df6224d5-671d-4bba-89f2-ab8f5c0b0158/download http://repositorio.bc.ufg.br/tede/bitstreams/13b1dcc5-09dc-4362-b4c9-2f3b8960f8bf/download http://repositorio.bc.ufg.br/tede/bitstreams/e9b6f6dc-baf7-4ed1-8537-23de6b6a2411/download http://repositorio.bc.ufg.br/tede/bitstreams/64d172b2-f84f-4650-a4dc-6a8947535be3/download |
| bitstream.checksum.fl_str_mv |
bd3efa91386c1718a7f26a329fdcb468 4afdbb8c545fd630ea7db775da747b2f d41d8cd98f00b204e9800998ecf8427e d41d8cd98f00b204e9800998ecf8427e 41b96bdea09ea7b5ddb6551265e0622b |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFG - Universidade Federal de Goiás (UFG) |
| repository.mail.fl_str_mv |
grt.bc@ufg.br |
| _version_ |
1846536608317177856 |