Algoritmos de junção por similaridade sobre fluxo de dados

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Pacífico, Lucas Oliveira lattes
Orientador(a): Ribeiro, Leonardo Andrade lattes
Banca de defesa: Ribeiro, Leonardo Andrade, Dorneles, Carina Friedrich, Leitão Junior, Plinio de Sa
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Goiás
Programa de Pós-Graduação: Programa de Pós-graduação em Ciência da Computação (INF)
Departamento: Instituto de Informática - INF (RG)
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.bc.ufg.br/tede/handle/tede/10833
Resumo: In today's Big Data era, data is generated and collected at high speed, which imposes strict performance and memory requirements for processing this data. Also, the presence of heterogeneity data demands the use of similarity operations, which are computationally more expensive. In this context, the present work investigates the problem of performing similarity join over a continuous stream of data represented by sets. The concept of temporal similarity is employed, where the similarity between two data items decreases with the distance in their arrival time. The proposed algorithms directly incorporates this concept to reduce the comparison of space and memory consumption. Moreover, a new technique based on the partial frequency of the data elements is presented to substantially reduce processing cost. Results of the experimental evaluation performed demonstrate that the techniques presented provide substantial performance gains and good memory usage.
id UFG-2_2bd6ce6573134ddb9d27ed83c5fc186e
oai_identifier_str oai:repositorio.bc.ufg.br:tede/10833
network_acronym_str UFG-2
network_name_str Repositório Institucional da UFG
repository_id_str
spelling Ribeiro, Leonardo Andradehttp://lattes.cnpq.br/4036932351063584Ribeiro, Leonardo AndradeDorneles, Carina FriedrichLeitão Junior, Plinio de Sahttp://lattes.cnpq.br/5875824471675908Pacífico, Lucas Oliveira2020-10-05T11:38:35Z2020-10-05T11:38:35Z2020-07-21PACÍFICO, L. O. Algoritmos de junção por similaridade sobre fluxo de dados. 2020. 51 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2020.http://repositorio.bc.ufg.br/tede/handle/tede/10833In today's Big Data era, data is generated and collected at high speed, which imposes strict performance and memory requirements for processing this data. Also, the presence of heterogeneity data demands the use of similarity operations, which are computationally more expensive. In this context, the present work investigates the problem of performing similarity join over a continuous stream of data represented by sets. The concept of temporal similarity is employed, where the similarity between two data items decreases with the distance in their arrival time. The proposed algorithms directly incorporates this concept to reduce the comparison of space and memory consumption. Moreover, a new technique based on the partial frequency of the data elements is presented to substantially reduce processing cost. Results of the experimental evaluation performed demonstrate that the techniques presented provide substantial performance gains and good memory usage.Na atual era de Big Data, dados são gerados e coletados em grande velocidade, o que impõe requisitos severos de desempenho e memória para processamento desses dados. Além disso, a presença de heterogeneidade nos dados demanda o uso de operações de similaridade, que são mais onerosas computacionalmente. Neste contexto, o presente trabalho investiga o problema de realizar junção por similaridade sobre fluxo contínuo de dados representados como conjuntos. O conceito de similaridade temporal é empregado, onde a similaridade entre dois itens de dados é reduzida de acordo com a distância entre os tempos de chegada associados aos mesmos. Os algoritmos propostos incorporam diretamente esse conceito para redução do espaço de comparação e consumo de memória. Mais ainda, uma nova técnica baseada na frequência parcial dos elementos de dados é apresentada para reduzir substancialmente o custo de processamento. Resultados da avaliação experimental realizada demonstram que as técnicas apresentadas propiciam ganhos substanciais de desempenho e bom uso de memória.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESporUniversidade Federal de GoiásPrograma de Pós-graduação em Ciência da Computação (INF)UFGBrasilInstituto de Informática - INF (RG)Attribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessSimilaridadeFluxo de dadoAuto-junçãoSimilarityStreamingAuto-joinCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAOAlgoritmos de junção por similaridade sobre fluxo de dadosSimilarity join algorithms on streaminginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis19500500500500267911reponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGLICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.bc.ufg.br/tede/bitstreams/071be4d3-db12-4d68-85c5-ca0d264e1c2f/download8a4605be74aa9ea9d79846c1fba20a33MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811http://repositorio.bc.ufg.br/tede/bitstreams/40443536-7edf-4edb-a5c2-9822a13e4fd6/downloade39d27027a6cc9cb039ad269a5db8e34MD52ORIGINALDissertação - Lucas Oliveira Pacífico - 2020.pdfDissertação - Lucas Oliveira Pacífico - 2020.pdfapplication/pdf871854http://repositorio.bc.ufg.br/tede/bitstreams/9489e335-26b1-49db-9f6b-0fc0fec0b6f9/download2d972c080a249d098908c0da13264d9dMD53tede/108332020-10-05 08:38:36.014http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.bc.ufg.br:tede/10833http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttps://repositorio.bc.ufg.br/tedeserver/oai/requestgrt.bc@ufg.bropendoar:oai:repositorio.bc.ufg.br:tede/12342020-10-05T11:38:36Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)falseTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
dc.title.pt_BR.fl_str_mv Algoritmos de junção por similaridade sobre fluxo de dados
dc.title.alternative.eng.fl_str_mv Similarity join algorithms on streaming
title Algoritmos de junção por similaridade sobre fluxo de dados
spellingShingle Algoritmos de junção por similaridade sobre fluxo de dados
Pacífico, Lucas Oliveira
Similaridade
Fluxo de dado
Auto-junção
Similarity
Streaming
Auto-join
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAO
title_short Algoritmos de junção por similaridade sobre fluxo de dados
title_full Algoritmos de junção por similaridade sobre fluxo de dados
title_fullStr Algoritmos de junção por similaridade sobre fluxo de dados
title_full_unstemmed Algoritmos de junção por similaridade sobre fluxo de dados
title_sort Algoritmos de junção por similaridade sobre fluxo de dados
author Pacífico, Lucas Oliveira
author_facet Pacífico, Lucas Oliveira
author_role author
dc.contributor.advisor1.fl_str_mv Ribeiro, Leonardo Andrade
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/4036932351063584
dc.contributor.referee1.fl_str_mv Ribeiro, Leonardo Andrade
dc.contributor.referee2.fl_str_mv Dorneles, Carina Friedrich
dc.contributor.referee3.fl_str_mv Leitão Junior, Plinio de Sa
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/5875824471675908
dc.contributor.author.fl_str_mv Pacífico, Lucas Oliveira
contributor_str_mv Ribeiro, Leonardo Andrade
Ribeiro, Leonardo Andrade
Dorneles, Carina Friedrich
Leitão Junior, Plinio de Sa
dc.subject.por.fl_str_mv Similaridade
Fluxo de dado
Auto-junção
topic Similaridade
Fluxo de dado
Auto-junção
Similarity
Streaming
Auto-join
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAO
dc.subject.eng.fl_str_mv Similarity
Streaming
Auto-join
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAO
description In today's Big Data era, data is generated and collected at high speed, which imposes strict performance and memory requirements for processing this data. Also, the presence of heterogeneity data demands the use of similarity operations, which are computationally more expensive. In this context, the present work investigates the problem of performing similarity join over a continuous stream of data represented by sets. The concept of temporal similarity is employed, where the similarity between two data items decreases with the distance in their arrival time. The proposed algorithms directly incorporates this concept to reduce the comparison of space and memory consumption. Moreover, a new technique based on the partial frequency of the data elements is presented to substantially reduce processing cost. Results of the experimental evaluation performed demonstrate that the techniques presented provide substantial performance gains and good memory usage.
publishDate 2020
dc.date.accessioned.fl_str_mv 2020-10-05T11:38:35Z
dc.date.available.fl_str_mv 2020-10-05T11:38:35Z
dc.date.issued.fl_str_mv 2020-07-21
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv PACÍFICO, L. O. Algoritmos de junção por similaridade sobre fluxo de dados. 2020. 51 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2020.
dc.identifier.uri.fl_str_mv http://repositorio.bc.ufg.br/tede/handle/tede/10833
identifier_str_mv PACÍFICO, L. O. Algoritmos de junção por similaridade sobre fluxo de dados. 2020. 51 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2020.
url http://repositorio.bc.ufg.br/tede/handle/tede/10833
dc.language.iso.fl_str_mv por
language por
dc.relation.program.fl_str_mv 19
dc.relation.confidence.fl_str_mv 500
500
500
500
dc.relation.department.fl_str_mv 26
dc.relation.cnpq.fl_str_mv 791
dc.relation.sponsorship.fl_str_mv 1
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Goiás
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Ciência da Computação (INF)
dc.publisher.initials.fl_str_mv UFG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto de Informática - INF (RG)
publisher.none.fl_str_mv Universidade Federal de Goiás
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFG
instname:Universidade Federal de Goiás (UFG)
instacron:UFG
instname_str Universidade Federal de Goiás (UFG)
instacron_str UFG
institution UFG
reponame_str Repositório Institucional da UFG
collection Repositório Institucional da UFG
bitstream.url.fl_str_mv http://repositorio.bc.ufg.br/tede/bitstreams/071be4d3-db12-4d68-85c5-ca0d264e1c2f/download
http://repositorio.bc.ufg.br/tede/bitstreams/40443536-7edf-4edb-a5c2-9822a13e4fd6/download
http://repositorio.bc.ufg.br/tede/bitstreams/9489e335-26b1-49db-9f6b-0fc0fec0b6f9/download
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
e39d27027a6cc9cb039ad269a5db8e34
2d972c080a249d098908c0da13264d9d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)
repository.mail.fl_str_mv grt.bc@ufg.br
_version_ 1861293829225709568