Algoritmos de junção por similaridade sobre fluxo de dados
| Ano de defesa: | 2020 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | , , |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de Goiás
|
| Programa de Pós-Graduação: |
Programa de Pós-graduação em Ciência da Computação (INF)
|
| Departamento: |
Instituto de Informática - INF (RG)
|
| País: |
Brasil
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | http://repositorio.bc.ufg.br/tede/handle/tede/10833 |
Resumo: | In today's Big Data era, data is generated and collected at high speed, which imposes strict performance and memory requirements for processing this data. Also, the presence of heterogeneity data demands the use of similarity operations, which are computationally more expensive. In this context, the present work investigates the problem of performing similarity join over a continuous stream of data represented by sets. The concept of temporal similarity is employed, where the similarity between two data items decreases with the distance in their arrival time. The proposed algorithms directly incorporates this concept to reduce the comparison of space and memory consumption. Moreover, a new technique based on the partial frequency of the data elements is presented to substantially reduce processing cost. Results of the experimental evaluation performed demonstrate that the techniques presented provide substantial performance gains and good memory usage. |
| id |
UFG-2_2bd6ce6573134ddb9d27ed83c5fc186e |
|---|---|
| oai_identifier_str |
oai:repositorio.bc.ufg.br:tede/10833 |
| network_acronym_str |
UFG-2 |
| network_name_str |
Repositório Institucional da UFG |
| repository_id_str |
|
| spelling |
Ribeiro, Leonardo Andradehttp://lattes.cnpq.br/4036932351063584Ribeiro, Leonardo AndradeDorneles, Carina FriedrichLeitão Junior, Plinio de Sahttp://lattes.cnpq.br/5875824471675908Pacífico, Lucas Oliveira2020-10-05T11:38:35Z2020-10-05T11:38:35Z2020-07-21PACÍFICO, L. O. Algoritmos de junção por similaridade sobre fluxo de dados. 2020. 51 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2020.http://repositorio.bc.ufg.br/tede/handle/tede/10833In today's Big Data era, data is generated and collected at high speed, which imposes strict performance and memory requirements for processing this data. Also, the presence of heterogeneity data demands the use of similarity operations, which are computationally more expensive. In this context, the present work investigates the problem of performing similarity join over a continuous stream of data represented by sets. The concept of temporal similarity is employed, where the similarity between two data items decreases with the distance in their arrival time. The proposed algorithms directly incorporates this concept to reduce the comparison of space and memory consumption. Moreover, a new technique based on the partial frequency of the data elements is presented to substantially reduce processing cost. Results of the experimental evaluation performed demonstrate that the techniques presented provide substantial performance gains and good memory usage.Na atual era de Big Data, dados são gerados e coletados em grande velocidade, o que impõe requisitos severos de desempenho e memória para processamento desses dados. Além disso, a presença de heterogeneidade nos dados demanda o uso de operações de similaridade, que são mais onerosas computacionalmente. Neste contexto, o presente trabalho investiga o problema de realizar junção por similaridade sobre fluxo contínuo de dados representados como conjuntos. O conceito de similaridade temporal é empregado, onde a similaridade entre dois itens de dados é reduzida de acordo com a distância entre os tempos de chegada associados aos mesmos. Os algoritmos propostos incorporam diretamente esse conceito para redução do espaço de comparação e consumo de memória. Mais ainda, uma nova técnica baseada na frequência parcial dos elementos de dados é apresentada para reduzir substancialmente o custo de processamento. Resultados da avaliação experimental realizada demonstram que as técnicas apresentadas propiciam ganhos substanciais de desempenho e bom uso de memória.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESporUniversidade Federal de GoiásPrograma de Pós-graduação em Ciência da Computação (INF)UFGBrasilInstituto de Informática - INF (RG)Attribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessSimilaridadeFluxo de dadoAuto-junçãoSimilarityStreamingAuto-joinCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAOAlgoritmos de junção por similaridade sobre fluxo de dadosSimilarity join algorithms on streaminginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis19500500500500267911reponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGLICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.bc.ufg.br/tede/bitstreams/071be4d3-db12-4d68-85c5-ca0d264e1c2f/download8a4605be74aa9ea9d79846c1fba20a33MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811http://repositorio.bc.ufg.br/tede/bitstreams/40443536-7edf-4edb-a5c2-9822a13e4fd6/downloade39d27027a6cc9cb039ad269a5db8e34MD52ORIGINALDissertação - Lucas Oliveira Pacífico - 2020.pdfDissertação - Lucas Oliveira Pacífico - 2020.pdfapplication/pdf871854http://repositorio.bc.ufg.br/tede/bitstreams/9489e335-26b1-49db-9f6b-0fc0fec0b6f9/download2d972c080a249d098908c0da13264d9dMD53tede/108332020-10-05 08:38:36.014http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.bc.ufg.br:tede/10833http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttps://repositorio.bc.ufg.br/tedeserver/oai/requestgrt.bc@ufg.bropendoar:oai:repositorio.bc.ufg.br:tede/12342020-10-05T11:38:36Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)falseTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
| dc.title.pt_BR.fl_str_mv |
Algoritmos de junção por similaridade sobre fluxo de dados |
| dc.title.alternative.eng.fl_str_mv |
Similarity join algorithms on streaming |
| title |
Algoritmos de junção por similaridade sobre fluxo de dados |
| spellingShingle |
Algoritmos de junção por similaridade sobre fluxo de dados Pacífico, Lucas Oliveira Similaridade Fluxo de dado Auto-junção Similarity Streaming Auto-join CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAO |
| title_short |
Algoritmos de junção por similaridade sobre fluxo de dados |
| title_full |
Algoritmos de junção por similaridade sobre fluxo de dados |
| title_fullStr |
Algoritmos de junção por similaridade sobre fluxo de dados |
| title_full_unstemmed |
Algoritmos de junção por similaridade sobre fluxo de dados |
| title_sort |
Algoritmos de junção por similaridade sobre fluxo de dados |
| author |
Pacífico, Lucas Oliveira |
| author_facet |
Pacífico, Lucas Oliveira |
| author_role |
author |
| dc.contributor.advisor1.fl_str_mv |
Ribeiro, Leonardo Andrade |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/4036932351063584 |
| dc.contributor.referee1.fl_str_mv |
Ribeiro, Leonardo Andrade |
| dc.contributor.referee2.fl_str_mv |
Dorneles, Carina Friedrich |
| dc.contributor.referee3.fl_str_mv |
Leitão Junior, Plinio de Sa |
| dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/5875824471675908 |
| dc.contributor.author.fl_str_mv |
Pacífico, Lucas Oliveira |
| contributor_str_mv |
Ribeiro, Leonardo Andrade Ribeiro, Leonardo Andrade Dorneles, Carina Friedrich Leitão Junior, Plinio de Sa |
| dc.subject.por.fl_str_mv |
Similaridade Fluxo de dado Auto-junção |
| topic |
Similaridade Fluxo de dado Auto-junção Similarity Streaming Auto-join CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAO |
| dc.subject.eng.fl_str_mv |
Similarity Streaming Auto-join |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAO |
| description |
In today's Big Data era, data is generated and collected at high speed, which imposes strict performance and memory requirements for processing this data. Also, the presence of heterogeneity data demands the use of similarity operations, which are computationally more expensive. In this context, the present work investigates the problem of performing similarity join over a continuous stream of data represented by sets. The concept of temporal similarity is employed, where the similarity between two data items decreases with the distance in their arrival time. The proposed algorithms directly incorporates this concept to reduce the comparison of space and memory consumption. Moreover, a new technique based on the partial frequency of the data elements is presented to substantially reduce processing cost. Results of the experimental evaluation performed demonstrate that the techniques presented provide substantial performance gains and good memory usage. |
| publishDate |
2020 |
| dc.date.accessioned.fl_str_mv |
2020-10-05T11:38:35Z |
| dc.date.available.fl_str_mv |
2020-10-05T11:38:35Z |
| dc.date.issued.fl_str_mv |
2020-07-21 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
PACÍFICO, L. O. Algoritmos de junção por similaridade sobre fluxo de dados. 2020. 51 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2020. |
| dc.identifier.uri.fl_str_mv |
http://repositorio.bc.ufg.br/tede/handle/tede/10833 |
| identifier_str_mv |
PACÍFICO, L. O. Algoritmos de junção por similaridade sobre fluxo de dados. 2020. 51 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2020. |
| url |
http://repositorio.bc.ufg.br/tede/handle/tede/10833 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.program.fl_str_mv |
19 |
| dc.relation.confidence.fl_str_mv |
500 500 500 500 |
| dc.relation.department.fl_str_mv |
26 |
| dc.relation.cnpq.fl_str_mv |
791 |
| dc.relation.sponsorship.fl_str_mv |
1 |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Goiás |
| dc.publisher.program.fl_str_mv |
Programa de Pós-graduação em Ciência da Computação (INF) |
| dc.publisher.initials.fl_str_mv |
UFG |
| dc.publisher.country.fl_str_mv |
Brasil |
| dc.publisher.department.fl_str_mv |
Instituto de Informática - INF (RG) |
| publisher.none.fl_str_mv |
Universidade Federal de Goiás |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFG instname:Universidade Federal de Goiás (UFG) instacron:UFG |
| instname_str |
Universidade Federal de Goiás (UFG) |
| instacron_str |
UFG |
| institution |
UFG |
| reponame_str |
Repositório Institucional da UFG |
| collection |
Repositório Institucional da UFG |
| bitstream.url.fl_str_mv |
http://repositorio.bc.ufg.br/tede/bitstreams/071be4d3-db12-4d68-85c5-ca0d264e1c2f/download http://repositorio.bc.ufg.br/tede/bitstreams/40443536-7edf-4edb-a5c2-9822a13e4fd6/download http://repositorio.bc.ufg.br/tede/bitstreams/9489e335-26b1-49db-9f6b-0fc0fec0b6f9/download |
| bitstream.checksum.fl_str_mv |
8a4605be74aa9ea9d79846c1fba20a33 e39d27027a6cc9cb039ad269a5db8e34 2d972c080a249d098908c0da13264d9d |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFG - Universidade Federal de Goiás (UFG) |
| repository.mail.fl_str_mv |
grt.bc@ufg.br |
| _version_ |
1861293829225709568 |