Exportação concluída — 

Predição de desempenho para junções por similaridade baseadas em conjuntos

Detalhes bibliográficos
Ano de defesa: 2014
Autor(a) principal: Sidney, Christiane Faleiro
Orientador(a): Ribeiro, Leonardo Andrade
Banca de defesa: Pereira, Denilson Alves, Andrade, Rafael, Zambalde, André Luiz
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: UNIVERSIDADE FEDERAL DE LAVRAS
Programa de Pós-Graduação: DCC - Programa de Pós-graduação
Departamento: Não Informado pela instituição
País: BRASIL
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufla.br/handle/1/4166
Resumo: Dissertação apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-Graduação em Ciência da Computação, área de concentração em Banco de Dados e Engenharia de Software, para a obtenção do título de Mestre.
id UFLA_4e33aa178c1d0091f1c3fa0bd24f6593
oai_identifier_str oai:repositorio.ufla.br:1/4166
network_acronym_str UFLA
network_name_str Repositório Institucional da UFLA
repository_id_str
spelling 2014-09-30T15:20:37Z2014-09-30T15:20:37Z20142014-02-27SIDNEY, C. F. Predição de desempenho para junções por similaridade baseadas em conjuntos. 2014. 91 p. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Lavras, Lavras, 2014.https://repositorio.ufla.br/handle/1/4166Dissertação apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-Graduação em Ciência da Computação, área de concentração em Banco de Dados e Engenharia de Software, para a obtenção do título de Mestre.Banco de Dados e Engenharia de SoftwareQuery performance prediction is essential for many important tasks related to cloud-based database management including resource provisioning, admission control, and pricing. Recently, there has been great interest in building prediction models to estimate execution time of traditional SQL queries. While suitable for typical OLTP/OLAP workloads, these existing approaches are insufficient to model performance of complex data processing activities for deep analytics such as cleaning and integration of data. These activities are largely based on similarity operations, which are radically different from regular relational operators. In this dissertation, we consider prediction models for set similarity joins. We exploit knowledge of optimization techniques and design details popularly found in set similarity join algorithms to identify relevant features, which are then used to construct prediction models based on statistical machine learning. We present an extensive experimental evaluation to confirm the accuracy of our approach.Previsão do tempo de execução de consultas é essencial para muitas tarefas importantes relacionadas ao gerenciamento de banco de dados baseado em nuvem, incluindo provisionamento de recursos, controle de admissão e precificação de serviços. Recentemente, há grandes esforços na construção de modelos de previsão para estimar o tempo de execução de consultas SQL tradicionais. Embora adequadas para cargas de trabalho OLTP/OLAP, essas abordagens são insuficientes para modelar o desempenho de atividades envolvendo análises complexas de dados, como limpeza e integração de dados. Essas atividades são baseadas tipicamente em operações de similaridade, que, por sua vez, são radicalmente diferentes dos operadores relacionais regulares. Neste trabalho, consideramos modelos de previsão de tempo para junções por similaridade baseadas em conjuntos. Por meio do estudo de técnicas de otimização popularmente utilizadas em algoritmos de junção por similaridade, foram identificadas um conjunto de features relevantes, que são usadas na construção de modelos de previsão baseadas em aprendizagem de máquina estatística. Uma extensa avaliação experimental é apresentada para confirmar a precisão da nossa abordagem.UNIVERSIDADE FEDERAL DE LAVRASDCC - Programa de Pós-graduaçãoUFLABRASILCNPQ_NÃO_INFORMADOJunção por similaridadeAprendizagem de máquinaPredição de desempenho para consultasIntegração de dadosLimpeza de dadosSimilarity joinCloud databasesMachine learningQuery performance predictionData integrationData cleaningPredição de desempenho para junções por similaridade baseadas em conjuntosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisRibeiro, Leonardo AndradePereira, Denilson AlvesAndrade, RafaelZambalde, André LuizSidney, Christiane Faleiroinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFLAinstname:Universidade Federal de Lavras (UFLA)instacron:UFLAORIGINALDISSERTAÇÃO_Predição de desempenho para junções por similaridade baseadas em conjuntos.pdfDISSERTAÇÃO_Predição de desempenho para junções por similaridade baseadas em conjuntos.pdfapplication/pdf2737128https://repositorio.ufla.br/bitstreams/d92743bb-b91b-495b-b573-543a2f0499bf/download85657385b9edba15e213f6f8b795210bMD51trueAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-8953https://repositorio.ufla.br/bitstreams/5ada3bb3-fac9-494d-9bef-eca4cb0df624/download760884c1e72224de569e74f79eb87ce3MD52falseAnonymousREADTEXTDISSERTAÇÃO_Predição de desempenho para junções por similaridade baseadas em conjuntos.pdf.txtDISSERTAÇÃO_Predição de desempenho para junções por similaridade baseadas em conjuntos.pdf.txtExtracted texttext/plain102590https://repositorio.ufla.br/bitstreams/c33d1278-c0b0-4f34-8d0c-847bbcf24894/download1c50aad3009dcbf70403541a5647bf2fMD53falseAnonymousREADTHUMBNAILDISSERTAÇÃO_Predição de desempenho para junções por similaridade baseadas em conjuntos.pdf.jpgDISSERTAÇÃO_Predição de desempenho para junções por similaridade baseadas em conjuntos.pdf.jpgGenerated Thumbnailimage/jpeg2677https://repositorio.ufla.br/bitstreams/da98d749-5723-4dca-90e2-e0ec2a253084/downloadf83666a0b10402198b058b73548c66b0MD54falseAnonymousREAD1/41662025-08-05 16:06:54.11open.accessoai:repositorio.ufla.br:1/4166https://repositorio.ufla.brRepositório InstitucionalPUBhttps://repositorio.ufla.br/server/oai/requestnivaldo@ufla.br || repositorio.biblioteca@ufla.bropendoar:2025-08-05T19:06:54Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)falseREVDTEFSQcOHw4NPIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCk8gcmVmZXJpZG8gYXV0b3I6CmEpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUKZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4KRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50bwpsaGUgw6kgcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UKZW50aWRhZGUuCmIpIFNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCBuw6NvIGRldMOpbSBvcwpkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGF1dG9yaXphw6fDo28gZG8gZGV0ZW50b3IgZG9zCmRpcmVpdG9zIGRlIGF1dG9yIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgTGF2cmFzIG9zCmRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MKZGlyZWl0b3Mgc8OjbyBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbwpubyB0ZXh0byBvdSBjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLiBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqQpiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbyBwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUKbsOjbyBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIExhdnJhcywgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIKb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgo=
dc.title.pt_BR.fl_str_mv Predição de desempenho para junções por similaridade baseadas em conjuntos
title Predição de desempenho para junções por similaridade baseadas em conjuntos
spellingShingle Predição de desempenho para junções por similaridade baseadas em conjuntos
Sidney, Christiane Faleiro
CNPQ_NÃO_INFORMADO
Junção por similaridade
Aprendizagem de máquina
Predição de desempenho para consultas
Integração de dados
Limpeza de dados
Similarity join
Cloud databases
Machine learning
Query performance prediction
Data integration
Data cleaning
title_short Predição de desempenho para junções por similaridade baseadas em conjuntos
title_full Predição de desempenho para junções por similaridade baseadas em conjuntos
title_fullStr Predição de desempenho para junções por similaridade baseadas em conjuntos
title_full_unstemmed Predição de desempenho para junções por similaridade baseadas em conjuntos
title_sort Predição de desempenho para junções por similaridade baseadas em conjuntos
author Sidney, Christiane Faleiro
author_facet Sidney, Christiane Faleiro
author_role author
dc.contributor.advisor1.fl_str_mv Ribeiro, Leonardo Andrade
dc.contributor.referee1.fl_str_mv Pereira, Denilson Alves
Andrade, Rafael
Zambalde, André Luiz
dc.contributor.author.fl_str_mv Sidney, Christiane Faleiro
contributor_str_mv Ribeiro, Leonardo Andrade
Pereira, Denilson Alves
Andrade, Rafael
Zambalde, André Luiz
dc.subject.cnpq.fl_str_mv CNPQ_NÃO_INFORMADO
topic CNPQ_NÃO_INFORMADO
Junção por similaridade
Aprendizagem de máquina
Predição de desempenho para consultas
Integração de dados
Limpeza de dados
Similarity join
Cloud databases
Machine learning
Query performance prediction
Data integration
Data cleaning
dc.subject.por.fl_str_mv Junção por similaridade
Aprendizagem de máquina
Predição de desempenho para consultas
Integração de dados
Limpeza de dados
Similarity join
Cloud databases
Machine learning
Query performance prediction
Data integration
Data cleaning
description Dissertação apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-Graduação em Ciência da Computação, área de concentração em Banco de Dados e Engenharia de Software, para a obtenção do título de Mestre.
publishDate 2014
dc.date.submitted.none.fl_str_mv 2014-02-27
dc.date.accessioned.fl_str_mv 2014-09-30T15:20:37Z
dc.date.available.fl_str_mv 2014-09-30T15:20:37Z
dc.date.issued.fl_str_mv 2014
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SIDNEY, C. F. Predição de desempenho para junções por similaridade baseadas em conjuntos. 2014. 91 p. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Lavras, Lavras, 2014.
dc.identifier.uri.fl_str_mv https://repositorio.ufla.br/handle/1/4166
identifier_str_mv SIDNEY, C. F. Predição de desempenho para junções por similaridade baseadas em conjuntos. 2014. 91 p. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Lavras, Lavras, 2014.
url https://repositorio.ufla.br/handle/1/4166
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv UNIVERSIDADE FEDERAL DE LAVRAS
dc.publisher.program.fl_str_mv DCC - Programa de Pós-graduação
dc.publisher.initials.fl_str_mv UFLA
dc.publisher.country.fl_str_mv BRASIL
publisher.none.fl_str_mv UNIVERSIDADE FEDERAL DE LAVRAS
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFLA
instname:Universidade Federal de Lavras (UFLA)
instacron:UFLA
instname_str Universidade Federal de Lavras (UFLA)
instacron_str UFLA
institution UFLA
reponame_str Repositório Institucional da UFLA
collection Repositório Institucional da UFLA
bitstream.url.fl_str_mv https://repositorio.ufla.br/bitstreams/d92743bb-b91b-495b-b573-543a2f0499bf/download
https://repositorio.ufla.br/bitstreams/5ada3bb3-fac9-494d-9bef-eca4cb0df624/download
https://repositorio.ufla.br/bitstreams/c33d1278-c0b0-4f34-8d0c-847bbcf24894/download
https://repositorio.ufla.br/bitstreams/da98d749-5723-4dca-90e2-e0ec2a253084/download
bitstream.checksum.fl_str_mv 85657385b9edba15e213f6f8b795210b
760884c1e72224de569e74f79eb87ce3
1c50aad3009dcbf70403541a5647bf2f
f83666a0b10402198b058b73548c66b0
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)
repository.mail.fl_str_mv nivaldo@ufla.br || repositorio.biblioteca@ufla.br
_version_ 1854947743161647104