Predição de desempenho para junções por similaridade baseadas em conjuntos
| Ano de defesa: | 2014 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | , , |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
UNIVERSIDADE FEDERAL DE LAVRAS
|
| Programa de Pós-Graduação: |
DCC - Programa de Pós-graduação
|
| Departamento: |
Não Informado pela instituição
|
| País: |
BRASIL
|
| Palavras-chave em Português: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://repositorio.ufla.br/handle/1/4166 |
Resumo: | Dissertação apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-Graduação em Ciência da Computação, área de concentração em Banco de Dados e Engenharia de Software, para a obtenção do título de Mestre. |
| id |
UFLA_4e33aa178c1d0091f1c3fa0bd24f6593 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufla.br:1/4166 |
| network_acronym_str |
UFLA |
| network_name_str |
Repositório Institucional da UFLA |
| repository_id_str |
|
| spelling |
2014-09-30T15:20:37Z2014-09-30T15:20:37Z20142014-02-27SIDNEY, C. F. Predição de desempenho para junções por similaridade baseadas em conjuntos. 2014. 91 p. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Lavras, Lavras, 2014.https://repositorio.ufla.br/handle/1/4166Dissertação apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-Graduação em Ciência da Computação, área de concentração em Banco de Dados e Engenharia de Software, para a obtenção do título de Mestre.Banco de Dados e Engenharia de SoftwareQuery performance prediction is essential for many important tasks related to cloud-based database management including resource provisioning, admission control, and pricing. Recently, there has been great interest in building prediction models to estimate execution time of traditional SQL queries. While suitable for typical OLTP/OLAP workloads, these existing approaches are insufficient to model performance of complex data processing activities for deep analytics such as cleaning and integration of data. These activities are largely based on similarity operations, which are radically different from regular relational operators. In this dissertation, we consider prediction models for set similarity joins. We exploit knowledge of optimization techniques and design details popularly found in set similarity join algorithms to identify relevant features, which are then used to construct prediction models based on statistical machine learning. We present an extensive experimental evaluation to confirm the accuracy of our approach.Previsão do tempo de execução de consultas é essencial para muitas tarefas importantes relacionadas ao gerenciamento de banco de dados baseado em nuvem, incluindo provisionamento de recursos, controle de admissão e precificação de serviços. Recentemente, há grandes esforços na construção de modelos de previsão para estimar o tempo de execução de consultas SQL tradicionais. Embora adequadas para cargas de trabalho OLTP/OLAP, essas abordagens são insuficientes para modelar o desempenho de atividades envolvendo análises complexas de dados, como limpeza e integração de dados. Essas atividades são baseadas tipicamente em operações de similaridade, que, por sua vez, são radicalmente diferentes dos operadores relacionais regulares. Neste trabalho, consideramos modelos de previsão de tempo para junções por similaridade baseadas em conjuntos. Por meio do estudo de técnicas de otimização popularmente utilizadas em algoritmos de junção por similaridade, foram identificadas um conjunto de features relevantes, que são usadas na construção de modelos de previsão baseadas em aprendizagem de máquina estatística. Uma extensa avaliação experimental é apresentada para confirmar a precisão da nossa abordagem.UNIVERSIDADE FEDERAL DE LAVRASDCC - Programa de Pós-graduaçãoUFLABRASILCNPQ_NÃO_INFORMADOJunção por similaridadeAprendizagem de máquinaPredição de desempenho para consultasIntegração de dadosLimpeza de dadosSimilarity joinCloud databasesMachine learningQuery performance predictionData integrationData cleaningPredição de desempenho para junções por similaridade baseadas em conjuntosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisRibeiro, Leonardo AndradePereira, Denilson AlvesAndrade, RafaelZambalde, André LuizSidney, Christiane Faleiroinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFLAinstname:Universidade Federal de Lavras (UFLA)instacron:UFLAORIGINALDISSERTAÇÃO_Predição de desempenho para junções por similaridade baseadas em conjuntos.pdfDISSERTAÇÃO_Predição de desempenho para junções por similaridade baseadas em conjuntos.pdfapplication/pdf2737128https://repositorio.ufla.br/bitstreams/d92743bb-b91b-495b-b573-543a2f0499bf/download85657385b9edba15e213f6f8b795210bMD51trueAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-8953https://repositorio.ufla.br/bitstreams/5ada3bb3-fac9-494d-9bef-eca4cb0df624/download760884c1e72224de569e74f79eb87ce3MD52falseAnonymousREADTEXTDISSERTAÇÃO_Predição de desempenho para junções por similaridade baseadas em conjuntos.pdf.txtDISSERTAÇÃO_Predição de desempenho para junções por similaridade baseadas em conjuntos.pdf.txtExtracted texttext/plain102590https://repositorio.ufla.br/bitstreams/c33d1278-c0b0-4f34-8d0c-847bbcf24894/download1c50aad3009dcbf70403541a5647bf2fMD53falseAnonymousREADTHUMBNAILDISSERTAÇÃO_Predição de desempenho para junções por similaridade baseadas em conjuntos.pdf.jpgDISSERTAÇÃO_Predição de desempenho para junções por similaridade baseadas em conjuntos.pdf.jpgGenerated Thumbnailimage/jpeg2677https://repositorio.ufla.br/bitstreams/da98d749-5723-4dca-90e2-e0ec2a253084/downloadf83666a0b10402198b058b73548c66b0MD54falseAnonymousREAD1/41662025-08-05 16:06:54.11open.accessoai:repositorio.ufla.br:1/4166https://repositorio.ufla.brRepositório InstitucionalPUBhttps://repositorio.ufla.br/server/oai/requestnivaldo@ufla.br || repositorio.biblioteca@ufla.bropendoar:2025-08-05T19:06:54Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)falseREVDTEFSQcOHw4NPIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCk8gcmVmZXJpZG8gYXV0b3I6CmEpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUKZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4KRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50bwpsaGUgw6kgcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UKZW50aWRhZGUuCmIpIFNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCBuw6NvIGRldMOpbSBvcwpkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGF1dG9yaXphw6fDo28gZG8gZGV0ZW50b3IgZG9zCmRpcmVpdG9zIGRlIGF1dG9yIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgTGF2cmFzIG9zCmRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MKZGlyZWl0b3Mgc8OjbyBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbwpubyB0ZXh0byBvdSBjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLiBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqQpiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbyBwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUKbsOjbyBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIExhdnJhcywgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIKb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgo= |
| dc.title.pt_BR.fl_str_mv |
Predição de desempenho para junções por similaridade baseadas em conjuntos |
| title |
Predição de desempenho para junções por similaridade baseadas em conjuntos |
| spellingShingle |
Predição de desempenho para junções por similaridade baseadas em conjuntos Sidney, Christiane Faleiro CNPQ_NÃO_INFORMADO Junção por similaridade Aprendizagem de máquina Predição de desempenho para consultas Integração de dados Limpeza de dados Similarity join Cloud databases Machine learning Query performance prediction Data integration Data cleaning |
| title_short |
Predição de desempenho para junções por similaridade baseadas em conjuntos |
| title_full |
Predição de desempenho para junções por similaridade baseadas em conjuntos |
| title_fullStr |
Predição de desempenho para junções por similaridade baseadas em conjuntos |
| title_full_unstemmed |
Predição de desempenho para junções por similaridade baseadas em conjuntos |
| title_sort |
Predição de desempenho para junções por similaridade baseadas em conjuntos |
| author |
Sidney, Christiane Faleiro |
| author_facet |
Sidney, Christiane Faleiro |
| author_role |
author |
| dc.contributor.advisor1.fl_str_mv |
Ribeiro, Leonardo Andrade |
| dc.contributor.referee1.fl_str_mv |
Pereira, Denilson Alves Andrade, Rafael Zambalde, André Luiz |
| dc.contributor.author.fl_str_mv |
Sidney, Christiane Faleiro |
| contributor_str_mv |
Ribeiro, Leonardo Andrade Pereira, Denilson Alves Andrade, Rafael Zambalde, André Luiz |
| dc.subject.cnpq.fl_str_mv |
CNPQ_NÃO_INFORMADO |
| topic |
CNPQ_NÃO_INFORMADO Junção por similaridade Aprendizagem de máquina Predição de desempenho para consultas Integração de dados Limpeza de dados Similarity join Cloud databases Machine learning Query performance prediction Data integration Data cleaning |
| dc.subject.por.fl_str_mv |
Junção por similaridade Aprendizagem de máquina Predição de desempenho para consultas Integração de dados Limpeza de dados Similarity join Cloud databases Machine learning Query performance prediction Data integration Data cleaning |
| description |
Dissertação apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-Graduação em Ciência da Computação, área de concentração em Banco de Dados e Engenharia de Software, para a obtenção do título de Mestre. |
| publishDate |
2014 |
| dc.date.submitted.none.fl_str_mv |
2014-02-27 |
| dc.date.accessioned.fl_str_mv |
2014-09-30T15:20:37Z |
| dc.date.available.fl_str_mv |
2014-09-30T15:20:37Z |
| dc.date.issued.fl_str_mv |
2014 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
SIDNEY, C. F. Predição de desempenho para junções por similaridade baseadas em conjuntos. 2014. 91 p. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Lavras, Lavras, 2014. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufla.br/handle/1/4166 |
| identifier_str_mv |
SIDNEY, C. F. Predição de desempenho para junções por similaridade baseadas em conjuntos. 2014. 91 p. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Lavras, Lavras, 2014. |
| url |
https://repositorio.ufla.br/handle/1/4166 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
UNIVERSIDADE FEDERAL DE LAVRAS |
| dc.publisher.program.fl_str_mv |
DCC - Programa de Pós-graduação |
| dc.publisher.initials.fl_str_mv |
UFLA |
| dc.publisher.country.fl_str_mv |
BRASIL |
| publisher.none.fl_str_mv |
UNIVERSIDADE FEDERAL DE LAVRAS |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFLA instname:Universidade Federal de Lavras (UFLA) instacron:UFLA |
| instname_str |
Universidade Federal de Lavras (UFLA) |
| instacron_str |
UFLA |
| institution |
UFLA |
| reponame_str |
Repositório Institucional da UFLA |
| collection |
Repositório Institucional da UFLA |
| bitstream.url.fl_str_mv |
https://repositorio.ufla.br/bitstreams/d92743bb-b91b-495b-b573-543a2f0499bf/download https://repositorio.ufla.br/bitstreams/5ada3bb3-fac9-494d-9bef-eca4cb0df624/download https://repositorio.ufla.br/bitstreams/c33d1278-c0b0-4f34-8d0c-847bbcf24894/download https://repositorio.ufla.br/bitstreams/da98d749-5723-4dca-90e2-e0ec2a253084/download |
| bitstream.checksum.fl_str_mv |
85657385b9edba15e213f6f8b795210b 760884c1e72224de569e74f79eb87ce3 1c50aad3009dcbf70403541a5647bf2f f83666a0b10402198b058b73548c66b0 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA) |
| repository.mail.fl_str_mv |
nivaldo@ufla.br || repositorio.biblioteca@ufla.br |
| _version_ |
1854947743161647104 |