Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log

Detalhes bibliográficos
Ano de defesa: 2013
Autor(a) principal: Picoli, Ivan Luiz
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/1884/38134
Resumo: Orientador : Prof. Dr. Eduardo Cunha de Almeida
id UFPR_a90b3883c328e538f11b2ae0d2a052ff
oai_identifier_str oai:acervodigital.ufpr.br:1884/38134
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str
spelling Almeida, Eduardo Cunha de, 1977-Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaPicoli, Ivan Luiz2024-02-01T19:20:59Z2024-02-01T19:20:59Z2013https://hdl.handle.net/1884/38134Orientador : Prof. Dr. Eduardo Cunha de AlmeidaDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 26/02/2015Inclui referênciasResumo: MapReduce vem sendo utilizado amplamente na área de processamento de dados e Data Warehouse. Entre as muitas implementações do MapReduce disponíveis nos dias de hoje, o Apache Hadoop é o mais popular e possui código aberto. Hadoop também é usado amplamente como motor de muitos sistemas de processamento de consultas baseados em SQL, como o Apache Hive e PIG. Nesses sistemas, desenvolvedores podem processar consultas baseadas em SQL utilizando a escalabilidade do MapReduce. Neste contexto, desempenho e escalabilidade estão diretamente ligados aos parâmetros de configuração, que determinam o consumo de recursos e a eficiência do processamento. Hoje, as abordagens de ajuste de parâmetros analisam as tarefas durante sua execução e geram configurações de parâmetros baseadas em dados contidos em arquivos de log. Apesar de aumentar o desempenho, essa abordagem não é capaz de associar tarefas MapReduce similares para aplicar a configuração necessária. Assim, se tem dois problemas: (1) tarefas MapReduce recebem otimizações através de regras preestabelecidas sem se preocupar com a melhor alocação de recursos; (2) sequencias de tarefas MapReduce, como planos de consulta do Hive, recebem a mesma otimização mesmo que diferentes tarefas consumam diferentes recursos (problema nomeado de 'otimização uniforme'). A consequência de ambos os problemas _e a perda de desempenho, e o aumento do tempo de resposta e do consumo de recursos. Nesta dissertação apresenta-se uma abordagem que classifica tarefas MapReduce para aplicar otimizações através da similaridade de recursos automaticamente. Essa abordagem _e capaz de gerar grupos de tarefas que possuam consumo de recursos similares. Cada grupo criado _e associado a uma otimização específica que _e aplicada _as novas tarefas MapReduce. As duas principais contribuições são: (1) uma nova tarefa MapReduce recebe uma otimização apropriada sem a intervenção humana; (2) Tarefas de diferentes grupos recebem diferentes otimizações (abordagem chamada de 'otimização granular'). Experimentos mostram que nossa abordagem reduz o tempo de resposta em até 20% no melhor caso quando o benchmark TPC-H _e executado no Hive e Hadoop. Palavras-chave: Apache Hadoop, MapReduce, Otimização de Banco de Dados, Otimização Hive, Aprendizado de Máquina, Análise de LogAbstract: MapReduce has been extensively used for data processing and analytics over the past years. Among the many MapReduce implementations available to date, the Apache Hadoop is one of the most popular due to its open source nature. Hadoop has been also used as data processing back-end by many SQL-like query processing systems, such as Apache Hive and PIG. In these systems, developers can leverage the declarative nature of query languages with the scalability of MapReduce processing. The scalability of Hadoop directly depends on proper performance tuning in order to squeeze computer resources for efficient data processing. To date, any Hadoop tuning approach relies on monitoring the execution of running programs for computing tuning setups based on execution data in log _les. While this approach can boost performance, it does not allow associating similar Hadoop programs to a similar tuning setup. This leads to two problems: (1) any upcoming program receives a single pre-computed tuning without any concern to what are the best computing resources to be allocated; (2) chains of running MapReduce programs, such as Hive query plans, tend to receive the same tuning setup, even if they eventually consume different computing resources (this problem is called 'uniform tuning'). The direct consequence of both problems is that they lead to poor performance, increase in response time and in resource consumption. This dissertation presents an approach for classifying MapReduce programs with similar resource consumption into groups. For each group, a specific tuning setup is associated that can be then re-applied to any upcoming program. This approach provides two main contributions: (1) an upcoming program receives a proper tuning on-the-y without human intervention; (2) programs from different groups receive different tuning setups (this approach is called '_ne-grained tuning'). Empirical experimentation shows that this approach reduces response time in 20% in the best case scenario when running the TPC-H benchmark on Hive and Hadoop. Keywords: Apache Hadoop, Apache Hive, MapReduce, Database Tuning, HiveQL Tuning, Machine Learning, Log Analysis58f. : il., tabs., grafs., algumas color.application/pdfDisponível em formato digitalCiência da computaçãoApache (Programa de computador)Banco de dadosAlgorítmos de computadorUma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de loginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - IVAN LUIZ PICOLI.pdfapplication/pdf1618508https://acervodigital.ufpr.br/bitstream/1884/38134/1/R%20-%20D%20-%20IVAN%20LUIZ%20PICOLI.pdff9cde0f241b5baebd164521e4ff58bcfMD51open accessTEXTR - D - IVAN LUIZ PICOLI.pdf.txtExtracted Texttext/plain101349https://acervodigital.ufpr.br/bitstream/1884/38134/2/R%20-%20D%20-%20IVAN%20LUIZ%20PICOLI.pdf.txt4c42a77b51e6aaca00236a4001ab2d43MD52open accessTHUMBNAILR - D - IVAN LUIZ PICOLI.pdf.jpgGenerated Thumbnailimage/jpeg1139https://acervodigital.ufpr.br/bitstream/1884/38134/3/R%20-%20D%20-%20IVAN%20LUIZ%20PICOLI.pdf.jpg8b9ec3c19bbb44101dffe1b6c428d8f3MD53open access1884/381342024-02-01 16:20:59.735open accessoai:acervodigital.ufpr.br:1884/38134Repositório InstitucionalPUBhttp://acervodigital.ufpr.br/oai/requestinformacaodigital@ufpr.bropendoar:3082024-02-01T19:20:59Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log
title Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log
spellingShingle Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log
Picoli, Ivan Luiz
Ciência da computação
Apache (Programa de computador)
Banco de dados
Algorítmos de computador
title_short Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log
title_full Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log
title_fullStr Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log
title_full_unstemmed Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log
title_sort Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log
author Picoli, Ivan Luiz
author_facet Picoli, Ivan Luiz
author_role author
dc.contributor.other.pt_BR.fl_str_mv Almeida, Eduardo Cunha de, 1977-
Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática
dc.contributor.author.fl_str_mv Picoli, Ivan Luiz
dc.subject.por.fl_str_mv Ciência da computação
Apache (Programa de computador)
Banco de dados
Algorítmos de computador
topic Ciência da computação
Apache (Programa de computador)
Banco de dados
Algorítmos de computador
description Orientador : Prof. Dr. Eduardo Cunha de Almeida
publishDate 2013
dc.date.issued.fl_str_mv 2013
dc.date.accessioned.fl_str_mv 2024-02-01T19:20:59Z
dc.date.available.fl_str_mv 2024-02-01T19:20:59Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/38134
url https://hdl.handle.net/1884/38134
dc.language.iso.fl_str_mv por
language por
dc.relation.pt_BR.fl_str_mv Disponível em formato digital
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 58f. : il., tabs., grafs., algumas color.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/38134/1/R%20-%20D%20-%20IVAN%20LUIZ%20PICOLI.pdf
https://acervodigital.ufpr.br/bitstream/1884/38134/2/R%20-%20D%20-%20IVAN%20LUIZ%20PICOLI.pdf.txt
https://acervodigital.ufpr.br/bitstream/1884/38134/3/R%20-%20D%20-%20IVAN%20LUIZ%20PICOLI.pdf.jpg
bitstream.checksum.fl_str_mv f9cde0f241b5baebd164521e4ff58bcf
4c42a77b51e6aaca00236a4001ab2d43
8b9ec3c19bbb44101dffe1b6c428d8f3
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv informacaodigital@ufpr.br
_version_ 1847526300005171200