Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log

Picoli, Ivan Luiz

Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log

Detalhes bibliográficos
Ano de defesa:	2013
Autor(a) principal:	Picoli, Ivan Luiz
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Ciência da computação Apache (Programa de computador) Banco de dados Algorítmos de computador
Link de acesso:	https://hdl.handle.net/1884/38134
Resumo:	Orientador : Prof. Dr. Eduardo Cunha de Almeida

Metadados do item

id	UFPR_a90b3883c328e538f11b2ae0d2a052ff
oai_identifier_str	oai:acervodigital.ufpr.br:1884/38134
network_acronym_str	UFPR
network_name_str	Repositório Institucional da UFPR
repository_id_str
spelling	Almeida, Eduardo Cunha de, 1977-Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaPicoli, Ivan Luiz2024-02-01T19:20:59Z2024-02-01T19:20:59Z2013https://hdl.handle.net/1884/38134Orientador : Prof. Dr. Eduardo Cunha de AlmeidaDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 26/02/2015Inclui referênciasResumo: MapReduce vem sendo utilizado amplamente na área de processamento de dados e Data Warehouse. Entre as muitas implementações do MapReduce disponíveis nos dias de hoje, o Apache Hadoop é o mais popular e possui código aberto. Hadoop também é usado amplamente como motor de muitos sistemas de processamento de consultas baseados em SQL, como o Apache Hive e PIG. Nesses sistemas, desenvolvedores podem processar consultas baseadas em SQL utilizando a escalabilidade do MapReduce. Neste contexto, desempenho e escalabilidade estão diretamente ligados aos parâmetros de configuração, que determinam o consumo de recursos e a eficiência do processamento. Hoje, as abordagens de ajuste de parâmetros analisam as tarefas durante sua execução e geram configurações de parâmetros baseadas em dados contidos em arquivos de log. Apesar de aumentar o desempenho, essa abordagem não é capaz de associar tarefas MapReduce similares para aplicar a configuração necessária. Assim, se tem dois problemas: (1) tarefas MapReduce recebem otimizações através de regras preestabelecidas sem se preocupar com a melhor alocação de recursos; (2) sequencias de tarefas MapReduce, como planos de consulta do Hive, recebem a mesma otimização mesmo que diferentes tarefas consumam diferentes recursos (problema nomeado de 'otimização uniforme'). A consequência de ambos os problemas _e a perda de desempenho, e o aumento do tempo de resposta e do consumo de recursos. Nesta dissertação apresenta-se uma abordagem que classifica tarefas MapReduce para aplicar otimizações através da similaridade de recursos automaticamente. Essa abordagem _e capaz de gerar grupos de tarefas que possuam consumo de recursos similares. Cada grupo criado _e associado a uma otimização específica que _e aplicada _as novas tarefas MapReduce. As duas principais contribuições são: (1) uma nova tarefa MapReduce recebe uma otimização apropriada sem a intervenção humana; (2) Tarefas de diferentes grupos recebem diferentes otimizações (abordagem chamada de 'otimização granular'). Experimentos mostram que nossa abordagem reduz o tempo de resposta em até 20% no melhor caso quando o benchmark TPC-H _e executado no Hive e Hadoop. Palavras-chave: Apache Hadoop, MapReduce, Otimização de Banco de Dados, Otimização Hive, Aprendizado de Máquina, Análise de LogAbstract: MapReduce has been extensively used for data processing and analytics over the past years. Among the many MapReduce implementations available to date, the Apache Hadoop is one of the most popular due to its open source nature. Hadoop has been also used as data processing back-end by many SQL-like query processing systems, such as Apache Hive and PIG. In these systems, developers can leverage the declarative nature of query languages with the scalability of MapReduce processing. The scalability of Hadoop directly depends on proper performance tuning in order to squeeze computer resources for efficient data processing. To date, any Hadoop tuning approach relies on monitoring the execution of running programs for computing tuning setups based on execution data in log _les. While this approach can boost performance, it does not allow associating similar Hadoop programs to a similar tuning setup. This leads to two problems: (1) any upcoming program receives a single pre-computed tuning without any concern to what are the best computing resources to be allocated; (2) chains of running MapReduce programs, such as Hive query plans, tend to receive the same tuning setup, even if they eventually consume different computing resources (this problem is called 'uniform tuning'). The direct consequence of both problems is that they lead to poor performance, increase in response time and in resource consumption. This dissertation presents an approach for classifying MapReduce programs with similar resource consumption into groups. For each group, a specific tuning setup is associated that can be then re-applied to any upcoming program. This approach provides two main contributions: (1) an upcoming program receives a proper tuning on-the-y without human intervention; (2) programs from different groups receive different tuning setups (this approach is called '_ne-grained tuning'). Empirical experimentation shows that this approach reduces response time in 20% in the best case scenario when running the TPC-H benchmark on Hive and Hadoop. Keywords: Apache Hadoop, Apache Hive, MapReduce, Database Tuning, HiveQL Tuning, Machine Learning, Log Analysis58f. : il., tabs., grafs., algumas color.application/pdfDisponível em formato digitalCiência da computaçãoApache (Programa de computador)Banco de dadosAlgorítmos de computadorUma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de loginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - IVAN LUIZ PICOLI.pdfapplication/pdf1618508https://acervodigital.ufpr.br/bitstream/1884/38134/1/R%20-%20D%20-%20IVAN%20LUIZ%20PICOLI.pdff9cde0f241b5baebd164521e4ff58bcfMD51open accessTEXTR - D - IVAN LUIZ PICOLI.pdf.txtExtracted Texttext/plain101349https://acervodigital.ufpr.br/bitstream/1884/38134/2/R%20-%20D%20-%20IVAN%20LUIZ%20PICOLI.pdf.txt4c42a77b51e6aaca00236a4001ab2d43MD52open accessTHUMBNAILR - D - IVAN LUIZ PICOLI.pdf.jpgGenerated Thumbnailimage/jpeg1139https://acervodigital.ufpr.br/bitstream/1884/38134/3/R%20-%20D%20-%20IVAN%20LUIZ%20PICOLI.pdf.jpg8b9ec3c19bbb44101dffe1b6c428d8f3MD53open access1884/381342024-02-01 16:20:59.735open accessoai:acervodigital.ufpr.br:1884/38134Repositório InstitucionalPUBhttp://acervodigital.ufpr.br/oai/requestinformacaodigital@ufpr.bropendoar:3082024-02-01T19:20:59Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv	Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log
title	Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log
spellingShingle	Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log Picoli, Ivan Luiz Ciência da computação Apache (Programa de computador) Banco de dados Algorítmos de computador
title_short	Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log
title_full	Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log
title_fullStr	Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log
title_full_unstemmed	Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log
title_sort	Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log
author	Picoli, Ivan Luiz
author_facet	Picoli, Ivan Luiz
author_role	author
dc.contributor.other.pt_BR.fl_str_mv	Almeida, Eduardo Cunha de, 1977- Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática
dc.contributor.author.fl_str_mv	Picoli, Ivan Luiz
dc.subject.por.fl_str_mv	Ciência da computação Apache (Programa de computador) Banco de dados Algorítmos de computador
topic	Ciência da computação Apache (Programa de computador) Banco de dados Algorítmos de computador
description	Orientador : Prof. Dr. Eduardo Cunha de Almeida
publishDate	2013
dc.date.issued.fl_str_mv	2013
dc.date.accessioned.fl_str_mv	2024-02-01T19:20:59Z
dc.date.available.fl_str_mv	2024-02-01T19:20:59Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://hdl.handle.net/1884/38134
url	https://hdl.handle.net/1884/38134
dc.language.iso.fl_str_mv	por
language	por
dc.relation.pt_BR.fl_str_mv	Disponível em formato digital
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	58f. : il., tabs., grafs., algumas color. application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR
instname_str	Universidade Federal do Paraná (UFPR)
instacron_str	UFPR
institution	UFPR
reponame_str	Repositório Institucional da UFPR
collection	Repositório Institucional da UFPR
bitstream.url.fl_str_mv	https://acervodigital.ufpr.br/bitstream/1884/38134/1/R%20-%20D%20-%20IVAN%20LUIZ%20PICOLI.pdf https://acervodigital.ufpr.br/bitstream/1884/38134/2/R%20-%20D%20-%20IVAN%20LUIZ%20PICOLI.pdf.txt https://acervodigital.ufpr.br/bitstream/1884/38134/3/R%20-%20D%20-%20IVAN%20LUIZ%20PICOLI.pdf.jpg
bitstream.checksum.fl_str_mv	f9cde0f241b5baebd164521e4ff58bcf 4c42a77b51e6aaca00236a4001ab2d43 8b9ec3c19bbb44101dffe1b6c428d8f3
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv	informacaodigital@ufpr.br
_version_	1847526300005171200

Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log

Registros relacionados