Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação

Rocha, Fabiano da Guia

Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação

Detalhes bibliográficos
Ano de defesa:	2013
Autor(a) principal:	Rocha, Fabiano da Guia
Orientador(a):	Senger, Hermes
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de São Carlos
Programa de Pós-Graduação:	Programa de Pós-Graduação em Ciência da Computação - PPGCC
Departamento:	Não Informado pela instituição
País:	BR
Palavras-chave em Português:	Computação Sistemas multiprocessados Escalabilidade Modelo mapReduce MapReduce
Palavras-chave em Inglês:	Multiprocessor systems Scalability
Área do conhecimento CNPq:	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Link de acesso:	https://repositorio.ufscar.br/handle/20.500.14289/534
Resumo:	During the last years we have witnessed a significant growing in the amount of data processed in a daily basis by companies, universities, and other institutions. Many use cases report processing of data volumes of petabytes in thousands of cores by a single application. MapReduce is a programming model, and a framework for the execution of applications which manipulate large data volumes in machines composed of thousands of processors/cores. Currently, Hadoop is the most widely adopted free implementation of MapReduce. Although there are reports in the literature about the use of MapReduce applications on platforms with more than one hundred cores, the scalability is not stressed and much remain to be studied in this field. One of the main challenges in the scalability study of MapReduce applications is the large number of configuration parameters of Hadoop. There are reports in the literature that mention more than 190 configuration parameters, 25 of which are known to impact the application performance in a significant way. In this work we study the scalability of MapReduce applications running on Hadoop. Due to the limited number of processors/cores available, we adopted a combined approach involving both experimentation and simulation. The experimentation has been carried out in a local cluster of 32 nodes, and for the simulation we have used MRSG (MapReduce Over SimGrid). In a first set of experiments, we identify the most impacting parameters in the performance and scalability of the applications. Then, we present a method for calibrating the simulator. With the calibrated simulator, we evaluated the scalability of one well-optimized application on larger clusters, with up to 10 thousands of nodes.

Metadados do item

id	SCAR_f65e2e6362424353ea33ba70c48ddbc1
oai_identifier_str	oai:repositorio.ufscar.br:20.500.14289/534
network_acronym_str	SCAR
network_name_str	Repositório Institucional da UFSCAR
repository_id_str
spelling	Rocha, Fabiano da GuiaSenger, Hermeshttp://lattes.cnpq.br/3691742159298316http://lattes.cnpq.br/6083739451214753538086e4-1d1a-4c8f-b112-6aa32a3a68eb2016-06-02T19:06:06Z2013-09-052016-06-02T19:06:06Z2013-02-04ROCHA, Fabiano da Guia. Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação. 2013. 80 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2013.https://repositorio.ufscar.br/handle/20.500.14289/534During the last years we have witnessed a significant growing in the amount of data processed in a daily basis by companies, universities, and other institutions. Many use cases report processing of data volumes of petabytes in thousands of cores by a single application. MapReduce is a programming model, and a framework for the execution of applications which manipulate large data volumes in machines composed of thousands of processors/cores. Currently, Hadoop is the most widely adopted free implementation of MapReduce. Although there are reports in the literature about the use of MapReduce applications on platforms with more than one hundred cores, the scalability is not stressed and much remain to be studied in this field. One of the main challenges in the scalability study of MapReduce applications is the large number of configuration parameters of Hadoop. There are reports in the literature that mention more than 190 configuration parameters, 25 of which are known to impact the application performance in a significant way. In this work we study the scalability of MapReduce applications running on Hadoop. Due to the limited number of processors/cores available, we adopted a combined approach involving both experimentation and simulation. The experimentation has been carried out in a local cluster of 32 nodes, and for the simulation we have used MRSG (MapReduce Over SimGrid). In a first set of experiments, we identify the most impacting parameters in the performance and scalability of the applications. Then, we present a method for calibrating the simulator. With the calibrated simulator, we evaluated the scalability of one well-optimized application on larger clusters, with up to 10 thousands of nodes.Durante os últimos anos, houve um significativo crescimento na quantidade de dados processados diariamente por companhias, universidades e outras instituições. Mapreduce é um modelo de programação e um framework para a execução de aplicações que manipulam grandes volumes de dados em máquinas compostas por milhares de processadores ou núcleos. Atualmente, o Hadoop é a implementação como software livre de Mapreduce mais largamente adotada. Embora existam relatos na literatura sobre o uso de aplicações Mapreduce em plataformas com cerca de quatro mil núcleos processando dados da ordem de dezenas de petabytes, o estudo dos limites de escalabilidade não foi esgotado e muito ainda resta a ser estudado. Um dos principais desafios no estudo de escalabilidade de aplicações Mapreduce é o grande número de parâmetros de configuração da aplicação e do ambiente Hadoop. Na literatura há relatos que mencionam mais de 190 parâmetros de configuração, sendo que 25 podem afetar de maneira significativa o desempenho da aplicação. Este trabalho contém um estudo sobre a escalabilidade de aplicações Mapreduce executadas na plataforma Hadoop. Devido ao número limitado de processadores disponíveis, adotou-se uma abordagem que combina experimentação e simulação. A experimentação foi realizada em um cluster local de 32 nós (com 64 processadores), e para a simulação empregou-se o simulador MRSG (MapReduce Over SimGrid). Como principais resultados, foram identificados os parâmetros de maior impacto no desempenho e na escalabilidade das aplicações. Esse resultado foi obtido por meio de simulação. Além disso, apresentou-se um método para a calibração do simulador MRSG, em função de uma aplicação representativa escolhida como benchmark. Com o simulador calibrado, avaliou-se a escalabilidade de uma aplicação bem otimizada. O simulador calibrado permitiu obter uma predição sobre a escalabilidade da aplicação para uma plataforma com até 10 mil nós.application/pdfporUniversidade Federal de São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarBRComputaçãoSistemas multiprocessadosEscalabilidadeModelo mapReduceMapReduceMultiprocessor systemsScalabilityCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOAnálise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis-1-12947c428-30b1-4d14-8369-e5871a4d7accinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINAL5351.pdfapplication/pdf2740873https://repositorio.ufscar.br/bitstreams/310e8925-fcf0-43d1-9d6b-0305fcf2f370/downloade4ce3a33279ffb7afccf2fc418af0f79MD51trueAnonymousREADTEXT5351.pdf.txt5351.pdf.txtExtracted texttext/plain0https://repositorio.ufscar.br/bitstreams/cc5470af-6859-4a9e-9869-3cf2ad4f3743/downloadd41d8cd98f00b204e9800998ecf8427eMD54falseAnonymousREADTHUMBNAIL5351.pdf.jpg5351.pdf.jpgIM Thumbnailimage/jpeg8013https://repositorio.ufscar.br/bitstreams/24436864-8186-4e9f-b13b-d2a0391b9c8a/downloadfe2cddbf5c613229963a6f3a7e74c695MD55falseAnonymousREAD20.500.14289/5342025-02-05 15:06:51.047open.accessoai:repositorio.ufscar.br:20.500.14289/534https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-05T18:06:51Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv	Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
title	Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
spellingShingle	Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação Rocha, Fabiano da Guia Computação Sistemas multiprocessados Escalabilidade Modelo mapReduce MapReduce Multiprocessor systems Scalability CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short	Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
title_full	Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
title_fullStr	Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
title_full_unstemmed	Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
title_sort	Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
author	Rocha, Fabiano da Guia
author_facet	Rocha, Fabiano da Guia
author_role	author
dc.contributor.authorlattes.por.fl_str_mv	http://lattes.cnpq.br/6083739451214753
dc.contributor.author.fl_str_mv	Rocha, Fabiano da Guia
dc.contributor.advisor1.fl_str_mv	Senger, Hermes
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/3691742159298316
dc.contributor.authorID.fl_str_mv	538086e4-1d1a-4c8f-b112-6aa32a3a68eb
contributor_str_mv	Senger, Hermes
dc.subject.por.fl_str_mv	Computação Sistemas multiprocessados Escalabilidade Modelo mapReduce MapReduce
topic	Computação Sistemas multiprocessados Escalabilidade Modelo mapReduce MapReduce Multiprocessor systems Scalability CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv	Multiprocessor systems Scalability
dc.subject.cnpq.fl_str_mv	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description	During the last years we have witnessed a significant growing in the amount of data processed in a daily basis by companies, universities, and other institutions. Many use cases report processing of data volumes of petabytes in thousands of cores by a single application. MapReduce is a programming model, and a framework for the execution of applications which manipulate large data volumes in machines composed of thousands of processors/cores. Currently, Hadoop is the most widely adopted free implementation of MapReduce. Although there are reports in the literature about the use of MapReduce applications on platforms with more than one hundred cores, the scalability is not stressed and much remain to be studied in this field. One of the main challenges in the scalability study of MapReduce applications is the large number of configuration parameters of Hadoop. There are reports in the literature that mention more than 190 configuration parameters, 25 of which are known to impact the application performance in a significant way. In this work we study the scalability of MapReduce applications running on Hadoop. Due to the limited number of processors/cores available, we adopted a combined approach involving both experimentation and simulation. The experimentation has been carried out in a local cluster of 32 nodes, and for the simulation we have used MRSG (MapReduce Over SimGrid). In a first set of experiments, we identify the most impacting parameters in the performance and scalability of the applications. Then, we present a method for calibrating the simulator. With the calibrated simulator, we evaluated the scalability of one well-optimized application on larger clusters, with up to 10 thousands of nodes.
publishDate	2013
dc.date.available.fl_str_mv	2013-09-05 2016-06-02T19:06:06Z
dc.date.issued.fl_str_mv	2013-02-04
dc.date.accessioned.fl_str_mv	2016-06-02T19:06:06Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	ROCHA, Fabiano da Guia. Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação. 2013. 80 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2013.
dc.identifier.uri.fl_str_mv	https://repositorio.ufscar.br/handle/20.500.14289/534
identifier_str_mv	ROCHA, Fabiano da Guia. Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação. 2013. 80 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2013.
url	https://repositorio.ufscar.br/handle/20.500.14289/534
dc.language.iso.fl_str_mv	por
language	por
dc.relation.confidence.fl_str_mv	-1 -1
dc.relation.authority.fl_str_mv	2947c428-30b1-4d14-8369-e5871a4d7acc
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal de São Carlos
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv	UFSCar
dc.publisher.country.fl_str_mv	BR
publisher.none.fl_str_mv	Universidade Federal de São Carlos
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR
instname_str	Universidade Federal de São Carlos (UFSCAR)
instacron_str	UFSCAR
institution	UFSCAR
reponame_str	Repositório Institucional da UFSCAR
collection	Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv	https://repositorio.ufscar.br/bitstreams/310e8925-fcf0-43d1-9d6b-0305fcf2f370/download https://repositorio.ufscar.br/bitstreams/cc5470af-6859-4a9e-9869-3cf2ad4f3743/download https://repositorio.ufscar.br/bitstreams/24436864-8186-4e9f-b13b-d2a0391b9c8a/download
bitstream.checksum.fl_str_mv	e4ce3a33279ffb7afccf2fc418af0f79 d41d8cd98f00b204e9800998ecf8427e fe2cddbf5c613229963a6f3a7e74c695
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv	repositorio.sibi@ufscar.br
_version_	1851688920906989568

Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação

Registros relacionados