Exportação concluída — 

Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação

Detalhes bibliográficos
Ano de defesa: 2013
Autor(a) principal: Rocha, Fabiano da Guia
Orientador(a): Senger, Hermes lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação - PPGCC
Departamento: Não Informado pela instituição
País: BR
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufscar.br/handle/20.500.14289/534
Resumo: During the last years we have witnessed a significant growing in the amount of data processed in a daily basis by companies, universities, and other institutions. Many use cases report processing of data volumes of petabytes in thousands of cores by a single application. MapReduce is a programming model, and a framework for the execution of applications which manipulate large data volumes in machines composed of thousands of processors/cores. Currently, Hadoop is the most widely adopted free implementation of MapReduce. Although there are reports in the literature about the use of MapReduce applications on platforms with more than one hundred cores, the scalability is not stressed and much remain to be studied in this field. One of the main challenges in the scalability study of MapReduce applications is the large number of configuration parameters of Hadoop. There are reports in the literature that mention more than 190 configuration parameters, 25 of which are known to impact the application performance in a significant way. In this work we study the scalability of MapReduce applications running on Hadoop. Due to the limited number of processors/cores available, we adopted a combined approach involving both experimentation and simulation. The experimentation has been carried out in a local cluster of 32 nodes, and for the simulation we have used MRSG (MapReduce Over SimGrid). In a first set of experiments, we identify the most impacting parameters in the performance and scalability of the applications. Then, we present a method for calibrating the simulator. With the calibrated simulator, we evaluated the scalability of one well-optimized application on larger clusters, with up to 10 thousands of nodes.
id SCAR_f65e2e6362424353ea33ba70c48ddbc1
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/534
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Rocha, Fabiano da GuiaSenger, Hermeshttp://lattes.cnpq.br/3691742159298316http://lattes.cnpq.br/6083739451214753538086e4-1d1a-4c8f-b112-6aa32a3a68eb2016-06-02T19:06:06Z2013-09-052016-06-02T19:06:06Z2013-02-04ROCHA, Fabiano da Guia. Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação. 2013. 80 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2013.https://repositorio.ufscar.br/handle/20.500.14289/534During the last years we have witnessed a significant growing in the amount of data processed in a daily basis by companies, universities, and other institutions. Many use cases report processing of data volumes of petabytes in thousands of cores by a single application. MapReduce is a programming model, and a framework for the execution of applications which manipulate large data volumes in machines composed of thousands of processors/cores. Currently, Hadoop is the most widely adopted free implementation of MapReduce. Although there are reports in the literature about the use of MapReduce applications on platforms with more than one hundred cores, the scalability is not stressed and much remain to be studied in this field. One of the main challenges in the scalability study of MapReduce applications is the large number of configuration parameters of Hadoop. There are reports in the literature that mention more than 190 configuration parameters, 25 of which are known to impact the application performance in a significant way. In this work we study the scalability of MapReduce applications running on Hadoop. Due to the limited number of processors/cores available, we adopted a combined approach involving both experimentation and simulation. The experimentation has been carried out in a local cluster of 32 nodes, and for the simulation we have used MRSG (MapReduce Over SimGrid). In a first set of experiments, we identify the most impacting parameters in the performance and scalability of the applications. Then, we present a method for calibrating the simulator. With the calibrated simulator, we evaluated the scalability of one well-optimized application on larger clusters, with up to 10 thousands of nodes.Durante os últimos anos, houve um significativo crescimento na quantidade de dados processados diariamente por companhias, universidades e outras instituições. Mapreduce é um modelo de programação e um framework para a execução de aplicações que manipulam grandes volumes de dados em máquinas compostas por milhares de processadores ou núcleos. Atualmente, o Hadoop é a implementação como software livre de Mapreduce mais largamente adotada. Embora existam relatos na literatura sobre o uso de aplicações Mapreduce em plataformas com cerca de quatro mil núcleos processando dados da ordem de dezenas de petabytes, o estudo dos limites de escalabilidade não foi esgotado e muito ainda resta a ser estudado. Um dos principais desafios no estudo de escalabilidade de aplicações Mapreduce é o grande número de parâmetros de configuração da aplicação e do ambiente Hadoop. Na literatura há relatos que mencionam mais de 190 parâmetros de configuração, sendo que 25 podem afetar de maneira significativa o desempenho da aplicação. Este trabalho contém um estudo sobre a escalabilidade de aplicações Mapreduce executadas na plataforma Hadoop. Devido ao número limitado de processadores disponíveis, adotou-se uma abordagem que combina experimentação e simulação. A experimentação foi realizada em um cluster local de 32 nós (com 64 processadores), e para a simulação empregou-se o simulador MRSG (MapReduce Over SimGrid). Como principais resultados, foram identificados os parâmetros de maior impacto no desempenho e na escalabilidade das aplicações. Esse resultado foi obtido por meio de simulação. Além disso, apresentou-se um método para a calibração do simulador MRSG, em função de uma aplicação representativa escolhida como benchmark. Com o simulador calibrado, avaliou-se a escalabilidade de uma aplicação bem otimizada. O simulador calibrado permitiu obter uma predição sobre a escalabilidade da aplicação para uma plataforma com até 10 mil nós.application/pdfporUniversidade Federal de São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarBRComputaçãoSistemas multiprocessadosEscalabilidadeModelo mapReduceMapReduceMultiprocessor systemsScalabilityCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOAnálise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis-1-12947c428-30b1-4d14-8369-e5871a4d7accinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINAL5351.pdfapplication/pdf2740873https://repositorio.ufscar.br/bitstreams/310e8925-fcf0-43d1-9d6b-0305fcf2f370/downloade4ce3a33279ffb7afccf2fc418af0f79MD51trueAnonymousREADTEXT5351.pdf.txt5351.pdf.txtExtracted texttext/plain0https://repositorio.ufscar.br/bitstreams/cc5470af-6859-4a9e-9869-3cf2ad4f3743/downloadd41d8cd98f00b204e9800998ecf8427eMD54falseAnonymousREADTHUMBNAIL5351.pdf.jpg5351.pdf.jpgIM Thumbnailimage/jpeg8013https://repositorio.ufscar.br/bitstreams/24436864-8186-4e9f-b13b-d2a0391b9c8a/downloadfe2cddbf5c613229963a6f3a7e74c695MD55falseAnonymousREAD20.500.14289/5342025-02-05 15:06:51.047open.accessoai:repositorio.ufscar.br:20.500.14289/534https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-05T18:06:51Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
title Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
spellingShingle Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
Rocha, Fabiano da Guia
Computação
Sistemas multiprocessados
Escalabilidade
Modelo mapReduce
MapReduce
Multiprocessor systems
Scalability
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
title_full Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
title_fullStr Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
title_full_unstemmed Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
title_sort Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
author Rocha, Fabiano da Guia
author_facet Rocha, Fabiano da Guia
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/6083739451214753
dc.contributor.author.fl_str_mv Rocha, Fabiano da Guia
dc.contributor.advisor1.fl_str_mv Senger, Hermes
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/3691742159298316
dc.contributor.authorID.fl_str_mv 538086e4-1d1a-4c8f-b112-6aa32a3a68eb
contributor_str_mv Senger, Hermes
dc.subject.por.fl_str_mv Computação
Sistemas multiprocessados
Escalabilidade
Modelo mapReduce
MapReduce
topic Computação
Sistemas multiprocessados
Escalabilidade
Modelo mapReduce
MapReduce
Multiprocessor systems
Scalability
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Multiprocessor systems
Scalability
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description During the last years we have witnessed a significant growing in the amount of data processed in a daily basis by companies, universities, and other institutions. Many use cases report processing of data volumes of petabytes in thousands of cores by a single application. MapReduce is a programming model, and a framework for the execution of applications which manipulate large data volumes in machines composed of thousands of processors/cores. Currently, Hadoop is the most widely adopted free implementation of MapReduce. Although there are reports in the literature about the use of MapReduce applications on platforms with more than one hundred cores, the scalability is not stressed and much remain to be studied in this field. One of the main challenges in the scalability study of MapReduce applications is the large number of configuration parameters of Hadoop. There are reports in the literature that mention more than 190 configuration parameters, 25 of which are known to impact the application performance in a significant way. In this work we study the scalability of MapReduce applications running on Hadoop. Due to the limited number of processors/cores available, we adopted a combined approach involving both experimentation and simulation. The experimentation has been carried out in a local cluster of 32 nodes, and for the simulation we have used MRSG (MapReduce Over SimGrid). In a first set of experiments, we identify the most impacting parameters in the performance and scalability of the applications. Then, we present a method for calibrating the simulator. With the calibrated simulator, we evaluated the scalability of one well-optimized application on larger clusters, with up to 10 thousands of nodes.
publishDate 2013
dc.date.available.fl_str_mv 2013-09-05
2016-06-02T19:06:06Z
dc.date.issued.fl_str_mv 2013-02-04
dc.date.accessioned.fl_str_mv 2016-06-02T19:06:06Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv ROCHA, Fabiano da Guia. Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação. 2013. 80 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2013.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/534
identifier_str_mv ROCHA, Fabiano da Guia. Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação. 2013. 80 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2013.
url https://repositorio.ufscar.br/handle/20.500.14289/534
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv -1
-1
dc.relation.authority.fl_str_mv 2947c428-30b1-4d14-8369-e5871a4d7acc
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv Universidade Federal de São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/310e8925-fcf0-43d1-9d6b-0305fcf2f370/download
https://repositorio.ufscar.br/bitstreams/cc5470af-6859-4a9e-9869-3cf2ad4f3743/download
https://repositorio.ufscar.br/bitstreams/24436864-8186-4e9f-b13b-d2a0391b9c8a/download
bitstream.checksum.fl_str_mv e4ce3a33279ffb7afccf2fc418af0f79
d41d8cd98f00b204e9800998ecf8427e
fe2cddbf5c613229963a6f3a7e74c695
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688920906989568