Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
| Ano de defesa: | 2013 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de São Carlos
|
| Programa de Pós-Graduação: |
Programa de Pós-Graduação em Ciência da Computação - PPGCC
|
| Departamento: |
Não Informado pela instituição
|
| País: |
BR
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://repositorio.ufscar.br/handle/20.500.14289/534 |
Resumo: | During the last years we have witnessed a significant growing in the amount of data processed in a daily basis by companies, universities, and other institutions. Many use cases report processing of data volumes of petabytes in thousands of cores by a single application. MapReduce is a programming model, and a framework for the execution of applications which manipulate large data volumes in machines composed of thousands of processors/cores. Currently, Hadoop is the most widely adopted free implementation of MapReduce. Although there are reports in the literature about the use of MapReduce applications on platforms with more than one hundred cores, the scalability is not stressed and much remain to be studied in this field. One of the main challenges in the scalability study of MapReduce applications is the large number of configuration parameters of Hadoop. There are reports in the literature that mention more than 190 configuration parameters, 25 of which are known to impact the application performance in a significant way. In this work we study the scalability of MapReduce applications running on Hadoop. Due to the limited number of processors/cores available, we adopted a combined approach involving both experimentation and simulation. The experimentation has been carried out in a local cluster of 32 nodes, and for the simulation we have used MRSG (MapReduce Over SimGrid). In a first set of experiments, we identify the most impacting parameters in the performance and scalability of the applications. Then, we present a method for calibrating the simulator. With the calibrated simulator, we evaluated the scalability of one well-optimized application on larger clusters, with up to 10 thousands of nodes. |
| id |
SCAR_f65e2e6362424353ea33ba70c48ddbc1 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/534 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Rocha, Fabiano da GuiaSenger, Hermeshttp://lattes.cnpq.br/3691742159298316http://lattes.cnpq.br/6083739451214753538086e4-1d1a-4c8f-b112-6aa32a3a68eb2016-06-02T19:06:06Z2013-09-052016-06-02T19:06:06Z2013-02-04ROCHA, Fabiano da Guia. Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação. 2013. 80 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2013.https://repositorio.ufscar.br/handle/20.500.14289/534During the last years we have witnessed a significant growing in the amount of data processed in a daily basis by companies, universities, and other institutions. Many use cases report processing of data volumes of petabytes in thousands of cores by a single application. MapReduce is a programming model, and a framework for the execution of applications which manipulate large data volumes in machines composed of thousands of processors/cores. Currently, Hadoop is the most widely adopted free implementation of MapReduce. Although there are reports in the literature about the use of MapReduce applications on platforms with more than one hundred cores, the scalability is not stressed and much remain to be studied in this field. One of the main challenges in the scalability study of MapReduce applications is the large number of configuration parameters of Hadoop. There are reports in the literature that mention more than 190 configuration parameters, 25 of which are known to impact the application performance in a significant way. In this work we study the scalability of MapReduce applications running on Hadoop. Due to the limited number of processors/cores available, we adopted a combined approach involving both experimentation and simulation. The experimentation has been carried out in a local cluster of 32 nodes, and for the simulation we have used MRSG (MapReduce Over SimGrid). In a first set of experiments, we identify the most impacting parameters in the performance and scalability of the applications. Then, we present a method for calibrating the simulator. With the calibrated simulator, we evaluated the scalability of one well-optimized application on larger clusters, with up to 10 thousands of nodes.Durante os últimos anos, houve um significativo crescimento na quantidade de dados processados diariamente por companhias, universidades e outras instituições. Mapreduce é um modelo de programação e um framework para a execução de aplicações que manipulam grandes volumes de dados em máquinas compostas por milhares de processadores ou núcleos. Atualmente, o Hadoop é a implementação como software livre de Mapreduce mais largamente adotada. Embora existam relatos na literatura sobre o uso de aplicações Mapreduce em plataformas com cerca de quatro mil núcleos processando dados da ordem de dezenas de petabytes, o estudo dos limites de escalabilidade não foi esgotado e muito ainda resta a ser estudado. Um dos principais desafios no estudo de escalabilidade de aplicações Mapreduce é o grande número de parâmetros de configuração da aplicação e do ambiente Hadoop. Na literatura há relatos que mencionam mais de 190 parâmetros de configuração, sendo que 25 podem afetar de maneira significativa o desempenho da aplicação. Este trabalho contém um estudo sobre a escalabilidade de aplicações Mapreduce executadas na plataforma Hadoop. Devido ao número limitado de processadores disponíveis, adotou-se uma abordagem que combina experimentação e simulação. A experimentação foi realizada em um cluster local de 32 nós (com 64 processadores), e para a simulação empregou-se o simulador MRSG (MapReduce Over SimGrid). Como principais resultados, foram identificados os parâmetros de maior impacto no desempenho e na escalabilidade das aplicações. Esse resultado foi obtido por meio de simulação. Além disso, apresentou-se um método para a calibração do simulador MRSG, em função de uma aplicação representativa escolhida como benchmark. Com o simulador calibrado, avaliou-se a escalabilidade de uma aplicação bem otimizada. O simulador calibrado permitiu obter uma predição sobre a escalabilidade da aplicação para uma plataforma com até 10 mil nós.application/pdfporUniversidade Federal de São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarBRComputaçãoSistemas multiprocessadosEscalabilidadeModelo mapReduceMapReduceMultiprocessor systemsScalabilityCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOAnálise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis-1-12947c428-30b1-4d14-8369-e5871a4d7accinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINAL5351.pdfapplication/pdf2740873https://repositorio.ufscar.br/bitstreams/310e8925-fcf0-43d1-9d6b-0305fcf2f370/downloade4ce3a33279ffb7afccf2fc418af0f79MD51trueAnonymousREADTEXT5351.pdf.txt5351.pdf.txtExtracted texttext/plain0https://repositorio.ufscar.br/bitstreams/cc5470af-6859-4a9e-9869-3cf2ad4f3743/downloadd41d8cd98f00b204e9800998ecf8427eMD54falseAnonymousREADTHUMBNAIL5351.pdf.jpg5351.pdf.jpgIM Thumbnailimage/jpeg8013https://repositorio.ufscar.br/bitstreams/24436864-8186-4e9f-b13b-d2a0391b9c8a/downloadfe2cddbf5c613229963a6f3a7e74c695MD55falseAnonymousREAD20.500.14289/5342025-02-05 15:06:51.047open.accessoai:repositorio.ufscar.br:20.500.14289/534https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-05T18:06:51Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.por.fl_str_mv |
Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação |
| title |
Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação |
| spellingShingle |
Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação Rocha, Fabiano da Guia Computação Sistemas multiprocessados Escalabilidade Modelo mapReduce MapReduce Multiprocessor systems Scalability CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| title_short |
Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação |
| title_full |
Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação |
| title_fullStr |
Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação |
| title_full_unstemmed |
Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação |
| title_sort |
Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação |
| author |
Rocha, Fabiano da Guia |
| author_facet |
Rocha, Fabiano da Guia |
| author_role |
author |
| dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/6083739451214753 |
| dc.contributor.author.fl_str_mv |
Rocha, Fabiano da Guia |
| dc.contributor.advisor1.fl_str_mv |
Senger, Hermes |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/3691742159298316 |
| dc.contributor.authorID.fl_str_mv |
538086e4-1d1a-4c8f-b112-6aa32a3a68eb |
| contributor_str_mv |
Senger, Hermes |
| dc.subject.por.fl_str_mv |
Computação Sistemas multiprocessados Escalabilidade Modelo mapReduce MapReduce |
| topic |
Computação Sistemas multiprocessados Escalabilidade Modelo mapReduce MapReduce Multiprocessor systems Scalability CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| dc.subject.eng.fl_str_mv |
Multiprocessor systems Scalability |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| description |
During the last years we have witnessed a significant growing in the amount of data processed in a daily basis by companies, universities, and other institutions. Many use cases report processing of data volumes of petabytes in thousands of cores by a single application. MapReduce is a programming model, and a framework for the execution of applications which manipulate large data volumes in machines composed of thousands of processors/cores. Currently, Hadoop is the most widely adopted free implementation of MapReduce. Although there are reports in the literature about the use of MapReduce applications on platforms with more than one hundred cores, the scalability is not stressed and much remain to be studied in this field. One of the main challenges in the scalability study of MapReduce applications is the large number of configuration parameters of Hadoop. There are reports in the literature that mention more than 190 configuration parameters, 25 of which are known to impact the application performance in a significant way. In this work we study the scalability of MapReduce applications running on Hadoop. Due to the limited number of processors/cores available, we adopted a combined approach involving both experimentation and simulation. The experimentation has been carried out in a local cluster of 32 nodes, and for the simulation we have used MRSG (MapReduce Over SimGrid). In a first set of experiments, we identify the most impacting parameters in the performance and scalability of the applications. Then, we present a method for calibrating the simulator. With the calibrated simulator, we evaluated the scalability of one well-optimized application on larger clusters, with up to 10 thousands of nodes. |
| publishDate |
2013 |
| dc.date.available.fl_str_mv |
2013-09-05 2016-06-02T19:06:06Z |
| dc.date.issued.fl_str_mv |
2013-02-04 |
| dc.date.accessioned.fl_str_mv |
2016-06-02T19:06:06Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
ROCHA, Fabiano da Guia. Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação. 2013. 80 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2013. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/20.500.14289/534 |
| identifier_str_mv |
ROCHA, Fabiano da Guia. Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação. 2013. 80 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2013. |
| url |
https://repositorio.ufscar.br/handle/20.500.14289/534 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.confidence.fl_str_mv |
-1 -1 |
| dc.relation.authority.fl_str_mv |
2947c428-30b1-4d14-8369-e5871a4d7acc |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| dc.publisher.country.fl_str_mv |
BR |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/310e8925-fcf0-43d1-9d6b-0305fcf2f370/download https://repositorio.ufscar.br/bitstreams/cc5470af-6859-4a9e-9869-3cf2ad4f3743/download https://repositorio.ufscar.br/bitstreams/24436864-8186-4e9f-b13b-d2a0391b9c8a/download |
| bitstream.checksum.fl_str_mv |
e4ce3a33279ffb7afccf2fc418af0f79 d41d8cd98f00b204e9800998ecf8427e fe2cddbf5c613229963a6f3a7e74c695 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1851688920906989568 |