Configurando o Hadoop através de um processo empírico flexível.

Detalhes bibliográficos
Ano de defesa: 2012
Autor(a) principal: SARMENTO NETO, Geraldo Abrantes. lattes
Orientador(a): CAMPOS, Lívia Maria Rodrigues Sampaio. lattes, LOPES, Raquel Vigolvino. lattes
Banca de defesa: BRITO, Andrey Elísio Monteiro., DUARTE, Alexandre Nobrega.
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Campina Grande
Programa de Pós-Graduação: PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
Departamento: Centro de Engenharia Elétrica e Informática - CEEI
País: Brasil
Palavras-chave em Português:
Link de acesso: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/11347
Resumo: A geração de grandes volumes de dados, também conhecidos com Big Data, vem se tornando muito comum em ambientes acadêmicos e corporativos. Nesse contexto, e essencial que as aplicações que processam Big Data explorem da melhor forma possível as infraestruturas distribuídas de alto desempenho (como clusters), possivelmente presentes nesses ambientes, através da implantação dessas aplicações sobre sistemas de computação intensiva de dados tais como o popular Hadoop. No que diz respeito a configuração desta plataforma, observa-se uma quantidade considerável de parâmetros que devem ser ajustados e os quais os usuários normalmente não tem noção de como faze-los, resultando em um Hadoop mal configurado e com um desempenho aquém do seu real potencial. Este trabalho propõe um processo para auxiliar a configuração eficiente do Hadoop através do uso de técnicas empíricas que utilizam subespaços de parâmetros dessa plataforma, e da aplicação de analises estatísticas para verificar a relevância dos mesmos, extraindo os valores otimizados em função do subespaço de parâmetros considerado. Visando instanciar o processo, foi realizado um estudo de caso de forma a obter uma configuração com impacto positivo sobre o tempo de resposta de uma aplica^ao representativa para esse contexto. A validação foi feita através de uma compara§ao do processo proposto com soluções existentes na qual foi possível observar que o processo teve uma significativa vantagem, levando em consideração o mesmo ambiente e workload utilizados na etapa de instanciação. Apesar do tempo médio de conclusão do processo ter sido maior que o das outras soluções, foram levantados cenários em que o uso do processo proposto e mais vantajoso (e possivelmente mais viável) que o uso das outras soluções. Isso ocorre devido a sua flexibilidade, uma vez que ele não apresenta restrições quanto ao subespaço de parâmetros selecionado e métricas possíveis de serem analisadas.
id UFCG_be83e648eb2f2f8b9f03a22d3f757df2
oai_identifier_str oai:localhost:riufcg/11347
network_acronym_str UFCG
network_name_str Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str
spelling CAMPOS, Lívia Maria Rodrigues Sampaio.LOPES, Raquel Vigolvino.CAMPOS, L. M. R. S.LOPES, R. V.http://lattes.cnpq.br/4584896935221260http://lattes.cnpq.br/0577503698179302BRITO, Andrey Elísio Monteiro.DUARTE, Alexandre Nobrega.SARMENTO NETO, G. A.http://lattes.cnpq.br/1872447954071124SARMENTO NETO, Geraldo Abrantes.A geração de grandes volumes de dados, também conhecidos com Big Data, vem se tornando muito comum em ambientes acadêmicos e corporativos. Nesse contexto, e essencial que as aplicações que processam Big Data explorem da melhor forma possível as infraestruturas distribuídas de alto desempenho (como clusters), possivelmente presentes nesses ambientes, através da implantação dessas aplicações sobre sistemas de computação intensiva de dados tais como o popular Hadoop. No que diz respeito a configuração desta plataforma, observa-se uma quantidade considerável de parâmetros que devem ser ajustados e os quais os usuários normalmente não tem noção de como faze-los, resultando em um Hadoop mal configurado e com um desempenho aquém do seu real potencial. Este trabalho propõe um processo para auxiliar a configuração eficiente do Hadoop através do uso de técnicas empíricas que utilizam subespaços de parâmetros dessa plataforma, e da aplicação de analises estatísticas para verificar a relevância dos mesmos, extraindo os valores otimizados em função do subespaço de parâmetros considerado. Visando instanciar o processo, foi realizado um estudo de caso de forma a obter uma configuração com impacto positivo sobre o tempo de resposta de uma aplica^ao representativa para esse contexto. A validação foi feita através de uma compara§ao do processo proposto com soluções existentes na qual foi possível observar que o processo teve uma significativa vantagem, levando em consideração o mesmo ambiente e workload utilizados na etapa de instanciação. Apesar do tempo médio de conclusão do processo ter sido maior que o das outras soluções, foram levantados cenários em que o uso do processo proposto e mais vantajoso (e possivelmente mais viável) que o uso das outras soluções. Isso ocorre devido a sua flexibilidade, uma vez que ele não apresenta restrições quanto ao subespaço de parâmetros selecionado e métricas possíveis de serem analisadas.The generation of large amounts of data, also known as Big Data, is becoming very common both in the academy and in the enterprises environments. In that context, it is essential that applications responsible for processing Big Data exploit high-performance distributed infrastructures (such as cluster), commonly present in those environments, through the deploying of such applications on data-intensive scalable supercomputing (DISC) systems such as the popular Hadoop. Regarding the configuration of that platform, there is a considerable amount of parameters to be adjusted by users who do not know how to set them, resulting in a Hadoop poorly configured and performing below of its real potential. This work proposes a process to help in Hadoop efficient configuration by using empirical techniques to analyze subspaces of parameters of this platform, and the application of statistical foundations to verify the relevance of such parameters, obtaining the optimized values according to the subspace of parameters considered. Aiming the process instantiation, we performed a case study in order to obtain proper settings with a positive impact on the response time of a representative application in this context. The validation was performed through a comparison between the proposed process and some existing solutions in which we observed that the former had a significant advantage regarding same environment and workload used in the instantiation stage. Although the average completion time of the process has been higher than the other solutions, we presented scenarios which the use of the proposed process is more advantageous (and feasible) than the use of other solutions. This happens due to its flexibility, since it has no constraints on the subspace of selected parameters and metrics possible to be analyzed.Submitted by Ruth Quaresma de Freitas (ruth_quaresma@hotmail.com) on 2020-01-29T18:28:12Z No. of bitstreams: 1 GERALDO ABRANTES SARMENTO NETO - DISSERTAÇÃO PPGCC 2012.pdf: 11735706 bytes, checksum: 38c054998855aec6f5c793ac0dcb8140 (MD5)Made available in DSpace on 2020-01-29T18:28:12Z (GMT). No. of bitstreams: 1 GERALDO ABRANTES SARMENTO NETO - DISSERTAÇÃO PPGCC 2012.pdf: 11735706 bytes, checksum: 38c054998855aec6f5c793ac0dcb8140 (MD5) Previous issue date: 2012-04-23Universidade Federal de Campina GrandePÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGBrasilCentro de Engenharia Elétrica e Informática - CEEIConfigurando o Hadoop através de um processo empírico flexível.Configuring Hadoop through a flexible empirical process.2012-04-232020-01-29T18:28:12Z2020-01-292020-01-29T18:28:12Zhttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/11347SARMENTO NETO, Geraldo Abrantes. Configurando o Hadoop através de um processo empírico flexível. 95f. (Dissertação) Mestrado em Ciência da Computação, Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Campina Grande - Paraíba - Brasil, 2012. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/11347info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisMapReduceHadoopConfiguraçãoEficiênciaBig DataClustersConfigurationEfficiencyporinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCGORIGINALGERALDO ABRANTES SARMENTO NETO - DISSERTAÇÃO PPGCC 2012.pdfGERALDO ABRANTES SARMENTO NETO - DISSERTAÇÃO PPGCC 2012.pdfapplication/pdf12264342http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/11347/3/GERALDO+ABRANTES+SARMENTO+NETO+-+DISSERTA%C3%87%C3%83O+PPGCC+2012.pdf5feaaff4037413031ebb443814e9386dMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/11347/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52riufcg/113472022-03-21 11:16:17.857oai:localhost:riufcg/11347Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512022-03-21T14:16:17Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.pt_BR.fl_str_mv Configurando o Hadoop através de um processo empírico flexível.
dc.title.alternative.pt_BR.fl_str_mv Configuring Hadoop through a flexible empirical process.
title Configurando o Hadoop através de um processo empírico flexível.
spellingShingle Configurando o Hadoop através de um processo empírico flexível.
SARMENTO NETO, Geraldo Abrantes.
MapReduce
Hadoop
Configuração
Eficiência
Big Data
Clusters
Configuration
Efficiency
title_short Configurando o Hadoop através de um processo empírico flexível.
title_full Configurando o Hadoop através de um processo empírico flexível.
title_fullStr Configurando o Hadoop através de um processo empírico flexível.
title_full_unstemmed Configurando o Hadoop através de um processo empírico flexível.
title_sort Configurando o Hadoop através de um processo empírico flexível.
author SARMENTO NETO, Geraldo Abrantes.
author_facet SARMENTO NETO, Geraldo Abrantes.
author_role author
dc.contributor.advisor1.fl_str_mv CAMPOS, Lívia Maria Rodrigues Sampaio.
LOPES, Raquel Vigolvino.
dc.contributor.advisor1ID.fl_str_mv CAMPOS, L. M. R. S.
LOPES, R. V.
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/4584896935221260
http://lattes.cnpq.br/0577503698179302
dc.contributor.referee1.fl_str_mv BRITO, Andrey Elísio Monteiro.
dc.contributor.referee2.fl_str_mv DUARTE, Alexandre Nobrega.
dc.contributor.authorID.fl_str_mv SARMENTO NETO, G. A.
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/1872447954071124
dc.contributor.author.fl_str_mv SARMENTO NETO, Geraldo Abrantes.
contributor_str_mv CAMPOS, Lívia Maria Rodrigues Sampaio.
LOPES, Raquel Vigolvino.
BRITO, Andrey Elísio Monteiro.
DUARTE, Alexandre Nobrega.
dc.subject.por.fl_str_mv MapReduce
Hadoop
Configuração
Eficiência
Big Data
Clusters
Configuration
Efficiency
topic MapReduce
Hadoop
Configuração
Eficiência
Big Data
Clusters
Configuration
Efficiency
description A geração de grandes volumes de dados, também conhecidos com Big Data, vem se tornando muito comum em ambientes acadêmicos e corporativos. Nesse contexto, e essencial que as aplicações que processam Big Data explorem da melhor forma possível as infraestruturas distribuídas de alto desempenho (como clusters), possivelmente presentes nesses ambientes, através da implantação dessas aplicações sobre sistemas de computação intensiva de dados tais como o popular Hadoop. No que diz respeito a configuração desta plataforma, observa-se uma quantidade considerável de parâmetros que devem ser ajustados e os quais os usuários normalmente não tem noção de como faze-los, resultando em um Hadoop mal configurado e com um desempenho aquém do seu real potencial. Este trabalho propõe um processo para auxiliar a configuração eficiente do Hadoop através do uso de técnicas empíricas que utilizam subespaços de parâmetros dessa plataforma, e da aplicação de analises estatísticas para verificar a relevância dos mesmos, extraindo os valores otimizados em função do subespaço de parâmetros considerado. Visando instanciar o processo, foi realizado um estudo de caso de forma a obter uma configuração com impacto positivo sobre o tempo de resposta de uma aplica^ao representativa para esse contexto. A validação foi feita através de uma compara§ao do processo proposto com soluções existentes na qual foi possível observar que o processo teve uma significativa vantagem, levando em consideração o mesmo ambiente e workload utilizados na etapa de instanciação. Apesar do tempo médio de conclusão do processo ter sido maior que o das outras soluções, foram levantados cenários em que o uso do processo proposto e mais vantajoso (e possivelmente mais viável) que o uso das outras soluções. Isso ocorre devido a sua flexibilidade, uma vez que ele não apresenta restrições quanto ao subespaço de parâmetros selecionado e métricas possíveis de serem analisadas.
publishDate 2012
dc.date.issued.fl_str_mv 2012-04-23
dc.date.accessioned.fl_str_mv 2020-01-29T18:28:12Z
dc.date.available.fl_str_mv 2020-01-29
2020-01-29T18:28:12Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/11347
dc.identifier.citation.fl_str_mv SARMENTO NETO, Geraldo Abrantes. Configurando o Hadoop através de um processo empírico flexível. 95f. (Dissertação) Mestrado em Ciência da Computação, Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Campina Grande - Paraíba - Brasil, 2012. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/11347
url http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/11347
identifier_str_mv SARMENTO NETO, Geraldo Abrantes. Configurando o Hadoop através de um processo empírico flexível. 95f. (Dissertação) Mestrado em Ciência da Computação, Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Campina Grande - Paraíba - Brasil, 2012. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/11347
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Campina Grande
dc.publisher.program.fl_str_mv PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
dc.publisher.initials.fl_str_mv UFCG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Centro de Engenharia Elétrica e Informática - CEEI
publisher.none.fl_str_mv Universidade Federal de Campina Grande
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFCG
instname:Universidade Federal de Campina Grande (UFCG)
instacron:UFCG
instname_str Universidade Federal de Campina Grande (UFCG)
instacron_str UFCG
institution UFCG
reponame_str Biblioteca Digital de Teses e Dissertações da UFCG
collection Biblioteca Digital de Teses e Dissertações da UFCG
bitstream.url.fl_str_mv http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/11347/3/GERALDO+ABRANTES+SARMENTO+NETO+-+DISSERTA%C3%87%C3%83O+PPGCC+2012.pdf
http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/11347/2/license.txt
bitstream.checksum.fl_str_mv 5feaaff4037413031ebb443814e9386d
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br
_version_ 1799309479044448256