Arquitetura de configuração dinâmica para a técnica de checkpoint em frameworks de processamento distribuído

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Cardoso, Paulo Vinicius Mendonça
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
dARK ID: ark:/26339/001300000gjdn
Idioma: por
Instituição de defesa: Universidade Federal de Santa Maria
Brasil
Ciência da Computação
UFSM
Programa de Pós-Graduação em Ciência da Computação
Centro de Tecnologia
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.ufsm.br/handle/1/19346
Resumo: Processing data on High-Performance Computing (HPC) systems is a communal assignment due to large amounts of information being generated. However, reliability and performance problems are created as these systems complexity is increasing. Thus, the search for fault tolerance techniques is important in this context. The Checkpoint and Recovery (CR) fault tolerance technique is widely used for failure recovery based on system stable states that were previously saved. On Apache Hadoop and Apache Spark – distributing and high-performance frameworks –, checkpoint helps on recovery steps after failure events. But checkpoint attribute configuration on both frameworks is static because it depends on the system developer’s choices. Also, changes in real-time are not allowed. In this way, inappropriate choices may harm the system’s reliability and/or performance. Therefore, this work presents a solution for dynamic configurations for the checkpoint technique on Hadoop and Spark. The purpose is described by the Dynamic Configuration Architecture (DCA) that works with monitoring metrics definitions. The main goal of DCA is to provide real-time adaptations of checkpoint attributes according to the necessity of the framework. Besides the architecture definition, validations were performed on controlled failure scenarios to measure DCA efficiency. Obtained results show that dynamically configured checkpoint techniques reached a balance between performance and reliability (based on recovery time) in most of the tested scenarios. With no failures, executions with DCA did not experience high intrusiveness, as failure scenarios were controlled with fast recovery. Besides, DCA shows a great advantage with the possibility of Spark checkpoint savings even source code parts that are inaccessible from developers. In future works, DCA optimizations will be developed and validated. Monitoring metrics will be improved, as well as the DCA elements. With these optimizations, more accurate validations with several failures and workload scenarios will be performed so the DCA performance can be completely measured.
id UFSM_a1150954ca602b44f27c134d02576765
oai_identifier_str oai:repositorio.ufsm.br:1/19346
network_acronym_str UFSM
network_name_str Manancial - Repositório Digital da UFSM
repository_id_str
spelling Arquitetura de configuração dinâmica para a técnica de checkpoint em frameworks de processamento distribuídoDynamic configuration architecture for checkpoint technique on distributed processing frameworksTolerância a falhasCheckpoint and recoveryConfiguração dinâmicaHadoopSparkMonitoramentoFault toleranceDynamic configurationMonitoringCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOProcessing data on High-Performance Computing (HPC) systems is a communal assignment due to large amounts of information being generated. However, reliability and performance problems are created as these systems complexity is increasing. Thus, the search for fault tolerance techniques is important in this context. The Checkpoint and Recovery (CR) fault tolerance technique is widely used for failure recovery based on system stable states that were previously saved. On Apache Hadoop and Apache Spark – distributing and high-performance frameworks –, checkpoint helps on recovery steps after failure events. But checkpoint attribute configuration on both frameworks is static because it depends on the system developer’s choices. Also, changes in real-time are not allowed. In this way, inappropriate choices may harm the system’s reliability and/or performance. Therefore, this work presents a solution for dynamic configurations for the checkpoint technique on Hadoop and Spark. The purpose is described by the Dynamic Configuration Architecture (DCA) that works with monitoring metrics definitions. The main goal of DCA is to provide real-time adaptations of checkpoint attributes according to the necessity of the framework. Besides the architecture definition, validations were performed on controlled failure scenarios to measure DCA efficiency. Obtained results show that dynamically configured checkpoint techniques reached a balance between performance and reliability (based on recovery time) in most of the tested scenarios. With no failures, executions with DCA did not experience high intrusiveness, as failure scenarios were controlled with fast recovery. Besides, DCA shows a great advantage with the possibility of Spark checkpoint savings even source code parts that are inaccessible from developers. In future works, DCA optimizations will be developed and validated. Monitoring metrics will be improved, as well as the DCA elements. With these optimizations, more accurate validations with several failures and workload scenarios will be performed so the DCA performance can be completely measured.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESO processamento de dados em sistemas computacionais de alto desempenho tornouse uma tarefa comum dada a grande quantidade de informação gerada atualmente. Conforme a complexidade desses sistemas aumenta, criam-se problemas de confiabilidade e disponibilidade a partir da iminente presença de falhas. Esses fatores motivam a busca por mecanismos de tolerância a falhas para sistemas computacionais. Uma alternativa eficiente é a técnica de Checkpoint and Recovery (CR), que busca auxiliar na recuperação pós-falha de um sistema a partir de pontos de verificação previamente salvos. No Apache Hadoop e no Apache Spark – frameworks para processamento distribuído de alto desempenho –, o checkpoint auxilia em operações de recuperação nos cenários de falha. Porém, a configuração de atributos de checkpoint em ambas as ferramentas é estática, de modo que o comportamento da técnica depende de escolhas do desenvolvedor e mudanças em tempo de execução são limitadas. Ou seja, escolhas inapropriadas podem degradar o desempenho e a confiabilidade do sistema. Portanto, este trabalho apresenta uma solução de configuração dinâmica para a técnica de checkpoint do Hadoop e do Spark, baseada em um monitoramento de recursos. A proposta é descrita pela arquitetura de configuração dinâmica (Dynamic Configuration Architecture, ou DCA), que trabalha partir da definição de métricas de monitoramento. O objetivo da arquitetura é adaptar, em tempo real, os atributos de checkpoint de forma eficiente, de acordo com as necessidades dos frameworks. Sendo assim, experimentações com e sem falha nos frameworks Hadoop e Spark foram executadas a fim de validar a DCA com análises de desempenho e de recuperação. Os resultados mostram que as técnicas de checkpoint dinamicamente configuradas pela DCA alcançaram um equilíbrio de desempenho nos cenários de teste. Enquanto execuções sem falhas não geraram uma alta intrusividade, os cenários de falha foram controlados de forma eficiente na maioria dos testes. Além disso, a DCA mostrou uma grande vantagem ao possibilitar o estabelecimento de checkpoints em trechos de código indisponíveis ao usuário no Spark. Em trabalhos futuros, otimizações da arquitetura serão desenvolvidos com o refinamento das métricas de monitoramento. Além disso, validações mais completas deverão ser realizadas para um melhor estudo de todos os componentes envolvidos na elaboração da DCA.Universidade Federal de Santa MariaBrasilCiência da ComputaçãoUFSMPrograma de Pós-Graduação em Ciência da ComputaçãoCentro de TecnologiaBarcelos, Patrícia Pitthan de Araújohttp://lattes.cnpq.br/6069105173950277Stein, Benhur de Oliveirahttp://lattes.cnpq.br/4640320476003795Steffenel, Luiz AngeloCardoso, Paulo Vinicius Mendonça2020-01-09T15:07:05Z2020-01-09T15:07:05Z2019-08-05info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://repositorio.ufsm.br/handle/1/19346ark:/26339/001300000gjdnporAttribution-NonCommercial-NoDerivatives 4.0 Internationalinfo:eu-repo/semantics/openAccessreponame:Manancial - Repositório Digital da UFSMinstname:Universidade Federal de Santa Maria (UFSM)instacron:UFSM2022-07-05T14:42:08Zoai:repositorio.ufsm.br:1/19346Biblioteca Digital de Teses e Dissertaçõeshttps://repositorio.ufsm.br/PUBhttps://repositorio.ufsm.br/oai/requestatendimento.sib@ufsm.br||tedebc@gmail.com||manancial@ufsm.bropendoar:2022-07-05T14:42:08Manancial - Repositório Digital da UFSM - Universidade Federal de Santa Maria (UFSM)false
dc.title.none.fl_str_mv Arquitetura de configuração dinâmica para a técnica de checkpoint em frameworks de processamento distribuído
Dynamic configuration architecture for checkpoint technique on distributed processing frameworks
title Arquitetura de configuração dinâmica para a técnica de checkpoint em frameworks de processamento distribuído
spellingShingle Arquitetura de configuração dinâmica para a técnica de checkpoint em frameworks de processamento distribuído
Cardoso, Paulo Vinicius Mendonça
Tolerância a falhas
Checkpoint and recovery
Configuração dinâmica
Hadoop
Spark
Monitoramento
Fault tolerance
Dynamic configuration
Monitoring
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Arquitetura de configuração dinâmica para a técnica de checkpoint em frameworks de processamento distribuído
title_full Arquitetura de configuração dinâmica para a técnica de checkpoint em frameworks de processamento distribuído
title_fullStr Arquitetura de configuração dinâmica para a técnica de checkpoint em frameworks de processamento distribuído
title_full_unstemmed Arquitetura de configuração dinâmica para a técnica de checkpoint em frameworks de processamento distribuído
title_sort Arquitetura de configuração dinâmica para a técnica de checkpoint em frameworks de processamento distribuído
author Cardoso, Paulo Vinicius Mendonça
author_facet Cardoso, Paulo Vinicius Mendonça
author_role author
dc.contributor.none.fl_str_mv Barcelos, Patrícia Pitthan de Araújo
http://lattes.cnpq.br/6069105173950277
Stein, Benhur de Oliveira
http://lattes.cnpq.br/4640320476003795
Steffenel, Luiz Angelo

dc.contributor.author.fl_str_mv Cardoso, Paulo Vinicius Mendonça
dc.subject.por.fl_str_mv Tolerância a falhas
Checkpoint and recovery
Configuração dinâmica
Hadoop
Spark
Monitoramento
Fault tolerance
Dynamic configuration
Monitoring
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic Tolerância a falhas
Checkpoint and recovery
Configuração dinâmica
Hadoop
Spark
Monitoramento
Fault tolerance
Dynamic configuration
Monitoring
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Processing data on High-Performance Computing (HPC) systems is a communal assignment due to large amounts of information being generated. However, reliability and performance problems are created as these systems complexity is increasing. Thus, the search for fault tolerance techniques is important in this context. The Checkpoint and Recovery (CR) fault tolerance technique is widely used for failure recovery based on system stable states that were previously saved. On Apache Hadoop and Apache Spark – distributing and high-performance frameworks –, checkpoint helps on recovery steps after failure events. But checkpoint attribute configuration on both frameworks is static because it depends on the system developer’s choices. Also, changes in real-time are not allowed. In this way, inappropriate choices may harm the system’s reliability and/or performance. Therefore, this work presents a solution for dynamic configurations for the checkpoint technique on Hadoop and Spark. The purpose is described by the Dynamic Configuration Architecture (DCA) that works with monitoring metrics definitions. The main goal of DCA is to provide real-time adaptations of checkpoint attributes according to the necessity of the framework. Besides the architecture definition, validations were performed on controlled failure scenarios to measure DCA efficiency. Obtained results show that dynamically configured checkpoint techniques reached a balance between performance and reliability (based on recovery time) in most of the tested scenarios. With no failures, executions with DCA did not experience high intrusiveness, as failure scenarios were controlled with fast recovery. Besides, DCA shows a great advantage with the possibility of Spark checkpoint savings even source code parts that are inaccessible from developers. In future works, DCA optimizations will be developed and validated. Monitoring metrics will be improved, as well as the DCA elements. With these optimizations, more accurate validations with several failures and workload scenarios will be performed so the DCA performance can be completely measured.
publishDate 2019
dc.date.none.fl_str_mv 2019-08-05
2020-01-09T15:07:05Z
2020-01-09T15:07:05Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://repositorio.ufsm.br/handle/1/19346
dc.identifier.dark.fl_str_mv ark:/26339/001300000gjdn
url http://repositorio.ufsm.br/handle/1/19346
identifier_str_mv ark:/26339/001300000gjdn
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Santa Maria
Brasil
Ciência da Computação
UFSM
Programa de Pós-Graduação em Ciência da Computação
Centro de Tecnologia
publisher.none.fl_str_mv Universidade Federal de Santa Maria
Brasil
Ciência da Computação
UFSM
Programa de Pós-Graduação em Ciência da Computação
Centro de Tecnologia
dc.source.none.fl_str_mv reponame:Manancial - Repositório Digital da UFSM
instname:Universidade Federal de Santa Maria (UFSM)
instacron:UFSM
instname_str Universidade Federal de Santa Maria (UFSM)
instacron_str UFSM
institution UFSM
reponame_str Manancial - Repositório Digital da UFSM
collection Manancial - Repositório Digital da UFSM
repository.name.fl_str_mv Manancial - Repositório Digital da UFSM - Universidade Federal de Santa Maria (UFSM)
repository.mail.fl_str_mv atendimento.sib@ufsm.br||tedebc@gmail.com||manancial@ufsm.br
_version_ 1847153308409528320