Reliability evaluation of low-power embedded devices under radiation

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Bodmann, Pablo Rafael
Orientador(a): Carro, Luigi
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/291500
Resumo: Garantir a confiabilidade é uma preocupação primordial em vários setores, desde aplica- ções de consumo até campos altamente especializados, como automotivo, militar, aeroespacial e computação de alto desempenho (HPC). As arquiteturas de CPU Arm, graças à sua eficiência e flexibilidade, foram amplamente adotadas em dispositivos portáteis de usuários, como smartphones, tablets e laptops. A confiabilidade de erro suave dos microprocessadores pode ser estimada pré-silício usando modelos de design iniciais (chamados de modelos de desempenho ou microarquiteturais) e pós-silício por testes de feixe acelerado em chips fabricados. Este trabalho compara a injeção de falhas microarquitetônicas com experimentos de feixe de nêutrons. Ao comparar esses dois métodos de avaliação de confiabilidade, é relatado que a microarquitetura parece prever a taxa de erro em dispositivos autônomos com precisão. Em dispositivos integrados em um sistema em um chip (SoC), apenas a taxa de erro SDC pode ser estimada com precisão. Além disso, não apenas a estimativa da confiabilidade do hardware é crítica, mas também o software em execução nele. Com isso em mente, outra comparação com a injeção de falhas de software é feita. É mostrado que, em combinação com métricas de hardware e software, a estimativa fornecida pela injeção de falhas de software pode ser da mesma ordem de magnitude que a relatada com experimentos de feixe de nêutrons. Com o aumento da automação, não há apenas uma preocupação de segurança com a CPU, mas também com o aplicativo em execução em um respectivo dispositivo. Como o aplicativo usado para executar as tarefas automatizadas se tornou mais complexo, novas arquiteturas de software e hardware surgiram no mercado. Para lidar com a complexidade da tarefa, o uso de Redes Neurais Profundas (DNN) está aumentando visivelmente. Existem vários tipos de DNNs, um dos mais usados é a Rede Neural Convolucional (CNN). Vários novos conceitos de redes neurais surgiram, como aprendizado de conjunto, transformadores e aprendizado por reforço. Dado o alto poder computacional exigido por algumas DNNs, para atender aos requisitos de tempo real (conforme necessário em veí- culos autônomos), é necessário executar DNNs em Unidades de Processamento Gráfico (GPUs) que consomem muita energia. No entanto, para algumas tarefas específicas em aplicações de usuário, empregar um dispositivo de alta potência não seria necessário ouseria até mesmo inviável. Este trabalho avança o conhecimento sobre as Unidades de Processamento Tensor (TPU) do Google investigando sua sensibilidade a nêutrons e íons pesados em vários tipos de arquiteturas DNN. Além disso, o trabalho feito com a CNN também investiga o impacto da temperatura na taxa de erro da CNN em execução no TPU Coral. Além da CNN típica, outras arquiteturas e conceitos são testados. As arquiteturas e estratégias avaliadas são aprendizado de conjunto, transformadores e aprendizado por reforço. Além disso, uma nova estratégia de redundância dual-modular para aprendizado por reforço é proposta, onde alguns dos erros são corrigidos usando dados experimentais de testes de radiação.
id URGS_7af13d8ef7dae8717a3511ee88219740
oai_identifier_str oai:www.lume.ufrgs.br:10183/291500
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Bodmann, Pablo RafaelCarro, LuigiRech, Paolo2025-05-10T06:56:39Z2024http://hdl.handle.net/10183/291500001256464Garantir a confiabilidade é uma preocupação primordial em vários setores, desde aplica- ções de consumo até campos altamente especializados, como automotivo, militar, aeroespacial e computação de alto desempenho (HPC). As arquiteturas de CPU Arm, graças à sua eficiência e flexibilidade, foram amplamente adotadas em dispositivos portáteis de usuários, como smartphones, tablets e laptops. A confiabilidade de erro suave dos microprocessadores pode ser estimada pré-silício usando modelos de design iniciais (chamados de modelos de desempenho ou microarquiteturais) e pós-silício por testes de feixe acelerado em chips fabricados. Este trabalho compara a injeção de falhas microarquitetônicas com experimentos de feixe de nêutrons. Ao comparar esses dois métodos de avaliação de confiabilidade, é relatado que a microarquitetura parece prever a taxa de erro em dispositivos autônomos com precisão. Em dispositivos integrados em um sistema em um chip (SoC), apenas a taxa de erro SDC pode ser estimada com precisão. Além disso, não apenas a estimativa da confiabilidade do hardware é crítica, mas também o software em execução nele. Com isso em mente, outra comparação com a injeção de falhas de software é feita. É mostrado que, em combinação com métricas de hardware e software, a estimativa fornecida pela injeção de falhas de software pode ser da mesma ordem de magnitude que a relatada com experimentos de feixe de nêutrons. Com o aumento da automação, não há apenas uma preocupação de segurança com a CPU, mas também com o aplicativo em execução em um respectivo dispositivo. Como o aplicativo usado para executar as tarefas automatizadas se tornou mais complexo, novas arquiteturas de software e hardware surgiram no mercado. Para lidar com a complexidade da tarefa, o uso de Redes Neurais Profundas (DNN) está aumentando visivelmente. Existem vários tipos de DNNs, um dos mais usados é a Rede Neural Convolucional (CNN). Vários novos conceitos de redes neurais surgiram, como aprendizado de conjunto, transformadores e aprendizado por reforço. Dado o alto poder computacional exigido por algumas DNNs, para atender aos requisitos de tempo real (conforme necessário em veí- culos autônomos), é necessário executar DNNs em Unidades de Processamento Gráfico (GPUs) que consomem muita energia. No entanto, para algumas tarefas específicas em aplicações de usuário, empregar um dispositivo de alta potência não seria necessário ouseria até mesmo inviável. Este trabalho avança o conhecimento sobre as Unidades de Processamento Tensor (TPU) do Google investigando sua sensibilidade a nêutrons e íons pesados em vários tipos de arquiteturas DNN. Além disso, o trabalho feito com a CNN também investiga o impacto da temperatura na taxa de erro da CNN em execução no TPU Coral. Além da CNN típica, outras arquiteturas e conceitos são testados. As arquiteturas e estratégias avaliadas são aprendizado de conjunto, transformadores e aprendizado por reforço. Além disso, uma nova estratégia de redundância dual-modular para aprendizado por reforço é proposta, onde alguns dos erros são corrigidos usando dados experimentais de testes de radiação.Ensuring reliability is a paramount concern across various industries, from consumer applications to highly specialized fields such as automotive, military, aerospace, and HighPerformance Computing (HPC). Arm CPU architectures, thanks to their efficiency and flexibility, have been widely adopted in portable user devices such as smartphones, tablets, and laptops. Microprocessors’ soft error reliability can be estimated pre-silicon using early design models (called performance or microarchitectural models) and post-silicon by accelerated beam testing on manufactured chips. This work compares microarchitectural fault injection with neutron beam experiments. When comparing these two reliability evaluation methods, it is reported that microarchitectural seems to predict the error rate on standalone devices accurately. On devices integrated into a system-on-chip (SoC) only the SDC error rate can be estimated accurately. Moreover, not only the estimation of the hardware’s reliability is critical but also the software running on it. With this in mind, another comparison with software fault injection is made. It is shown that in combination with hardware and software metrics, the estimation provided by the software fault injection can be in the same order of magnitude as the one reported with neutron beam experiments. With the increases in automation, there is not only a safety concern with the CPU but also with the application running over a respective device. Since the application used to run the automated tasks has become more complex, new software and hardware architectures have appeared on the market. In order to deal with the complexity of the task, the use of Deep Neural Networks (DNN) is visibly increasing. There are several types of DNNs, one which is most used is the Convolutional Neural Network (CNN). Several new concepts of neural networks have appeared such as ensemble learning, transformers, and reinforcement learning. Given the high computational power required by some DNNs, to meet real-time requirements (as needed in autonomous vehicles) it is necessary to execute DNNs on power-hungry Graphics Processing Units (GPUs). However, for some specific tasks in user applications, employing a high-power device would not be necessary or would even be unfeasible. This work advances knowledge about Google Tensor Processing Units (TPU) by investigating their sensitivity to neutrons and heavy ions on several types of DNN architectures. Moreover, the work done with CNN also investigates the impact of the temperature on the error rate of CNN running on the Coral TPU. Besides the typical CNN, other architectures and concepts are tested. The architecturesand strategies evaluated are ensemble learning, transformers, and reinforcement learning. Also, a new Dual-modular redundancy strategy for reinforcement learning is proposed where some of the errors are corrected using experimental data from radiation testing.application/pdfengSistemas embarcadosConfiabilidade : SistemasRede neural convolucionalUnidades de processamento gráficoAprendizado por reforçoSoft errorsFailures-in-timeNeutron beamCoral TPUReliability evaluation of low-power embedded devices under radiationAvaliação de confiabilidade de dispositivos embarcados de baixo consumo sob radiação info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2024doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001256464.pdf.txt001256464.pdf.txtExtracted Texttext/plain245110http://www.lume.ufrgs.br/bitstream/10183/291500/2/001256464.pdf.txte521d7b0e5f89f4afe8cc18e7875cbdcMD52ORIGINAL001256464.pdfTexto completo (inglês)application/pdf5902706http://www.lume.ufrgs.br/bitstream/10183/291500/1/001256464.pdf6ff93d0afcab3337723329a5d03dac74MD5110183/2915002025-05-11 06:40:24.993522oai:www.lume.ufrgs.br:10183/291500Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br || lume@ufrgs.bropendoar:18532025-05-11T09:40:24Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Reliability evaluation of low-power embedded devices under radiation
dc.title.alternative.pt.fl_str_mv Avaliação de confiabilidade de dispositivos embarcados de baixo consumo sob radiação
title Reliability evaluation of low-power embedded devices under radiation
spellingShingle Reliability evaluation of low-power embedded devices under radiation
Bodmann, Pablo Rafael
Sistemas embarcados
Confiabilidade : Sistemas
Rede neural convolucional
Unidades de processamento gráfico
Aprendizado por reforço
Soft errors
Failures-in-time
Neutron beam
Coral TPU
title_short Reliability evaluation of low-power embedded devices under radiation
title_full Reliability evaluation of low-power embedded devices under radiation
title_fullStr Reliability evaluation of low-power embedded devices under radiation
title_full_unstemmed Reliability evaluation of low-power embedded devices under radiation
title_sort Reliability evaluation of low-power embedded devices under radiation
author Bodmann, Pablo Rafael
author_facet Bodmann, Pablo Rafael
author_role author
dc.contributor.author.fl_str_mv Bodmann, Pablo Rafael
dc.contributor.advisor1.fl_str_mv Carro, Luigi
dc.contributor.advisor-co1.fl_str_mv Rech, Paolo
contributor_str_mv Carro, Luigi
Rech, Paolo
dc.subject.por.fl_str_mv Sistemas embarcados
Confiabilidade : Sistemas
Rede neural convolucional
Unidades de processamento gráfico
Aprendizado por reforço
topic Sistemas embarcados
Confiabilidade : Sistemas
Rede neural convolucional
Unidades de processamento gráfico
Aprendizado por reforço
Soft errors
Failures-in-time
Neutron beam
Coral TPU
dc.subject.eng.fl_str_mv Soft errors
Failures-in-time
Neutron beam
Coral TPU
description Garantir a confiabilidade é uma preocupação primordial em vários setores, desde aplica- ções de consumo até campos altamente especializados, como automotivo, militar, aeroespacial e computação de alto desempenho (HPC). As arquiteturas de CPU Arm, graças à sua eficiência e flexibilidade, foram amplamente adotadas em dispositivos portáteis de usuários, como smartphones, tablets e laptops. A confiabilidade de erro suave dos microprocessadores pode ser estimada pré-silício usando modelos de design iniciais (chamados de modelos de desempenho ou microarquiteturais) e pós-silício por testes de feixe acelerado em chips fabricados. Este trabalho compara a injeção de falhas microarquitetônicas com experimentos de feixe de nêutrons. Ao comparar esses dois métodos de avaliação de confiabilidade, é relatado que a microarquitetura parece prever a taxa de erro em dispositivos autônomos com precisão. Em dispositivos integrados em um sistema em um chip (SoC), apenas a taxa de erro SDC pode ser estimada com precisão. Além disso, não apenas a estimativa da confiabilidade do hardware é crítica, mas também o software em execução nele. Com isso em mente, outra comparação com a injeção de falhas de software é feita. É mostrado que, em combinação com métricas de hardware e software, a estimativa fornecida pela injeção de falhas de software pode ser da mesma ordem de magnitude que a relatada com experimentos de feixe de nêutrons. Com o aumento da automação, não há apenas uma preocupação de segurança com a CPU, mas também com o aplicativo em execução em um respectivo dispositivo. Como o aplicativo usado para executar as tarefas automatizadas se tornou mais complexo, novas arquiteturas de software e hardware surgiram no mercado. Para lidar com a complexidade da tarefa, o uso de Redes Neurais Profundas (DNN) está aumentando visivelmente. Existem vários tipos de DNNs, um dos mais usados é a Rede Neural Convolucional (CNN). Vários novos conceitos de redes neurais surgiram, como aprendizado de conjunto, transformadores e aprendizado por reforço. Dado o alto poder computacional exigido por algumas DNNs, para atender aos requisitos de tempo real (conforme necessário em veí- culos autônomos), é necessário executar DNNs em Unidades de Processamento Gráfico (GPUs) que consomem muita energia. No entanto, para algumas tarefas específicas em aplicações de usuário, empregar um dispositivo de alta potência não seria necessário ouseria até mesmo inviável. Este trabalho avança o conhecimento sobre as Unidades de Processamento Tensor (TPU) do Google investigando sua sensibilidade a nêutrons e íons pesados em vários tipos de arquiteturas DNN. Além disso, o trabalho feito com a CNN também investiga o impacto da temperatura na taxa de erro da CNN em execução no TPU Coral. Além da CNN típica, outras arquiteturas e conceitos são testados. As arquiteturas e estratégias avaliadas são aprendizado de conjunto, transformadores e aprendizado por reforço. Além disso, uma nova estratégia de redundância dual-modular para aprendizado por reforço é proposta, onde alguns dos erros são corrigidos usando dados experimentais de testes de radiação.
publishDate 2024
dc.date.issued.fl_str_mv 2024
dc.date.accessioned.fl_str_mv 2025-05-10T06:56:39Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/291500
dc.identifier.nrb.pt_BR.fl_str_mv 001256464
url http://hdl.handle.net/10183/291500
identifier_str_mv 001256464
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/291500/2/001256464.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/291500/1/001256464.pdf
bitstream.checksum.fl_str_mv e521d7b0e5f89f4afe8cc18e7875cbdc
6ff93d0afcab3337723329a5d03dac74
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br || lume@ufrgs.br
_version_ 1846255902528634880