Reliability evaluation of low-power embedded devices under radiation

Bodmann, Pablo Rafael

Reliability evaluation of low-power embedded devices under radiation

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Bodmann, Pablo Rafael
Orientador(a):	Carro, Luigi
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Sistemas embarcados Confiabilidade : Sistemas Rede neural convolucional Unidades de processamento gráfico Aprendizado por reforço
Palavras-chave em Inglês:	Soft errors Failures-in-time Neutron beam Coral TPU
Link de acesso:	http://hdl.handle.net/10183/291500
Resumo:	Garantir a confiabilidade é uma preocupação primordial em vários setores, desde aplica- ções de consumo até campos altamente especializados, como automotivo, militar, aeroespacial e computação de alto desempenho (HPC). As arquiteturas de CPU Arm, graças à sua eficiência e flexibilidade, foram amplamente adotadas em dispositivos portáteis de usuários, como smartphones, tablets e laptops. A confiabilidade de erro suave dos microprocessadores pode ser estimada pré-silício usando modelos de design iniciais (chamados de modelos de desempenho ou microarquiteturais) e pós-silício por testes de feixe acelerado em chips fabricados. Este trabalho compara a injeção de falhas microarquitetônicas com experimentos de feixe de nêutrons. Ao comparar esses dois métodos de avaliação de confiabilidade, é relatado que a microarquitetura parece prever a taxa de erro em dispositivos autônomos com precisão. Em dispositivos integrados em um sistema em um chip (SoC), apenas a taxa de erro SDC pode ser estimada com precisão. Além disso, não apenas a estimativa da confiabilidade do hardware é crítica, mas também o software em execução nele. Com isso em mente, outra comparação com a injeção de falhas de software é feita. É mostrado que, em combinação com métricas de hardware e software, a estimativa fornecida pela injeção de falhas de software pode ser da mesma ordem de magnitude que a relatada com experimentos de feixe de nêutrons. Com o aumento da automação, não há apenas uma preocupação de segurança com a CPU, mas também com o aplicativo em execução em um respectivo dispositivo. Como o aplicativo usado para executar as tarefas automatizadas se tornou mais complexo, novas arquiteturas de software e hardware surgiram no mercado. Para lidar com a complexidade da tarefa, o uso de Redes Neurais Profundas (DNN) está aumentando visivelmente. Existem vários tipos de DNNs, um dos mais usados é a Rede Neural Convolucional (CNN). Vários novos conceitos de redes neurais surgiram, como aprendizado de conjunto, transformadores e aprendizado por reforço. Dado o alto poder computacional exigido por algumas DNNs, para atender aos requisitos de tempo real (conforme necessário em veí- culos autônomos), é necessário executar DNNs em Unidades de Processamento Gráfico (GPUs) que consomem muita energia. No entanto, para algumas tarefas específicas em aplicações de usuário, empregar um dispositivo de alta potência não seria necessário ouseria até mesmo inviável. Este trabalho avança o conhecimento sobre as Unidades de Processamento Tensor (TPU) do Google investigando sua sensibilidade a nêutrons e íons pesados em vários tipos de arquiteturas DNN. Além disso, o trabalho feito com a CNN também investiga o impacto da temperatura na taxa de erro da CNN em execução no TPU Coral. Além da CNN típica, outras arquiteturas e conceitos são testados. As arquiteturas e estratégias avaliadas são aprendizado de conjunto, transformadores e aprendizado por reforço. Além disso, uma nova estratégia de redundância dual-modular para aprendizado por reforço é proposta, onde alguns dos erros são corrigidos usando dados experimentais de testes de radiação.

Metadados do item

id	URGS_7af13d8ef7dae8717a3511ee88219740
oai_identifier_str	oai:www.lume.ufrgs.br:10183/291500
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling	Bodmann, Pablo RafaelCarro, LuigiRech, Paolo2025-05-10T06:56:39Z2024http://hdl.handle.net/10183/291500001256464Garantir a confiabilidade é uma preocupação primordial em vários setores, desde aplica- ções de consumo até campos altamente especializados, como automotivo, militar, aeroespacial e computação de alto desempenho (HPC). As arquiteturas de CPU Arm, graças à sua eficiência e flexibilidade, foram amplamente adotadas em dispositivos portáteis de usuários, como smartphones, tablets e laptops. A confiabilidade de erro suave dos microprocessadores pode ser estimada pré-silício usando modelos de design iniciais (chamados de modelos de desempenho ou microarquiteturais) e pós-silício por testes de feixe acelerado em chips fabricados. Este trabalho compara a injeção de falhas microarquitetônicas com experimentos de feixe de nêutrons. Ao comparar esses dois métodos de avaliação de confiabilidade, é relatado que a microarquitetura parece prever a taxa de erro em dispositivos autônomos com precisão. Em dispositivos integrados em um sistema em um chip (SoC), apenas a taxa de erro SDC pode ser estimada com precisão. Além disso, não apenas a estimativa da confiabilidade do hardware é crítica, mas também o software em execução nele. Com isso em mente, outra comparação com a injeção de falhas de software é feita. É mostrado que, em combinação com métricas de hardware e software, a estimativa fornecida pela injeção de falhas de software pode ser da mesma ordem de magnitude que a relatada com experimentos de feixe de nêutrons. Com o aumento da automação, não há apenas uma preocupação de segurança com a CPU, mas também com o aplicativo em execução em um respectivo dispositivo. Como o aplicativo usado para executar as tarefas automatizadas se tornou mais complexo, novas arquiteturas de software e hardware surgiram no mercado. Para lidar com a complexidade da tarefa, o uso de Redes Neurais Profundas (DNN) está aumentando visivelmente. Existem vários tipos de DNNs, um dos mais usados é a Rede Neural Convolucional (CNN). Vários novos conceitos de redes neurais surgiram, como aprendizado de conjunto, transformadores e aprendizado por reforço. Dado o alto poder computacional exigido por algumas DNNs, para atender aos requisitos de tempo real (conforme necessário em veí- culos autônomos), é necessário executar DNNs em Unidades de Processamento Gráfico (GPUs) que consomem muita energia. No entanto, para algumas tarefas específicas em aplicações de usuário, empregar um dispositivo de alta potência não seria necessário ouseria até mesmo inviável. Este trabalho avança o conhecimento sobre as Unidades de Processamento Tensor (TPU) do Google investigando sua sensibilidade a nêutrons e íons pesados em vários tipos de arquiteturas DNN. Além disso, o trabalho feito com a CNN também investiga o impacto da temperatura na taxa de erro da CNN em execução no TPU Coral. Além da CNN típica, outras arquiteturas e conceitos são testados. As arquiteturas e estratégias avaliadas são aprendizado de conjunto, transformadores e aprendizado por reforço. Além disso, uma nova estratégia de redundância dual-modular para aprendizado por reforço é proposta, onde alguns dos erros são corrigidos usando dados experimentais de testes de radiação.Ensuring reliability is a paramount concern across various industries, from consumer applications to highly specialized fields such as automotive, military, aerospace, and HighPerformance Computing (HPC). Arm CPU architectures, thanks to their efficiency and flexibility, have been widely adopted in portable user devices such as smartphones, tablets, and laptops. Microprocessors’ soft error reliability can be estimated pre-silicon using early design models (called performance or microarchitectural models) and post-silicon by accelerated beam testing on manufactured chips. This work compares microarchitectural fault injection with neutron beam experiments. When comparing these two reliability evaluation methods, it is reported that microarchitectural seems to predict the error rate on standalone devices accurately. On devices integrated into a system-on-chip (SoC) only the SDC error rate can be estimated accurately. Moreover, not only the estimation of the hardware’s reliability is critical but also the software running on it. With this in mind, another comparison with software fault injection is made. It is shown that in combination with hardware and software metrics, the estimation provided by the software fault injection can be in the same order of magnitude as the one reported with neutron beam experiments. With the increases in automation, there is not only a safety concern with the CPU but also with the application running over a respective device. Since the application used to run the automated tasks has become more complex, new software and hardware architectures have appeared on the market. In order to deal with the complexity of the task, the use of Deep Neural Networks (DNN) is visibly increasing. There are several types of DNNs, one which is most used is the Convolutional Neural Network (CNN). Several new concepts of neural networks have appeared such as ensemble learning, transformers, and reinforcement learning. Given the high computational power required by some DNNs, to meet real-time requirements (as needed in autonomous vehicles) it is necessary to execute DNNs on power-hungry Graphics Processing Units (GPUs). However, for some specific tasks in user applications, employing a high-power device would not be necessary or would even be unfeasible. This work advances knowledge about Google Tensor Processing Units (TPU) by investigating their sensitivity to neutrons and heavy ions on several types of DNN architectures. Moreover, the work done with CNN also investigates the impact of the temperature on the error rate of CNN running on the Coral TPU. Besides the typical CNN, other architectures and concepts are tested. The architecturesand strategies evaluated are ensemble learning, transformers, and reinforcement learning. Also, a new Dual-modular redundancy strategy for reinforcement learning is proposed where some of the errors are corrected using experimental data from radiation testing.application/pdfengSistemas embarcadosConfiabilidade : SistemasRede neural convolucionalUnidades de processamento gráficoAprendizado por reforçoSoft errorsFailures-in-timeNeutron beamCoral TPUReliability evaluation of low-power embedded devices under radiationAvaliação de confiabilidade de dispositivos embarcados de baixo consumo sob radiação info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2024doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001256464.pdf.txt001256464.pdf.txtExtracted Texttext/plain245110http://www.lume.ufrgs.br/bitstream/10183/291500/2/001256464.pdf.txte521d7b0e5f89f4afe8cc18e7875cbdcMD52ORIGINAL001256464.pdfTexto completo (inglês)application/pdf5902706http://www.lume.ufrgs.br/bitstream/10183/291500/1/001256464.pdf6ff93d0afcab3337723329a5d03dac74MD5110183/2915002025-05-11 06:40:24.993522oai:www.lume.ufrgs.br:10183/291500Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br \|\| lume@ufrgs.bropendoar:18532025-05-11T09:40:24Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Reliability evaluation of low-power embedded devices under radiation
dc.title.alternative.pt.fl_str_mv	Avaliação de confiabilidade de dispositivos embarcados de baixo consumo sob radiação
title	Reliability evaluation of low-power embedded devices under radiation
spellingShingle	Reliability evaluation of low-power embedded devices under radiation Bodmann, Pablo Rafael Sistemas embarcados Confiabilidade : Sistemas Rede neural convolucional Unidades de processamento gráfico Aprendizado por reforço Soft errors Failures-in-time Neutron beam Coral TPU
title_short	Reliability evaluation of low-power embedded devices under radiation
title_full	Reliability evaluation of low-power embedded devices under radiation
title_fullStr	Reliability evaluation of low-power embedded devices under radiation
title_full_unstemmed	Reliability evaluation of low-power embedded devices under radiation
title_sort	Reliability evaluation of low-power embedded devices under radiation
author	Bodmann, Pablo Rafael
author_facet	Bodmann, Pablo Rafael
author_role	author
dc.contributor.author.fl_str_mv	Bodmann, Pablo Rafael
dc.contributor.advisor1.fl_str_mv	Carro, Luigi
dc.contributor.advisor-co1.fl_str_mv	Rech, Paolo
contributor_str_mv	Carro, Luigi Rech, Paolo
dc.subject.por.fl_str_mv	Sistemas embarcados Confiabilidade : Sistemas Rede neural convolucional Unidades de processamento gráfico Aprendizado por reforço
topic	Sistemas embarcados Confiabilidade : Sistemas Rede neural convolucional Unidades de processamento gráfico Aprendizado por reforço Soft errors Failures-in-time Neutron beam Coral TPU
dc.subject.eng.fl_str_mv	Soft errors Failures-in-time Neutron beam Coral TPU
description	Garantir a confiabilidade é uma preocupação primordial em vários setores, desde aplica- ções de consumo até campos altamente especializados, como automotivo, militar, aeroespacial e computação de alto desempenho (HPC). As arquiteturas de CPU Arm, graças à sua eficiência e flexibilidade, foram amplamente adotadas em dispositivos portáteis de usuários, como smartphones, tablets e laptops. A confiabilidade de erro suave dos microprocessadores pode ser estimada pré-silício usando modelos de design iniciais (chamados de modelos de desempenho ou microarquiteturais) e pós-silício por testes de feixe acelerado em chips fabricados. Este trabalho compara a injeção de falhas microarquitetônicas com experimentos de feixe de nêutrons. Ao comparar esses dois métodos de avaliação de confiabilidade, é relatado que a microarquitetura parece prever a taxa de erro em dispositivos autônomos com precisão. Em dispositivos integrados em um sistema em um chip (SoC), apenas a taxa de erro SDC pode ser estimada com precisão. Além disso, não apenas a estimativa da confiabilidade do hardware é crítica, mas também o software em execução nele. Com isso em mente, outra comparação com a injeção de falhas de software é feita. É mostrado que, em combinação com métricas de hardware e software, a estimativa fornecida pela injeção de falhas de software pode ser da mesma ordem de magnitude que a relatada com experimentos de feixe de nêutrons. Com o aumento da automação, não há apenas uma preocupação de segurança com a CPU, mas também com o aplicativo em execução em um respectivo dispositivo. Como o aplicativo usado para executar as tarefas automatizadas se tornou mais complexo, novas arquiteturas de software e hardware surgiram no mercado. Para lidar com a complexidade da tarefa, o uso de Redes Neurais Profundas (DNN) está aumentando visivelmente. Existem vários tipos de DNNs, um dos mais usados é a Rede Neural Convolucional (CNN). Vários novos conceitos de redes neurais surgiram, como aprendizado de conjunto, transformadores e aprendizado por reforço. Dado o alto poder computacional exigido por algumas DNNs, para atender aos requisitos de tempo real (conforme necessário em veí- culos autônomos), é necessário executar DNNs em Unidades de Processamento Gráfico (GPUs) que consomem muita energia. No entanto, para algumas tarefas específicas em aplicações de usuário, empregar um dispositivo de alta potência não seria necessário ouseria até mesmo inviável. Este trabalho avança o conhecimento sobre as Unidades de Processamento Tensor (TPU) do Google investigando sua sensibilidade a nêutrons e íons pesados em vários tipos de arquiteturas DNN. Além disso, o trabalho feito com a CNN também investiga o impacto da temperatura na taxa de erro da CNN em execução no TPU Coral. Além da CNN típica, outras arquiteturas e conceitos são testados. As arquiteturas e estratégias avaliadas são aprendizado de conjunto, transformadores e aprendizado por reforço. Além disso, uma nova estratégia de redundância dual-modular para aprendizado por reforço é proposta, onde alguns dos erros são corrigidos usando dados experimentais de testes de radiação.
publishDate	2024
dc.date.issued.fl_str_mv	2024
dc.date.accessioned.fl_str_mv	2025-05-10T06:56:39Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/291500
dc.identifier.nrb.pt_BR.fl_str_mv	001256464
url	http://hdl.handle.net/10183/291500
identifier_str_mv	001256464
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/291500/2/001256464.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/291500/1/001256464.pdf
bitstream.checksum.fl_str_mv	e521d7b0e5f89f4afe8cc18e7875cbdc 6ff93d0afcab3337723329a5d03dac74
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br \|\| lume@ufrgs.br
_version_	1846255902528634880

Reliability evaluation of low-power embedded devices under radiation

Registros relacionados