Técnicas de tolerância a falhas controladas por software para a proteção do pipeline de processadores gráficos

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Braga, Giani Augusto
Orientador(a): Azambuja, José Rodrigo Furlanetto de
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/271293
Resumo: A utilização de Processadores Gráficos (Graphics Processing Unit - GPU) na computação gráfica, em aceleradores de uso geral e Computação de Alto Desempenho (High Processing Computing - HPC), recentemente tiveram um crescimento e passaram a ser utilizados em diversas aplicações críticas de segurança, por exemplo em veículos autônomos e avi- ônica. Embora, as mais recentes tecnologias são utilizadas na fabricação das GPUs para satisfazer os requisitos de consumo de energia e desempenho, ainda são sensíveis e suscetíveis a falhas em algumas áreas, dentre elas a aviônica, por possuir um alto grau de exposição a partículas energizadas, como prótons e nêutrons. Os principais efeitos causados por essas partículas energizadas, em circuitos de alta densidade, são conhecidos como Perturbações de Evento Único (Single Event Upset - SEU). Apesar do SEU não resultar na destruição dos circuitos, ele tem o potencial de introduzir erros no armazenamento de dados, afetando principalmente memórias e registradores. Para proteger as GPUs contra esses efeitos, os engenheiros empregam técnicas de tolerância a falhas, que podem ser desenvolvidas por meio de abordagens que combinam o suporte de software e hardware. O objetivo dessa dissertação foi aprimorar a resiliência dos registradores de pipeline em uma arquitetura de GPU. Para isso, foram desenvolvidas duas técnicas híbridas de tolerância a falhas, baseadas em trabalhos relacionados. A primeira técnica é a híbrida XOR e a segunda técnica é a híbrida paridade, que comparam e detectam, por meio de um bit de confiabilidade, se a instrução duplicada está com erro, caso estiver é realizado a correção. Abordagens anteriores concentraram-se em proteger elementos de memória, como arquivos de registradores e memória compartilhada, priorizando proteção por software. Já a proteção dos registradores de pipeline demanda alterações no hardware, tornando essencial o desenvolvimento de técnicas híbridas. A análise das técnicas desenvolvidas foram realizadas por meio de simulação da injeção de milhares de falhas no pipeline da GPU, em até seis aplicações de estudo de caso. Os resultados em termos de overhead do tempo de execução variam de 1,04x a 1,66x e uma detecção e correção de erros de 100% para as quatro aplicações de estudo de caso da técnica híbrida XOR. Para a técnica híbrida paridade, teve um aumento entre 2% e 15% no overhead do tempo de execução, além da redução e correção de em média 47% dos erros.
id URGS_db91fe8e6926577cc2cdf915b42746f1
oai_identifier_str oai:www.lume.ufrgs.br:10183/271293
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Braga, Giani AugustoAzambuja, José Rodrigo Furlanetto de2024-02-01T05:07:04Z2023http://hdl.handle.net/10183/271293001194276A utilização de Processadores Gráficos (Graphics Processing Unit - GPU) na computação gráfica, em aceleradores de uso geral e Computação de Alto Desempenho (High Processing Computing - HPC), recentemente tiveram um crescimento e passaram a ser utilizados em diversas aplicações críticas de segurança, por exemplo em veículos autônomos e avi- ônica. Embora, as mais recentes tecnologias são utilizadas na fabricação das GPUs para satisfazer os requisitos de consumo de energia e desempenho, ainda são sensíveis e suscetíveis a falhas em algumas áreas, dentre elas a aviônica, por possuir um alto grau de exposição a partículas energizadas, como prótons e nêutrons. Os principais efeitos causados por essas partículas energizadas, em circuitos de alta densidade, são conhecidos como Perturbações de Evento Único (Single Event Upset - SEU). Apesar do SEU não resultar na destruição dos circuitos, ele tem o potencial de introduzir erros no armazenamento de dados, afetando principalmente memórias e registradores. Para proteger as GPUs contra esses efeitos, os engenheiros empregam técnicas de tolerância a falhas, que podem ser desenvolvidas por meio de abordagens que combinam o suporte de software e hardware. O objetivo dessa dissertação foi aprimorar a resiliência dos registradores de pipeline em uma arquitetura de GPU. Para isso, foram desenvolvidas duas técnicas híbridas de tolerância a falhas, baseadas em trabalhos relacionados. A primeira técnica é a híbrida XOR e a segunda técnica é a híbrida paridade, que comparam e detectam, por meio de um bit de confiabilidade, se a instrução duplicada está com erro, caso estiver é realizado a correção. Abordagens anteriores concentraram-se em proteger elementos de memória, como arquivos de registradores e memória compartilhada, priorizando proteção por software. Já a proteção dos registradores de pipeline demanda alterações no hardware, tornando essencial o desenvolvimento de técnicas híbridas. A análise das técnicas desenvolvidas foram realizadas por meio de simulação da injeção de milhares de falhas no pipeline da GPU, em até seis aplicações de estudo de caso. Os resultados em termos de overhead do tempo de execução variam de 1,04x a 1,66x e uma detecção e correção de erros de 100% para as quatro aplicações de estudo de caso da técnica híbrida XOR. Para a técnica híbrida paridade, teve um aumento entre 2% e 15% no overhead do tempo de execução, além da redução e correção de em média 47% dos erros.The use of Graphics Processors (GPU) in graphics computing, in general purpose accelerators and High Performance Computing (HPC), has recently grown and become used in several safety-critical applications, for example in autonomous vehicles and avionics. Although the latest technologies are used in the manufacture of GPUs to satisfy energy consumption and performance requirements, they are still sensitive and susceptible to failures in some areas, including avionics, due to a high degree of exposure to energized particles, such as protons and neutrons. The main effects caused by these energized particles, in high-density circuits, are known as Single Event Upset (SEU). Although SEU does not result in the destruction of circuits, it has the potential to introduce errors into data storage, mainly affecting memories and registers. To protect GPUs against these effects, engineers employ fault tolerance techniques, which can be developed through approaches that combine software and hardware support. The objective of this dissertation was to improve the resilience of pipeline registers in a GPU architecture. To this end, two hybrid fault tolerance techniques were developed, based on related work. The first technique is hybrid XOR and the second technique is hybrid parity, which compare and detect, through a reliability bit, whether the duplicate instruction has an error, and if so, correction is performed. Previous approaches have focused on protecting memory elements such as register files and shared memory, prioritizing software protection. Protecting pipeline registers requires changes to the hardware, making the development of hybrid techniques essential. The analysis of the developed techniques was carried out through simulation of the injection of thousands of faults into the GPU pipeline, in up to six case study applications. The results in terms of runtime overhead range from 1.04x to 1.66x and a 100% error detection and correction for the four case study applications of the hybrid XOR technique. For the hybrid parity technique, there was an increase between 2% and 15% in overhead execution time, in addition to the reduction and correction of an average of 47% of errors.application/pdfporTolerância a falhasUnidades de processamento gráficoProcessadores graficosComputação de alto desempenhoSelective mitigation techniquesTécnicas de tolerância a falhas controladas por software para a proteção do pipeline de processadores gráficosSoftware-controlled fault tolerance techniques for hardening the pipelines of graphics processor units info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2021mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001194276.pdf.txt001194276.pdf.txtExtracted Texttext/plain160889http://www.lume.ufrgs.br/bitstream/10183/271293/2/001194276.pdf.txt449b511f54ccd73293365a73ef2df8d9MD52ORIGINAL001194276.pdfTexto completoapplication/pdf3342278http://www.lume.ufrgs.br/bitstream/10183/271293/1/001194276.pdf0272580903092b11536c3b3b04d20c62MD5110183/2712932024-02-02 06:05:51.28165oai:www.lume.ufrgs.br:10183/271293Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532024-02-02T08:05:51Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Técnicas de tolerância a falhas controladas por software para a proteção do pipeline de processadores gráficos
dc.title.alternative.en.fl_str_mv Software-controlled fault tolerance techniques for hardening the pipelines of graphics processor units
title Técnicas de tolerância a falhas controladas por software para a proteção do pipeline de processadores gráficos
spellingShingle Técnicas de tolerância a falhas controladas por software para a proteção do pipeline de processadores gráficos
Braga, Giani Augusto
Tolerância a falhas
Unidades de processamento gráfico
Processadores graficos
Computação de alto desempenho
Selective mitigation techniques
title_short Técnicas de tolerância a falhas controladas por software para a proteção do pipeline de processadores gráficos
title_full Técnicas de tolerância a falhas controladas por software para a proteção do pipeline de processadores gráficos
title_fullStr Técnicas de tolerância a falhas controladas por software para a proteção do pipeline de processadores gráficos
title_full_unstemmed Técnicas de tolerância a falhas controladas por software para a proteção do pipeline de processadores gráficos
title_sort Técnicas de tolerância a falhas controladas por software para a proteção do pipeline de processadores gráficos
author Braga, Giani Augusto
author_facet Braga, Giani Augusto
author_role author
dc.contributor.author.fl_str_mv Braga, Giani Augusto
dc.contributor.advisor1.fl_str_mv Azambuja, José Rodrigo Furlanetto de
contributor_str_mv Azambuja, José Rodrigo Furlanetto de
dc.subject.por.fl_str_mv Tolerância a falhas
Unidades de processamento gráfico
Processadores graficos
Computação de alto desempenho
topic Tolerância a falhas
Unidades de processamento gráfico
Processadores graficos
Computação de alto desempenho
Selective mitigation techniques
dc.subject.eng.fl_str_mv Selective mitigation techniques
description A utilização de Processadores Gráficos (Graphics Processing Unit - GPU) na computação gráfica, em aceleradores de uso geral e Computação de Alto Desempenho (High Processing Computing - HPC), recentemente tiveram um crescimento e passaram a ser utilizados em diversas aplicações críticas de segurança, por exemplo em veículos autônomos e avi- ônica. Embora, as mais recentes tecnologias são utilizadas na fabricação das GPUs para satisfazer os requisitos de consumo de energia e desempenho, ainda são sensíveis e suscetíveis a falhas em algumas áreas, dentre elas a aviônica, por possuir um alto grau de exposição a partículas energizadas, como prótons e nêutrons. Os principais efeitos causados por essas partículas energizadas, em circuitos de alta densidade, são conhecidos como Perturbações de Evento Único (Single Event Upset - SEU). Apesar do SEU não resultar na destruição dos circuitos, ele tem o potencial de introduzir erros no armazenamento de dados, afetando principalmente memórias e registradores. Para proteger as GPUs contra esses efeitos, os engenheiros empregam técnicas de tolerância a falhas, que podem ser desenvolvidas por meio de abordagens que combinam o suporte de software e hardware. O objetivo dessa dissertação foi aprimorar a resiliência dos registradores de pipeline em uma arquitetura de GPU. Para isso, foram desenvolvidas duas técnicas híbridas de tolerância a falhas, baseadas em trabalhos relacionados. A primeira técnica é a híbrida XOR e a segunda técnica é a híbrida paridade, que comparam e detectam, por meio de um bit de confiabilidade, se a instrução duplicada está com erro, caso estiver é realizado a correção. Abordagens anteriores concentraram-se em proteger elementos de memória, como arquivos de registradores e memória compartilhada, priorizando proteção por software. Já a proteção dos registradores de pipeline demanda alterações no hardware, tornando essencial o desenvolvimento de técnicas híbridas. A análise das técnicas desenvolvidas foram realizadas por meio de simulação da injeção de milhares de falhas no pipeline da GPU, em até seis aplicações de estudo de caso. Os resultados em termos de overhead do tempo de execução variam de 1,04x a 1,66x e uma detecção e correção de erros de 100% para as quatro aplicações de estudo de caso da técnica híbrida XOR. Para a técnica híbrida paridade, teve um aumento entre 2% e 15% no overhead do tempo de execução, além da redução e correção de em média 47% dos erros.
publishDate 2023
dc.date.issued.fl_str_mv 2023
dc.date.accessioned.fl_str_mv 2024-02-01T05:07:04Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/271293
dc.identifier.nrb.pt_BR.fl_str_mv 001194276
url http://hdl.handle.net/10183/271293
identifier_str_mv 001194276
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/271293/2/001194276.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/271293/1/001194276.pdf
bitstream.checksum.fl_str_mv 449b511f54ccd73293365a73ef2df8d9
0272580903092b11536c3b3b04d20c62
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1831316172393414656