Dynamic thermal management for noc-based many-core systems

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Silva, Alzemiro Henrique Lucas da
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://tede2.pucrs.br/tede2/handle/tede/9831
Resumo: Recent technology nodes enable to deploy billions of transistors in a small silicon area by replicating identical structures, resulting in many-core systems. However, power density may limit the amount of power the system can consume. A many-core at its maximum performance may lead to violate safe temperature definition and, consequently, result in reliability issues. Dynamic Thermal Management (DTM) techniques have been proposed to guarantee that many-core systems run at good performance without compromising reliability. DTM techniques rely on accurate temperature monitoring data. This Thesis reviews recent DTM works and proposes a new method to enable runtime temperature monitoring in a many-core system and new heuristics for thermal-aware application mapping, migration, and dynamic frequency and voltage scaling (DVFS) actuation, considering temperature and energy consumption. The state-of-art study on DTM techniques presents complex mechanisms for runtime actuation, focusing mainly on task mapping, and shows no concern about temperature monitoring methods, compromising the applicability in real systems. The stateof-art also presents works targeting dynamic reliability management (DRM), where the main objective is to ensure longer lifetime for the system, using the same actuation knobs used to control the temperature. This thesis also reviews some of the aging effects and analyses the lifetime reliability results for the proposed heuristics. The main contributions of this Thesis include: (i) a thermal estimation accelerator (TEA), (ii) a proportional, integral and derivative temperature management (PIDTM) heuristic; (iii) a temperature management heuristic having as cost function energy constraints (TMEC). TEA enabled accurate runtime temperature monitoring in the reference many-core, enabling the validation of the DTM proposals. PIDTM reduced up to 7.15% the overall peak temperature in a high workload scenario, while TMEC improved up to 82.9% in the system’s expected lifetime.
id P_RS_b71918409b7ce3b5dc9a5bb4a55e411b
oai_identifier_str oai:tede2.pucrs.br:tede/9831
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Dynamic thermal management for noc-based many-core systemsGerenciamento térmico dinâmico em sistemas many-core baseados em redes intra chipMany-core SystemsTemperature MonitoringDynamic Thermal ManagementLifetime ReliabilityMappingSistemas Many-coreMonitoramento de TemperaturaGerenciamento Dinâmico da TemperaturaConfiabilidade de Tempo de VidaMapeamentoCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAORecent technology nodes enable to deploy billions of transistors in a small silicon area by replicating identical structures, resulting in many-core systems. However, power density may limit the amount of power the system can consume. A many-core at its maximum performance may lead to violate safe temperature definition and, consequently, result in reliability issues. Dynamic Thermal Management (DTM) techniques have been proposed to guarantee that many-core systems run at good performance without compromising reliability. DTM techniques rely on accurate temperature monitoring data. This Thesis reviews recent DTM works and proposes a new method to enable runtime temperature monitoring in a many-core system and new heuristics for thermal-aware application mapping, migration, and dynamic frequency and voltage scaling (DVFS) actuation, considering temperature and energy consumption. The state-of-art study on DTM techniques presents complex mechanisms for runtime actuation, focusing mainly on task mapping, and shows no concern about temperature monitoring methods, compromising the applicability in real systems. The stateof-art also presents works targeting dynamic reliability management (DRM), where the main objective is to ensure longer lifetime for the system, using the same actuation knobs used to control the temperature. This thesis also reviews some of the aging effects and analyses the lifetime reliability results for the proposed heuristics. The main contributions of this Thesis include: (i) a thermal estimation accelerator (TEA), (ii) a proportional, integral and derivative temperature management (PIDTM) heuristic; (iii) a temperature management heuristic having as cost function energy constraints (TMEC). TEA enabled accurate runtime temperature monitoring in the reference many-core, enabling the validation of the DTM proposals. PIDTM reduced up to 7.15% the overall peak temperature in a high workload scenario, while TMEC improved up to 82.9% in the system’s expected lifetime.Nodos tecnológicos recentes permitem fabricar bilhões de transistores em uma pequena área de silício, replicando estruturas idênticas, resultando em sistemas manycore. No entanto, a densidade de potência pode limitar a quantidade de potência que o sistema pode consumir. Um many-core em seu desempenho máximo pode levar a violar temperatura segura e, consequentemente, resultar em problemas de confiabilidade. Técnicas de gerenciamento térmico dinâmico (DTM) foram propostas para garantir que sistemas many-core funcionem com bom desempenho sem comprometer a confiabilidade. Técnicas DTM dependem de dados precisos de monitoramento de temperatura. Esta Tese revisa trabalhos recentes de DTM e propõe um novo método para permitir o monitoramento da temperatura em tempo de execução em um sistema many-core, novas heurísticas tendo por função custo a temperatura, bem como métodos de atuação, mapeamento e migração de tarefas e controle dinâmico de frequência e tensão (DVFS). Os trabalhos do estado-daarte sobre técnicas de DTM apresentam heurísticas complexas de atuação em tempo de execução, com foco principalmente no mapeamento de tarefas, e não se apresentam métodos de monitoramento de temperatura, comprometendo a aplicabilidade em sistemas reais. O estado da arte também apresenta trabalhos voltados ao gerenciamento dinâmico de confiabilidade (DRM), onde o objetivo principal é garantir maior confiabilidade ao sistema, utilizando as mesmas técnicas de atuação para controlar a temperatura. Esta Tese também revisa alguns dos efeitos de envelhecimento em circuitos integrados e analisa resultados de confiabilidade relacionados ao tempo de vida para as heurísticas propostas. As principais contribuições desta Tese incluem: (i) um acelerador de hardware para estimativa térmica (TEA), (ii) uma heurística de gerenciamento de temperatura proporcional, integral e derivativa (PIDTM); (iii) uma heurística de gerenciamento de temperatura tendo por função custo restrições de energia (TMEC). TEA possibilitou o monitoramento preciso da temperatura em tempo de execução no many-core de referência, permitindo a validação das propostas de DTM. O PIDTM reduziu em até 7,15% a temperatura de pico em um cenário de alta carga de trabalho, enquanto o TMEC melhorou em até 82,9% a vida útil esperada do sistema.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESPontifícia Universidade Católica do Rio Grande do SulEscola PolitécnicaBrasilPUCRSPrograma de Pós-Graduação em Ciência da ComputaçãoMoraes, Fernando Gehmhttp://lattes.cnpq.br/2509301929350826Martins, André Luís del Mestrehttp://lattes.cnpq.br/8570090119222585Silva, Alzemiro Henrique Lucas da2021-09-01T12:39:55Z2021-08-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://tede2.pucrs.br/tede2/handle/tede/9831enginfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RS2021-09-01T15:00:25Zoai:tede2.pucrs.br:tede/9831Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2021-09-01T15:00:25Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.none.fl_str_mv Dynamic thermal management for noc-based many-core systems
Gerenciamento térmico dinâmico em sistemas many-core baseados em redes intra chip
title Dynamic thermal management for noc-based many-core systems
spellingShingle Dynamic thermal management for noc-based many-core systems
Silva, Alzemiro Henrique Lucas da
Many-core Systems
Temperature Monitoring
Dynamic Thermal Management
Lifetime Reliability
Mapping
Sistemas Many-core
Monitoramento de Temperatura
Gerenciamento Dinâmico da Temperatura
Confiabilidade de Tempo de Vida
Mapeamento
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
title_short Dynamic thermal management for noc-based many-core systems
title_full Dynamic thermal management for noc-based many-core systems
title_fullStr Dynamic thermal management for noc-based many-core systems
title_full_unstemmed Dynamic thermal management for noc-based many-core systems
title_sort Dynamic thermal management for noc-based many-core systems
author Silva, Alzemiro Henrique Lucas da
author_facet Silva, Alzemiro Henrique Lucas da
author_role author
dc.contributor.none.fl_str_mv Moraes, Fernando Gehm
http://lattes.cnpq.br/2509301929350826
Martins, André Luís del Mestre
http://lattes.cnpq.br/8570090119222585
dc.contributor.author.fl_str_mv Silva, Alzemiro Henrique Lucas da
dc.subject.por.fl_str_mv Many-core Systems
Temperature Monitoring
Dynamic Thermal Management
Lifetime Reliability
Mapping
Sistemas Many-core
Monitoramento de Temperatura
Gerenciamento Dinâmico da Temperatura
Confiabilidade de Tempo de Vida
Mapeamento
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
topic Many-core Systems
Temperature Monitoring
Dynamic Thermal Management
Lifetime Reliability
Mapping
Sistemas Many-core
Monitoramento de Temperatura
Gerenciamento Dinâmico da Temperatura
Confiabilidade de Tempo de Vida
Mapeamento
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
description Recent technology nodes enable to deploy billions of transistors in a small silicon area by replicating identical structures, resulting in many-core systems. However, power density may limit the amount of power the system can consume. A many-core at its maximum performance may lead to violate safe temperature definition and, consequently, result in reliability issues. Dynamic Thermal Management (DTM) techniques have been proposed to guarantee that many-core systems run at good performance without compromising reliability. DTM techniques rely on accurate temperature monitoring data. This Thesis reviews recent DTM works and proposes a new method to enable runtime temperature monitoring in a many-core system and new heuristics for thermal-aware application mapping, migration, and dynamic frequency and voltage scaling (DVFS) actuation, considering temperature and energy consumption. The state-of-art study on DTM techniques presents complex mechanisms for runtime actuation, focusing mainly on task mapping, and shows no concern about temperature monitoring methods, compromising the applicability in real systems. The stateof-art also presents works targeting dynamic reliability management (DRM), where the main objective is to ensure longer lifetime for the system, using the same actuation knobs used to control the temperature. This thesis also reviews some of the aging effects and analyses the lifetime reliability results for the proposed heuristics. The main contributions of this Thesis include: (i) a thermal estimation accelerator (TEA), (ii) a proportional, integral and derivative temperature management (PIDTM) heuristic; (iii) a temperature management heuristic having as cost function energy constraints (TMEC). TEA enabled accurate runtime temperature monitoring in the reference many-core, enabling the validation of the DTM proposals. PIDTM reduced up to 7.15% the overall peak temperature in a high workload scenario, while TMEC improved up to 82.9% in the system’s expected lifetime.
publishDate 2021
dc.date.none.fl_str_mv 2021-09-01T12:39:55Z
2021-08-12
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://tede2.pucrs.br/tede2/handle/tede/9831
url http://tede2.pucrs.br/tede2/handle/tede/9831
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1850041305086820352