Enhancing lifetime reliability of manycore systems through reinforcement learning-based task management

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Weber, Iaçanã Ianiski
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://tede2.pucrs.br/tede2/handle/tede/11734
Resumo: This research tackles the challenge of improving the lifetime reliability of manycore systems, a critical issue in microelectronics. The current state-of-the-art in Dynamic Thermal Management (DTM) and Dynamic Reliability Management (DRM) techniques present the following gaps: (i) system underutilization in patterning approaches or adoption of complex heuristics; (ii) works focusing only on temperature (DTM) or reliability (DRM); (iii) proposals considering few aging effects. The primary goal of this Thesis is to address the issue of early degradation in manycore systems resulting from temperature-amplified wear-out effects, encompassing the development and execution of strategies to manage tasks in ways that mitigate these effects. The central claim of the Thesis is that task management based on reinforcement learning (RL) can enhance manycore systems lifetime reliability. The research adopts an innovative approach using an RL algorithm for task management. This method involves building models to predict system degradation and dynamically modifying task allocations to minimize long-term wear. The research employs simulations to verify the effectiveness of the developed models and algorithms. The significant contribution of this Thesis is the creation of the "Failure In Time-aware Learning Heuristic for Application Allocation" (FLEA), which manages temperature and reliability concomitantly. Results show that FLEA lowers the rate of system degradation compared to conventional task management approaches. The results data present an enhancement in system reliability and lifetime. FLEA represents an advancement in management, combining reinforcement learning techniques with task management strategies to proactively increase lifetime. This Thesis provides insights into the design and management of manycores. It paves the way for developing more sophisticated reinforcement learning models for systems management.
id P_RS_5db4cb98de157dcb35eb6de7e1a16e3e
oai_identifier_str oai:tede2.pucrs.br:tede/11734
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Enhancing lifetime reliability of manycore systems through reinforcement learning-based task managementOtimizando a confiabilidade e vida útil de sistemas manycore por meio de gerenciamento de tarefas baseado em aprendizado por reforçoManycore SystemsLifetime ReliabilityReinforcement LearningTemperature ManagementReliability ManagementSistemas ManycoreConfiabilidadeAprendizado por ReforçoGerenciamento de TemperaturaGerenciamento de ConfiabilidadeCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOThis research tackles the challenge of improving the lifetime reliability of manycore systems, a critical issue in microelectronics. The current state-of-the-art in Dynamic Thermal Management (DTM) and Dynamic Reliability Management (DRM) techniques present the following gaps: (i) system underutilization in patterning approaches or adoption of complex heuristics; (ii) works focusing only on temperature (DTM) or reliability (DRM); (iii) proposals considering few aging effects. The primary goal of this Thesis is to address the issue of early degradation in manycore systems resulting from temperature-amplified wear-out effects, encompassing the development and execution of strategies to manage tasks in ways that mitigate these effects. The central claim of the Thesis is that task management based on reinforcement learning (RL) can enhance manycore systems lifetime reliability. The research adopts an innovative approach using an RL algorithm for task management. This method involves building models to predict system degradation and dynamically modifying task allocations to minimize long-term wear. The research employs simulations to verify the effectiveness of the developed models and algorithms. The significant contribution of this Thesis is the creation of the "Failure In Time-aware Learning Heuristic for Application Allocation" (FLEA), which manages temperature and reliability concomitantly. Results show that FLEA lowers the rate of system degradation compared to conventional task management approaches. The results data present an enhancement in system reliability and lifetime. FLEA represents an advancement in management, combining reinforcement learning techniques with task management strategies to proactively increase lifetime. This Thesis provides insights into the design and management of manycores. It paves the way for developing more sophisticated reinforcement learning models for systems management.Esta pesquisa aborda o desafio de melhorar a confiabilidade ao longo do tempo em sistemas manycore, uma questão crítica em microeletrônica. O estado da arte atual em Técnicas de Gerenciamento Térmico Dinâmico (DTM, do inglês, Dynamic Thermal Management) e Gerenciamento Dinâmico de Confiabilidade (DRM, do inglês, Dynamic Reliability Management) apresenta as seguintes lacunas: (i) subutilização do sistema em abordagens estáticas ou adoção de heurísticas complexas; (ii) trabalhos que focam somente em temperatura (DTM) ou confiabilidade (DRM); (iii) propostas que consideram poucos efeitos de envelhecimento. O objetivo principal desta Tese é abordar a questão da degradação precoce em sistemas manycore resultante de efeitos de desgaste acelerados por temperatura, abrangendo o desenvolvimento e a execução de estratégias para gerenciar tarefas de forma que mitiguem esses efeitos. A afirmação central da Tese é que o gerenciamento de tarefas baseado em aprendizado por reforço (RL, do inglês, Reinforcement Learning) pode melhorar a confiabilidade de sistemas manycore ao longo do tempo. A pesquisa adota uma abordagem inovadora utilizando um algoritmo de RL para gerenciamento de tarefas. Este método envolve a construção de modelos para prever a degradação do sistema e modificar dinamicamente as alocações de tarefas para minimizar o desgaste a longo prazo. A pesquisa utiliza simulações para verificar a eficácia dos modelos e algoritmos desenvolvidos. A contribuição significativa desta Tese é a criação da "Heurística de Aprendizado Ciente da Taxa de Falhas no Tempo para Alocação de Aplicações" (FLEA, do inglês, Failure In Time-aware Learning Heuristic for Application Allocation), que gerencia temperatura e confiabilidade concomitantemente. Os resultados mostram que a proposta FLEA reduz a taxa de degradação do sistema em comparação com abordagens convencionais de gerenciamento de tarefas. Os resultados apresentam melhora na confiabilidade e no tempo de vida útil do sistema. A FLEA representa um avanço no gerenciamento de sistemas, combinando técnicas de aprendizado por reforço com estratégias de gerenciamento de tarefas para aumentar proativamente o tempo de vida útil. Esta Tese oferece direções de pesquisa no tema do projeto e gerenciamento de manycores. Ela indica o caminho para o desenvolvimento de modelos de aprendizado por reforço mais sofisticados para gerenciamento de sistemas.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESPontifícia Universidade Católica do Rio Grande do SulEscola PolitécnicaBrasilPUCRSPrograma de Pós-Graduação em Ciência da ComputaçãoMoraes, Fernando Gehmhttp://lattes.cnpq.br/2509301929350826Weber, Iaçanã Ianiski2025-07-10T14:50:55Z2023-03-05info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://tede2.pucrs.br/tede2/handle/tede/11734enginfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RS2025-07-10T15:00:20Zoai:tede2.pucrs.br:tede/11734Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2025-07-10T15:00:20Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.none.fl_str_mv Enhancing lifetime reliability of manycore systems through reinforcement learning-based task management
Otimizando a confiabilidade e vida útil de sistemas manycore por meio de gerenciamento de tarefas baseado em aprendizado por reforço
title Enhancing lifetime reliability of manycore systems through reinforcement learning-based task management
spellingShingle Enhancing lifetime reliability of manycore systems through reinforcement learning-based task management
Weber, Iaçanã Ianiski
Manycore Systems
Lifetime Reliability
Reinforcement Learning
Temperature Management
Reliability Management
Sistemas Manycore
Confiabilidade
Aprendizado por Reforço
Gerenciamento de Temperatura
Gerenciamento de Confiabilidade
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
title_short Enhancing lifetime reliability of manycore systems through reinforcement learning-based task management
title_full Enhancing lifetime reliability of manycore systems through reinforcement learning-based task management
title_fullStr Enhancing lifetime reliability of manycore systems through reinforcement learning-based task management
title_full_unstemmed Enhancing lifetime reliability of manycore systems through reinforcement learning-based task management
title_sort Enhancing lifetime reliability of manycore systems through reinforcement learning-based task management
author Weber, Iaçanã Ianiski
author_facet Weber, Iaçanã Ianiski
author_role author
dc.contributor.none.fl_str_mv Moraes, Fernando Gehm
http://lattes.cnpq.br/2509301929350826
dc.contributor.author.fl_str_mv Weber, Iaçanã Ianiski
dc.subject.por.fl_str_mv Manycore Systems
Lifetime Reliability
Reinforcement Learning
Temperature Management
Reliability Management
Sistemas Manycore
Confiabilidade
Aprendizado por Reforço
Gerenciamento de Temperatura
Gerenciamento de Confiabilidade
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
topic Manycore Systems
Lifetime Reliability
Reinforcement Learning
Temperature Management
Reliability Management
Sistemas Manycore
Confiabilidade
Aprendizado por Reforço
Gerenciamento de Temperatura
Gerenciamento de Confiabilidade
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
description This research tackles the challenge of improving the lifetime reliability of manycore systems, a critical issue in microelectronics. The current state-of-the-art in Dynamic Thermal Management (DTM) and Dynamic Reliability Management (DRM) techniques present the following gaps: (i) system underutilization in patterning approaches or adoption of complex heuristics; (ii) works focusing only on temperature (DTM) or reliability (DRM); (iii) proposals considering few aging effects. The primary goal of this Thesis is to address the issue of early degradation in manycore systems resulting from temperature-amplified wear-out effects, encompassing the development and execution of strategies to manage tasks in ways that mitigate these effects. The central claim of the Thesis is that task management based on reinforcement learning (RL) can enhance manycore systems lifetime reliability. The research adopts an innovative approach using an RL algorithm for task management. This method involves building models to predict system degradation and dynamically modifying task allocations to minimize long-term wear. The research employs simulations to verify the effectiveness of the developed models and algorithms. The significant contribution of this Thesis is the creation of the "Failure In Time-aware Learning Heuristic for Application Allocation" (FLEA), which manages temperature and reliability concomitantly. Results show that FLEA lowers the rate of system degradation compared to conventional task management approaches. The results data present an enhancement in system reliability and lifetime. FLEA represents an advancement in management, combining reinforcement learning techniques with task management strategies to proactively increase lifetime. This Thesis provides insights into the design and management of manycores. It paves the way for developing more sophisticated reinforcement learning models for systems management.
publishDate 2023
dc.date.none.fl_str_mv 2023-03-05
2025-07-10T14:50:55Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://tede2.pucrs.br/tede2/handle/tede/11734
url https://tede2.pucrs.br/tede2/handle/tede/11734
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1850041319627423744