Enhancing lifetime reliability of manycore systems through reinforcement learning-based task management
| Ano de defesa: | 2023 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://tede2.pucrs.br/tede2/handle/tede/11734 |
Resumo: | This research tackles the challenge of improving the lifetime reliability of manycore systems, a critical issue in microelectronics. The current state-of-the-art in Dynamic Thermal Management (DTM) and Dynamic Reliability Management (DRM) techniques present the following gaps: (i) system underutilization in patterning approaches or adoption of complex heuristics; (ii) works focusing only on temperature (DTM) or reliability (DRM); (iii) proposals considering few aging effects. The primary goal of this Thesis is to address the issue of early degradation in manycore systems resulting from temperature-amplified wear-out effects, encompassing the development and execution of strategies to manage tasks in ways that mitigate these effects. The central claim of the Thesis is that task management based on reinforcement learning (RL) can enhance manycore systems lifetime reliability. The research adopts an innovative approach using an RL algorithm for task management. This method involves building models to predict system degradation and dynamically modifying task allocations to minimize long-term wear. The research employs simulations to verify the effectiveness of the developed models and algorithms. The significant contribution of this Thesis is the creation of the "Failure In Time-aware Learning Heuristic for Application Allocation" (FLEA), which manages temperature and reliability concomitantly. Results show that FLEA lowers the rate of system degradation compared to conventional task management approaches. The results data present an enhancement in system reliability and lifetime. FLEA represents an advancement in management, combining reinforcement learning techniques with task management strategies to proactively increase lifetime. This Thesis provides insights into the design and management of manycores. It paves the way for developing more sophisticated reinforcement learning models for systems management. |
| id |
P_RS_5db4cb98de157dcb35eb6de7e1a16e3e |
|---|---|
| oai_identifier_str |
oai:tede2.pucrs.br:tede/11734 |
| network_acronym_str |
P_RS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
| repository_id_str |
|
| spelling |
Enhancing lifetime reliability of manycore systems through reinforcement learning-based task managementOtimizando a confiabilidade e vida útil de sistemas manycore por meio de gerenciamento de tarefas baseado em aprendizado por reforçoManycore SystemsLifetime ReliabilityReinforcement LearningTemperature ManagementReliability ManagementSistemas ManycoreConfiabilidadeAprendizado por ReforçoGerenciamento de TemperaturaGerenciamento de ConfiabilidadeCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOThis research tackles the challenge of improving the lifetime reliability of manycore systems, a critical issue in microelectronics. The current state-of-the-art in Dynamic Thermal Management (DTM) and Dynamic Reliability Management (DRM) techniques present the following gaps: (i) system underutilization in patterning approaches or adoption of complex heuristics; (ii) works focusing only on temperature (DTM) or reliability (DRM); (iii) proposals considering few aging effects. The primary goal of this Thesis is to address the issue of early degradation in manycore systems resulting from temperature-amplified wear-out effects, encompassing the development and execution of strategies to manage tasks in ways that mitigate these effects. The central claim of the Thesis is that task management based on reinforcement learning (RL) can enhance manycore systems lifetime reliability. The research adopts an innovative approach using an RL algorithm for task management. This method involves building models to predict system degradation and dynamically modifying task allocations to minimize long-term wear. The research employs simulations to verify the effectiveness of the developed models and algorithms. The significant contribution of this Thesis is the creation of the "Failure In Time-aware Learning Heuristic for Application Allocation" (FLEA), which manages temperature and reliability concomitantly. Results show that FLEA lowers the rate of system degradation compared to conventional task management approaches. The results data present an enhancement in system reliability and lifetime. FLEA represents an advancement in management, combining reinforcement learning techniques with task management strategies to proactively increase lifetime. This Thesis provides insights into the design and management of manycores. It paves the way for developing more sophisticated reinforcement learning models for systems management.Esta pesquisa aborda o desafio de melhorar a confiabilidade ao longo do tempo em sistemas manycore, uma questão crítica em microeletrônica. O estado da arte atual em Técnicas de Gerenciamento Térmico Dinâmico (DTM, do inglês, Dynamic Thermal Management) e Gerenciamento Dinâmico de Confiabilidade (DRM, do inglês, Dynamic Reliability Management) apresenta as seguintes lacunas: (i) subutilização do sistema em abordagens estáticas ou adoção de heurísticas complexas; (ii) trabalhos que focam somente em temperatura (DTM) ou confiabilidade (DRM); (iii) propostas que consideram poucos efeitos de envelhecimento. O objetivo principal desta Tese é abordar a questão da degradação precoce em sistemas manycore resultante de efeitos de desgaste acelerados por temperatura, abrangendo o desenvolvimento e a execução de estratégias para gerenciar tarefas de forma que mitiguem esses efeitos. A afirmação central da Tese é que o gerenciamento de tarefas baseado em aprendizado por reforço (RL, do inglês, Reinforcement Learning) pode melhorar a confiabilidade de sistemas manycore ao longo do tempo. A pesquisa adota uma abordagem inovadora utilizando um algoritmo de RL para gerenciamento de tarefas. Este método envolve a construção de modelos para prever a degradação do sistema e modificar dinamicamente as alocações de tarefas para minimizar o desgaste a longo prazo. A pesquisa utiliza simulações para verificar a eficácia dos modelos e algoritmos desenvolvidos. A contribuição significativa desta Tese é a criação da "Heurística de Aprendizado Ciente da Taxa de Falhas no Tempo para Alocação de Aplicações" (FLEA, do inglês, Failure In Time-aware Learning Heuristic for Application Allocation), que gerencia temperatura e confiabilidade concomitantemente. Os resultados mostram que a proposta FLEA reduz a taxa de degradação do sistema em comparação com abordagens convencionais de gerenciamento de tarefas. Os resultados apresentam melhora na confiabilidade e no tempo de vida útil do sistema. A FLEA representa um avanço no gerenciamento de sistemas, combinando técnicas de aprendizado por reforço com estratégias de gerenciamento de tarefas para aumentar proativamente o tempo de vida útil. Esta Tese oferece direções de pesquisa no tema do projeto e gerenciamento de manycores. Ela indica o caminho para o desenvolvimento de modelos de aprendizado por reforço mais sofisticados para gerenciamento de sistemas.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESPontifícia Universidade Católica do Rio Grande do SulEscola PolitécnicaBrasilPUCRSPrograma de Pós-Graduação em Ciência da ComputaçãoMoraes, Fernando Gehmhttp://lattes.cnpq.br/2509301929350826Weber, Iaçanã Ianiski2025-07-10T14:50:55Z2023-03-05info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://tede2.pucrs.br/tede2/handle/tede/11734enginfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RS2025-07-10T15:00:20Zoai:tede2.pucrs.br:tede/11734Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2025-07-10T15:00:20Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false |
| dc.title.none.fl_str_mv |
Enhancing lifetime reliability of manycore systems through reinforcement learning-based task management Otimizando a confiabilidade e vida útil de sistemas manycore por meio de gerenciamento de tarefas baseado em aprendizado por reforço |
| title |
Enhancing lifetime reliability of manycore systems through reinforcement learning-based task management |
| spellingShingle |
Enhancing lifetime reliability of manycore systems through reinforcement learning-based task management Weber, Iaçanã Ianiski Manycore Systems Lifetime Reliability Reinforcement Learning Temperature Management Reliability Management Sistemas Manycore Confiabilidade Aprendizado por Reforço Gerenciamento de Temperatura Gerenciamento de Confiabilidade CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
| title_short |
Enhancing lifetime reliability of manycore systems through reinforcement learning-based task management |
| title_full |
Enhancing lifetime reliability of manycore systems through reinforcement learning-based task management |
| title_fullStr |
Enhancing lifetime reliability of manycore systems through reinforcement learning-based task management |
| title_full_unstemmed |
Enhancing lifetime reliability of manycore systems through reinforcement learning-based task management |
| title_sort |
Enhancing lifetime reliability of manycore systems through reinforcement learning-based task management |
| author |
Weber, Iaçanã Ianiski |
| author_facet |
Weber, Iaçanã Ianiski |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Moraes, Fernando Gehm http://lattes.cnpq.br/2509301929350826 |
| dc.contributor.author.fl_str_mv |
Weber, Iaçanã Ianiski |
| dc.subject.por.fl_str_mv |
Manycore Systems Lifetime Reliability Reinforcement Learning Temperature Management Reliability Management Sistemas Manycore Confiabilidade Aprendizado por Reforço Gerenciamento de Temperatura Gerenciamento de Confiabilidade CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
| topic |
Manycore Systems Lifetime Reliability Reinforcement Learning Temperature Management Reliability Management Sistemas Manycore Confiabilidade Aprendizado por Reforço Gerenciamento de Temperatura Gerenciamento de Confiabilidade CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
| description |
This research tackles the challenge of improving the lifetime reliability of manycore systems, a critical issue in microelectronics. The current state-of-the-art in Dynamic Thermal Management (DTM) and Dynamic Reliability Management (DRM) techniques present the following gaps: (i) system underutilization in patterning approaches or adoption of complex heuristics; (ii) works focusing only on temperature (DTM) or reliability (DRM); (iii) proposals considering few aging effects. The primary goal of this Thesis is to address the issue of early degradation in manycore systems resulting from temperature-amplified wear-out effects, encompassing the development and execution of strategies to manage tasks in ways that mitigate these effects. The central claim of the Thesis is that task management based on reinforcement learning (RL) can enhance manycore systems lifetime reliability. The research adopts an innovative approach using an RL algorithm for task management. This method involves building models to predict system degradation and dynamically modifying task allocations to minimize long-term wear. The research employs simulations to verify the effectiveness of the developed models and algorithms. The significant contribution of this Thesis is the creation of the "Failure In Time-aware Learning Heuristic for Application Allocation" (FLEA), which manages temperature and reliability concomitantly. Results show that FLEA lowers the rate of system degradation compared to conventional task management approaches. The results data present an enhancement in system reliability and lifetime. FLEA represents an advancement in management, combining reinforcement learning techniques with task management strategies to proactively increase lifetime. This Thesis provides insights into the design and management of manycores. It paves the way for developing more sophisticated reinforcement learning models for systems management. |
| publishDate |
2023 |
| dc.date.none.fl_str_mv |
2023-03-05 2025-07-10T14:50:55Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://tede2.pucrs.br/tede2/handle/tede/11734 |
| url |
https://tede2.pucrs.br/tede2/handle/tede/11734 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação |
| publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS |
| instname_str |
Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
| instacron_str |
PUC_RS |
| institution |
PUC_RS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
| collection |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
| repository.mail.fl_str_mv |
biblioteca.central@pucrs.br|| |
| _version_ |
1850041319627423744 |