Model-based policy gradients: an empirical study on linear quadratic environments

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Lovatto, Ângelo Gregório
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-28062022-123656/
Resumo: Stochastic Value Gradient (SVG) methods underlie many recent achievements of model-based Reinforcement Learning (RL) agents in continuous state-action spaces. Such methods use data collected by exploration in the environment to produce a model of its dynamics, which is then used to approximate the gradient of the objective function w.r.t. the agent\'s parameters. Despite the practical significance of these methods, many algorithm design choices still lack rigorous theoretical or empirical justification. Instead, most works rely heavily on benchmark-centric evaluation methods, which confound the contributions of several components of an RL agent\'s design to the final performance. In this work, we propose a fine-grained analysis of core algorithmic components of SVGs, including: the gradient estimator formula, model learning and value function approximation. We implement a configurable benchmark environment based on the Linear Quadratic Gaussian (LQG) regulator, allowing us to compute the ground-truth SVG and compare it with learning approaches. We conduct our analysis on a range of LQG environments, evaluating the impact of each algorithmic component in prediction and control tasks. Our results show that a widely used gradient estimator induces a favorable bias-variance trade-off, using a biased expectation that yields better gradient estimates in smaller sample regimes than the unbiased expression for the gradient. On model learning, we show that overfitting to on-policy data may occur, leading to accurate state predictions but inaccurate gradients, highlighting the importance of exploration even in stochastic environments. We also show that value function approximation can be more unstable than model learning, even in simple linear environments. Finally, we evaluate performance when using the model for direct gradient estimation vs. for value function approximation, concluding that the former is more effective for both prediction and control.
id USP_fa9e3538422efc5bb5f55d7c8c5b4085
oai_identifier_str oai:teses.usp.br:tde-28062022-123656
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Model-based policy gradients: an empirical study on linear quadratic environmentsGradientes de política baseados em modelo: um estudo empírico em ambientes lineares quadráticosAprendizado de máquinaAprendizado por reforçoBaseado em modeloGradient methodsMachine learningMétodos de gradienteModel-basedReinforcement learningStochastic Value Gradient (SVG) methods underlie many recent achievements of model-based Reinforcement Learning (RL) agents in continuous state-action spaces. Such methods use data collected by exploration in the environment to produce a model of its dynamics, which is then used to approximate the gradient of the objective function w.r.t. the agent\'s parameters. Despite the practical significance of these methods, many algorithm design choices still lack rigorous theoretical or empirical justification. Instead, most works rely heavily on benchmark-centric evaluation methods, which confound the contributions of several components of an RL agent\'s design to the final performance. In this work, we propose a fine-grained analysis of core algorithmic components of SVGs, including: the gradient estimator formula, model learning and value function approximation. We implement a configurable benchmark environment based on the Linear Quadratic Gaussian (LQG) regulator, allowing us to compute the ground-truth SVG and compare it with learning approaches. We conduct our analysis on a range of LQG environments, evaluating the impact of each algorithmic component in prediction and control tasks. Our results show that a widely used gradient estimator induces a favorable bias-variance trade-off, using a biased expectation that yields better gradient estimates in smaller sample regimes than the unbiased expression for the gradient. On model learning, we show that overfitting to on-policy data may occur, leading to accurate state predictions but inaccurate gradients, highlighting the importance of exploration even in stochastic environments. We also show that value function approximation can be more unstable than model learning, even in simple linear environments. Finally, we evaluate performance when using the model for direct gradient estimation vs. for value function approximation, concluding that the former is more effective for both prediction and control.Métodos de Gradiente de Valor Estocástico (GVE) estão por trás de muitos avanços recentes de agentes de Aprendizado por Reforço (AR) baseado em modelo em espaços de estado-ação contínuos. Tais métodos usam dados coletados por exploração no ambiente para produzir um modelo de sua dinâmica, que é então usado para aproximar o gradiente, com relação aos parâmetros do agente, da função objetivo. Apesar da significância prática desses métodos, muitas escolhas de design algorítmico ainda carecem de rigorosas justificativas teóricas ou empíricas. Em vez disso, muitos trabalhos colocam muito peso em métodos de avaliação em ambientes-referência, o que mistura as contribuições de vários componentes do design de um agente de AR para o desempenho final. Este trabalho propõe uma análise refinada de componentes algorítmicos centrais a métodos de GVE, incluindo: a fórmula de estimação do gradiente, aprendizado do modelo e aproximação de função-valor. É implementado um ambiente-referência configurável baseado no regulador Linear Quadrático Gaussiano (LQG), permitindo computar o verdadeiro GVE e compará-lo com abordagens via aprendizado. Análises são conduzidas em uma variedade de ambientes LQG, avaliando o impacto de cada componente algorítmico em tarefas de predição e controle. Os resultados mostram que um estimador de gradiente amplamente usado induz um balanço de viés e variância favorável, usando uma esperança enviesada que produz estimativas de gradiente melhores com poucas amostras em comparação à fórmula não-enviesada do gradiente. Quanto ao aprendizado do modelo, demonstra-se que o modelo pode sobreajustar-se à dados \\textit, levando à predições acuradas de estados mas inacuradas de gradientes, salientando a importância da exploração até em ambientes estocásticos. É também mostrado que aproximação de função-valor pode ser mais instável que aprendizado de modelo, mesmo em simples ambientes lineares. Finalmente, avalia-se o desempenho ao usar o modelo para estimar o gradiente diretamente vs. para aproximar a função-valor, concluindo que a primeira abordagem é mais efetiva tanto para predição quanto para controle.Biblioteca Digitais de Teses e Dissertações da USPBarros, Leliane Nunes deLovatto, Ângelo Gregório2022-06-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-28062022-123656/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2022-06-28T23:28:02Zoai:teses.usp.br:tde-28062022-123656Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212022-06-28T23:28:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Model-based policy gradients: an empirical study on linear quadratic environments
Gradientes de política baseados em modelo: um estudo empírico em ambientes lineares quadráticos
title Model-based policy gradients: an empirical study on linear quadratic environments
spellingShingle Model-based policy gradients: an empirical study on linear quadratic environments
Lovatto, Ângelo Gregório
Aprendizado de máquina
Aprendizado por reforço
Baseado em modelo
Gradient methods
Machine learning
Métodos de gradiente
Model-based
Reinforcement learning
title_short Model-based policy gradients: an empirical study on linear quadratic environments
title_full Model-based policy gradients: an empirical study on linear quadratic environments
title_fullStr Model-based policy gradients: an empirical study on linear quadratic environments
title_full_unstemmed Model-based policy gradients: an empirical study on linear quadratic environments
title_sort Model-based policy gradients: an empirical study on linear quadratic environments
author Lovatto, Ângelo Gregório
author_facet Lovatto, Ângelo Gregório
author_role author
dc.contributor.none.fl_str_mv Barros, Leliane Nunes de
dc.contributor.author.fl_str_mv Lovatto, Ângelo Gregório
dc.subject.por.fl_str_mv Aprendizado de máquina
Aprendizado por reforço
Baseado em modelo
Gradient methods
Machine learning
Métodos de gradiente
Model-based
Reinforcement learning
topic Aprendizado de máquina
Aprendizado por reforço
Baseado em modelo
Gradient methods
Machine learning
Métodos de gradiente
Model-based
Reinforcement learning
description Stochastic Value Gradient (SVG) methods underlie many recent achievements of model-based Reinforcement Learning (RL) agents in continuous state-action spaces. Such methods use data collected by exploration in the environment to produce a model of its dynamics, which is then used to approximate the gradient of the objective function w.r.t. the agent\'s parameters. Despite the practical significance of these methods, many algorithm design choices still lack rigorous theoretical or empirical justification. Instead, most works rely heavily on benchmark-centric evaluation methods, which confound the contributions of several components of an RL agent\'s design to the final performance. In this work, we propose a fine-grained analysis of core algorithmic components of SVGs, including: the gradient estimator formula, model learning and value function approximation. We implement a configurable benchmark environment based on the Linear Quadratic Gaussian (LQG) regulator, allowing us to compute the ground-truth SVG and compare it with learning approaches. We conduct our analysis on a range of LQG environments, evaluating the impact of each algorithmic component in prediction and control tasks. Our results show that a widely used gradient estimator induces a favorable bias-variance trade-off, using a biased expectation that yields better gradient estimates in smaller sample regimes than the unbiased expression for the gradient. On model learning, we show that overfitting to on-policy data may occur, leading to accurate state predictions but inaccurate gradients, highlighting the importance of exploration even in stochastic environments. We also show that value function approximation can be more unstable than model learning, even in simple linear environments. Finally, we evaluate performance when using the model for direct gradient estimation vs. for value function approximation, concluding that the former is more effective for both prediction and control.
publishDate 2022
dc.date.none.fl_str_mv 2022-06-17
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45134/tde-28062022-123656/
url https://www.teses.usp.br/teses/disponiveis/45/45134/tde-28062022-123656/
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815258533205114880