Exportação concluída — 

Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido.

Detalhes bibliográficos
Ano de defesa: 1998
Autor(a) principal: Augusto, Sergio Ribeiro
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3139/tde-10102024-095939/
Resumo: Este trabalho realiza uma revisão da teoria e prática de técnicas de aprendizado por reforço, livres de modelo, segundo um ponto de vista unificado, com base em conceitos de programação dinâmica e no método das Diferenças Temporais. Duas técnicas importantes do aprendizado por reforço são abordadas: arquiteturas Crítico-Rede de Ação e método SARSA. Os algoritmos correspondentes são aplicados, em simulação, ao problema do pêndulo invertido. Este é definido de tal maneira que, após umalonga sequência de ações, apenas o resultado é conhecido, através de um sinal de avaliação qualitativo. Para a Rede de Ação são analisados três tipos de algoritmos: hebbiano, ARP e REINFORCE. Para tratar sinais atrasados, os algoritmos são desenvolvidos utilizando o conceito de elegibilidade, de maneira a fornecer crédito temporal às ações realizadas. A importância da elegibilidade é avaliada, assim como, de outros resultados de simulação. O desenvolvimento final dos algoritmos pressupõe processos de decisão de Markov finitos. Para aplicação ao pêndulo invertido, uma quantização do espaço de estados foi realizada.
id USP_fab158526ecc6a42fe308a497ded41d5
oai_identifier_str oai:teses.usp.br:tde-10102024-095939
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido.A study of model-free reinforcement learning techniques: applications to an inverted pendulumAprendizado por reforçoMétodo das Diferenças TemporaisPêndulo invertidoProgramação dinâmicaProgrammingReinforcement LearningTemporal Difference MethodEste trabalho realiza uma revisão da teoria e prática de técnicas de aprendizado por reforço, livres de modelo, segundo um ponto de vista unificado, com base em conceitos de programação dinâmica e no método das Diferenças Temporais. Duas técnicas importantes do aprendizado por reforço são abordadas: arquiteturas Crítico-Rede de Ação e método SARSA. Os algoritmos correspondentes são aplicados, em simulação, ao problema do pêndulo invertido. Este é definido de tal maneira que, após umalonga sequência de ações, apenas o resultado é conhecido, através de um sinal de avaliação qualitativo. Para a Rede de Ação são analisados três tipos de algoritmos: hebbiano, ARP e REINFORCE. Para tratar sinais atrasados, os algoritmos são desenvolvidos utilizando o conceito de elegibilidade, de maneira a fornecer crédito temporal às ações realizadas. A importância da elegibilidade é avaliada, assim como, de outros resultados de simulação. O desenvolvimento final dos algoritmos pressupõe processos de decisão de Markov finitos. Para aplicação ao pêndulo invertido, uma quantização do espaço de estados foi realizada.In this work a review of the theory and practice of model-free reinforcement learning is realized. A unified approach is used, based on dynamic programming concepts and Temporal Difference Methods. Two important reinforcement learning techniques are analysed: Actor-Critic Architectures and SARSA. The corresponding algorithms are applied, by simulation, to the inverted pendulum problem. This is defined so that only after a long sequence of actions is the result known. The evalution is effected by a simple qualitative reinforcement signal. For the Actor, three algorithms are analysed: hebbian, ARP and REINFORCE. To treat delayed signals, the algorithms use the concept of elegibility, in order to assign temporal credit to the actions. The importance of elegibility to the algorithms, as well as other simulation results, are evaluated. The development of the algorithms assumes finite Markov decision processes. For application to the pendulum, a division of the state space in subspaces is realized.Biblioteca Digitais de Teses e Dissertações da USPFerreira, AdemarAugusto, Sergio Ribeiro1998-04-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3139/tde-10102024-095939/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-10T13:06:02Zoai:teses.usp.br:tde-10102024-095939Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-10T13:06:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido.
A study of model-free reinforcement learning techniques: applications to an inverted pendulum
title Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido.
spellingShingle Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido.
Augusto, Sergio Ribeiro
Aprendizado por reforço
Método das Diferenças Temporais
Pêndulo invertido
Programação dinâmica
Programming
Reinforcement Learning
Temporal Difference Method
title_short Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido.
title_full Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido.
title_fullStr Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido.
title_full_unstemmed Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido.
title_sort Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido.
author Augusto, Sergio Ribeiro
author_facet Augusto, Sergio Ribeiro
author_role author
dc.contributor.none.fl_str_mv Ferreira, Ademar
dc.contributor.author.fl_str_mv Augusto, Sergio Ribeiro
dc.subject.por.fl_str_mv Aprendizado por reforço
Método das Diferenças Temporais
Pêndulo invertido
Programação dinâmica
Programming
Reinforcement Learning
Temporal Difference Method
topic Aprendizado por reforço
Método das Diferenças Temporais
Pêndulo invertido
Programação dinâmica
Programming
Reinforcement Learning
Temporal Difference Method
description Este trabalho realiza uma revisão da teoria e prática de técnicas de aprendizado por reforço, livres de modelo, segundo um ponto de vista unificado, com base em conceitos de programação dinâmica e no método das Diferenças Temporais. Duas técnicas importantes do aprendizado por reforço são abordadas: arquiteturas Crítico-Rede de Ação e método SARSA. Os algoritmos correspondentes são aplicados, em simulação, ao problema do pêndulo invertido. Este é definido de tal maneira que, após umalonga sequência de ações, apenas o resultado é conhecido, através de um sinal de avaliação qualitativo. Para a Rede de Ação são analisados três tipos de algoritmos: hebbiano, ARP e REINFORCE. Para tratar sinais atrasados, os algoritmos são desenvolvidos utilizando o conceito de elegibilidade, de maneira a fornecer crédito temporal às ações realizadas. A importância da elegibilidade é avaliada, assim como, de outros resultados de simulação. O desenvolvimento final dos algoritmos pressupõe processos de decisão de Markov finitos. Para aplicação ao pêndulo invertido, uma quantização do espaço de estados foi realizada.
publishDate 1998
dc.date.none.fl_str_mv 1998-04-02
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/3/3139/tde-10102024-095939/
url https://www.teses.usp.br/teses/disponiveis/3/3139/tde-10102024-095939/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1818279186692833280