Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido.
| Ano de defesa: | 1998 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/3/3139/tde-10102024-095939/ |
Resumo: | Este trabalho realiza uma revisão da teoria e prática de técnicas de aprendizado por reforço, livres de modelo, segundo um ponto de vista unificado, com base em conceitos de programação dinâmica e no método das Diferenças Temporais. Duas técnicas importantes do aprendizado por reforço são abordadas: arquiteturas Crítico-Rede de Ação e método SARSA. Os algoritmos correspondentes são aplicados, em simulação, ao problema do pêndulo invertido. Este é definido de tal maneira que, após umalonga sequência de ações, apenas o resultado é conhecido, através de um sinal de avaliação qualitativo. Para a Rede de Ação são analisados três tipos de algoritmos: hebbiano, ARP e REINFORCE. Para tratar sinais atrasados, os algoritmos são desenvolvidos utilizando o conceito de elegibilidade, de maneira a fornecer crédito temporal às ações realizadas. A importância da elegibilidade é avaliada, assim como, de outros resultados de simulação. O desenvolvimento final dos algoritmos pressupõe processos de decisão de Markov finitos. Para aplicação ao pêndulo invertido, uma quantização do espaço de estados foi realizada. |
| id |
USP_fab158526ecc6a42fe308a497ded41d5 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-10102024-095939 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido.A study of model-free reinforcement learning techniques: applications to an inverted pendulumAprendizado por reforçoMétodo das Diferenças TemporaisPêndulo invertidoProgramação dinâmicaProgrammingReinforcement LearningTemporal Difference MethodEste trabalho realiza uma revisão da teoria e prática de técnicas de aprendizado por reforço, livres de modelo, segundo um ponto de vista unificado, com base em conceitos de programação dinâmica e no método das Diferenças Temporais. Duas técnicas importantes do aprendizado por reforço são abordadas: arquiteturas Crítico-Rede de Ação e método SARSA. Os algoritmos correspondentes são aplicados, em simulação, ao problema do pêndulo invertido. Este é definido de tal maneira que, após umalonga sequência de ações, apenas o resultado é conhecido, através de um sinal de avaliação qualitativo. Para a Rede de Ação são analisados três tipos de algoritmos: hebbiano, ARP e REINFORCE. Para tratar sinais atrasados, os algoritmos são desenvolvidos utilizando o conceito de elegibilidade, de maneira a fornecer crédito temporal às ações realizadas. A importância da elegibilidade é avaliada, assim como, de outros resultados de simulação. O desenvolvimento final dos algoritmos pressupõe processos de decisão de Markov finitos. Para aplicação ao pêndulo invertido, uma quantização do espaço de estados foi realizada.In this work a review of the theory and practice of model-free reinforcement learning is realized. A unified approach is used, based on dynamic programming concepts and Temporal Difference Methods. Two important reinforcement learning techniques are analysed: Actor-Critic Architectures and SARSA. The corresponding algorithms are applied, by simulation, to the inverted pendulum problem. This is defined so that only after a long sequence of actions is the result known. The evalution is effected by a simple qualitative reinforcement signal. For the Actor, three algorithms are analysed: hebbian, ARP and REINFORCE. To treat delayed signals, the algorithms use the concept of elegibility, in order to assign temporal credit to the actions. The importance of elegibility to the algorithms, as well as other simulation results, are evaluated. The development of the algorithms assumes finite Markov decision processes. For application to the pendulum, a division of the state space in subspaces is realized.Biblioteca Digitais de Teses e Dissertações da USPFerreira, AdemarAugusto, Sergio Ribeiro1998-04-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3139/tde-10102024-095939/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-10T13:06:02Zoai:teses.usp.br:tde-10102024-095939Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-10T13:06:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido. A study of model-free reinforcement learning techniques: applications to an inverted pendulum |
| title |
Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido. |
| spellingShingle |
Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido. Augusto, Sergio Ribeiro Aprendizado por reforço Método das Diferenças Temporais Pêndulo invertido Programação dinâmica Programming Reinforcement Learning Temporal Difference Method |
| title_short |
Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido. |
| title_full |
Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido. |
| title_fullStr |
Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido. |
| title_full_unstemmed |
Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido. |
| title_sort |
Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido. |
| author |
Augusto, Sergio Ribeiro |
| author_facet |
Augusto, Sergio Ribeiro |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Ferreira, Ademar |
| dc.contributor.author.fl_str_mv |
Augusto, Sergio Ribeiro |
| dc.subject.por.fl_str_mv |
Aprendizado por reforço Método das Diferenças Temporais Pêndulo invertido Programação dinâmica Programming Reinforcement Learning Temporal Difference Method |
| topic |
Aprendizado por reforço Método das Diferenças Temporais Pêndulo invertido Programação dinâmica Programming Reinforcement Learning Temporal Difference Method |
| description |
Este trabalho realiza uma revisão da teoria e prática de técnicas de aprendizado por reforço, livres de modelo, segundo um ponto de vista unificado, com base em conceitos de programação dinâmica e no método das Diferenças Temporais. Duas técnicas importantes do aprendizado por reforço são abordadas: arquiteturas Crítico-Rede de Ação e método SARSA. Os algoritmos correspondentes são aplicados, em simulação, ao problema do pêndulo invertido. Este é definido de tal maneira que, após umalonga sequência de ações, apenas o resultado é conhecido, através de um sinal de avaliação qualitativo. Para a Rede de Ação são analisados três tipos de algoritmos: hebbiano, ARP e REINFORCE. Para tratar sinais atrasados, os algoritmos são desenvolvidos utilizando o conceito de elegibilidade, de maneira a fornecer crédito temporal às ações realizadas. A importância da elegibilidade é avaliada, assim como, de outros resultados de simulação. O desenvolvimento final dos algoritmos pressupõe processos de decisão de Markov finitos. Para aplicação ao pêndulo invertido, uma quantização do espaço de estados foi realizada. |
| publishDate |
1998 |
| dc.date.none.fl_str_mv |
1998-04-02 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/3/3139/tde-10102024-095939/ |
| url |
https://www.teses.usp.br/teses/disponiveis/3/3139/tde-10102024-095939/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1818279186692833280 |