Estratégias para aplicação de políticas parciais com motivação intrínseca.

Detalhes bibliográficos
Ano de defesa: 2014
Autor(a) principal: Beirigo, Rafael Lemes
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.teses.usp.br/teses/disponiveis/3/3141/tde-12102015-140550/
Resumo: As técnicas de Aprendizado por Reforço permitem a solução de um problema através da escolha de ações que maximizem valores de recompensas recebidas que refletem a qualidade das ações tomadas pelo agente em um processo de tentativa e erro. Em problemas com estrutura hierárquica, a solução final depende do encadeamento de soluções para subproblemas aí presentes, sendo frequente a repetição de subproblemas nesse encadeamento. Nesses casos, a utilização de políticas parciais permite o aprendizado e armazenamento das soluções individuais para cada subproblema, que podem então ser utilizadas múltiplas vezes na composição de uma solução completa para o problema final, acelerando o aprendizado. Apesar de vantajosa, a utilização de políticas parciais necessita de definições por parte do projetista, o que representa uma sobrecarga. Para contornar esse problema, foram propostas técnicas de descoberta automática de políticas parciais, dentre as quais a utilização de motivação intrínseca se destaca por permitir ao agente aprender soluções de subproblemas úteis na solução do problema final sem a necessidade de se definir manualmente novas recompensas para esses subproblemas individualmente. Apesar de promissora, essa proposta utiliza um conjunto de componentes de aprendizado que ainda carece de investigação aprofundada acerca dos impactos individual e coletivo de cada componente, notadamente a aplicação das políticas parciais durante o aprendizado. Nesta dissertação são propostas duas abordagens para a aplicação de políticas parciais no Aprendizado por Reforço com Motivação Intrínseca: (i) armazenamento das políticas parciais em aplicação pelo agente e (ii) exploração interna à aplicação das políticas parciais. O impacto das propostas no desempenho de aprendizado é avaliado experimentalmente em um domínio com forte caracterização hierárquica.
id USP_c7d4cc439e02690637cb94a0f1ee0141
oai_identifier_str oai:teses.usp.br:tde-12102015-140550
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Estratégias para aplicação de políticas parciais com motivação intrínseca.Application strategies for intrinsic motivated optionsAplicação de políticas parciaisAprendizado por reforçoIntrinsic motivationMotivação intrínsecaOption application strategiesOption discoveryPolíticas parciaisReinforcement learningAs técnicas de Aprendizado por Reforço permitem a solução de um problema através da escolha de ações que maximizem valores de recompensas recebidas que refletem a qualidade das ações tomadas pelo agente em um processo de tentativa e erro. Em problemas com estrutura hierárquica, a solução final depende do encadeamento de soluções para subproblemas aí presentes, sendo frequente a repetição de subproblemas nesse encadeamento. Nesses casos, a utilização de políticas parciais permite o aprendizado e armazenamento das soluções individuais para cada subproblema, que podem então ser utilizadas múltiplas vezes na composição de uma solução completa para o problema final, acelerando o aprendizado. Apesar de vantajosa, a utilização de políticas parciais necessita de definições por parte do projetista, o que representa uma sobrecarga. Para contornar esse problema, foram propostas técnicas de descoberta automática de políticas parciais, dentre as quais a utilização de motivação intrínseca se destaca por permitir ao agente aprender soluções de subproblemas úteis na solução do problema final sem a necessidade de se definir manualmente novas recompensas para esses subproblemas individualmente. Apesar de promissora, essa proposta utiliza um conjunto de componentes de aprendizado que ainda carece de investigação aprofundada acerca dos impactos individual e coletivo de cada componente, notadamente a aplicação das políticas parciais durante o aprendizado. Nesta dissertação são propostas duas abordagens para a aplicação de políticas parciais no Aprendizado por Reforço com Motivação Intrínseca: (i) armazenamento das políticas parciais em aplicação pelo agente e (ii) exploração interna à aplicação das políticas parciais. O impacto das propostas no desempenho de aprendizado é avaliado experimentalmente em um domínio com forte caracterização hierárquica.Reinforcement Learning techniques allow an agent to learn the solution to a problem by interacting with the environment and executing actions, thus receiving rewards that reflect the value of the actions taken, on a process of trial and error. When a problem has a hierarchical structure, its final solution depends on several solutions to the subproblems it contains, and it is rather common the repetition of subproblems. On these cases, by using options it is possible to learn the solution to each subproblem individually, keeping and then using them multiple times to compose the complete solution to the problem, thus accelerating the learning process. But, despite this advantage, the use of options create the need for some definitions, what can represent a burden to the designer. To circumvent this problem, automatic option discovery techniques were proposed, among which the use of intrinsic motivation deserves special attention for allowing the agent to learn the solution of the subproblems, which are useful to compose the final solution, without the need to manually define new rewards to these subproblems individually. Despite being promising, this technique is built upon a set of several learning components that need a more deep investigation on the individual and collective impacts of each component, mostly the options application strategies during the learning process. On this work two modifications are proposed concerning the application process of options on the Intrinsically Motivated Reinforcement Learning: (i) storage of the history of the options applied by the agent and (ii) allow the agent to explore, even when following an option. These modifications were implemented on an algorithm present on the literature and evaluated on a domain with strong hierarchical characteristics.Biblioteca Digitais de Teses e Dissertações da USPCosta, Anna Helena RealiBeirigo, Rafael Lemes2014-10-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/3/3141/tde-12102015-140550/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-09T12:55:58Zoai:teses.usp.br:tde-12102015-140550Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-09T12:55:58Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Estratégias para aplicação de políticas parciais com motivação intrínseca.
Application strategies for intrinsic motivated options
title Estratégias para aplicação de políticas parciais com motivação intrínseca.
spellingShingle Estratégias para aplicação de políticas parciais com motivação intrínseca.
Beirigo, Rafael Lemes
Aplicação de políticas parciais
Aprendizado por reforço
Intrinsic motivation
Motivação intrínseca
Option application strategies
Option discovery
Políticas parciais
Reinforcement learning
title_short Estratégias para aplicação de políticas parciais com motivação intrínseca.
title_full Estratégias para aplicação de políticas parciais com motivação intrínseca.
title_fullStr Estratégias para aplicação de políticas parciais com motivação intrínseca.
title_full_unstemmed Estratégias para aplicação de políticas parciais com motivação intrínseca.
title_sort Estratégias para aplicação de políticas parciais com motivação intrínseca.
author Beirigo, Rafael Lemes
author_facet Beirigo, Rafael Lemes
author_role author
dc.contributor.none.fl_str_mv Costa, Anna Helena Reali
dc.contributor.author.fl_str_mv Beirigo, Rafael Lemes
dc.subject.por.fl_str_mv Aplicação de políticas parciais
Aprendizado por reforço
Intrinsic motivation
Motivação intrínseca
Option application strategies
Option discovery
Políticas parciais
Reinforcement learning
topic Aplicação de políticas parciais
Aprendizado por reforço
Intrinsic motivation
Motivação intrínseca
Option application strategies
Option discovery
Políticas parciais
Reinforcement learning
description As técnicas de Aprendizado por Reforço permitem a solução de um problema através da escolha de ações que maximizem valores de recompensas recebidas que refletem a qualidade das ações tomadas pelo agente em um processo de tentativa e erro. Em problemas com estrutura hierárquica, a solução final depende do encadeamento de soluções para subproblemas aí presentes, sendo frequente a repetição de subproblemas nesse encadeamento. Nesses casos, a utilização de políticas parciais permite o aprendizado e armazenamento das soluções individuais para cada subproblema, que podem então ser utilizadas múltiplas vezes na composição de uma solução completa para o problema final, acelerando o aprendizado. Apesar de vantajosa, a utilização de políticas parciais necessita de definições por parte do projetista, o que representa uma sobrecarga. Para contornar esse problema, foram propostas técnicas de descoberta automática de políticas parciais, dentre as quais a utilização de motivação intrínseca se destaca por permitir ao agente aprender soluções de subproblemas úteis na solução do problema final sem a necessidade de se definir manualmente novas recompensas para esses subproblemas individualmente. Apesar de promissora, essa proposta utiliza um conjunto de componentes de aprendizado que ainda carece de investigação aprofundada acerca dos impactos individual e coletivo de cada componente, notadamente a aplicação das políticas parciais durante o aprendizado. Nesta dissertação são propostas duas abordagens para a aplicação de políticas parciais no Aprendizado por Reforço com Motivação Intrínseca: (i) armazenamento das políticas parciais em aplicação pelo agente e (ii) exploração interna à aplicação das políticas parciais. O impacto das propostas no desempenho de aprendizado é avaliado experimentalmente em um domínio com forte caracterização hierárquica.
publishDate 2014
dc.date.none.fl_str_mv 2014-10-02
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/3/3141/tde-12102015-140550/
url http://www.teses.usp.br/teses/disponiveis/3/3141/tde-12102015-140550/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1865491578656653312