Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Link de acesso: | http://hdl.handle.net/10183/290816 |
Resumo: | Ao resolver problemas de tomada de decisão sequencial, seres humanos exibem com portamentos diferentes dependendo do problema (ou tarefa) que devem resolver em um determinado momento. Um dos principais desafios na área de inteligência artificial, e de aprendizado por reforço (RL) em particular, é o desenvolvimento de agentes generalistas e f lexíveis que sejam capazes de resolver múltiplas tarefas ou problemas—cada uma exigindo que o agente aprenda um comportamento potencialmente novo e especializado. Superar esse desafio requer que agentes aprendam comportamentos que podem envolver otimizar umúnico objetivo, ou realizar “trade-offs” entre múltiplos objetivos conflitantes. Nós argu mentamos que muitas tarefas importantes do mundo real são naturalmente definidas por múltiplos objetivos que, quando priorizados de forma diferente, podem exigir que o agente adapte seu comportamento. Nesta tese, estudamos o problema de como projetar agentes de RLflexíveis que possam, de maneira eficiente em termos de quantidade de interações com o ambiente, adaptar seu comportamento para resolver qualquer tarefa—cada uma definida por múltiplos objetivos possivelmente conflitantes. A hipótese principal desta tese é que é possível combinar ideias de dois subcampos aparentemente díspares de aprendizado de máquina—RL multiobjetivo e RL multitarefa—para projetar novas técnicas com garantias teóricas para resolver o problema discutido acima. Em particular, tal combinação é possível porque ambos os campos lidam com problemas onde o agente precisa aprender múltiplos comportamentos/políticas. Nós introduzimos novos métodos multipolíticas que capacitam os agentes a (i) aprender cuidadosamente múltiplos comportamentos, cada um especia lizado em uma tarefa diferente ou em tarefas nas quais um agente atribui preferências diferentes para cada um de seus objetivos; e (ii) a combinar comportamentos previamente aprendidos para identificar eficientemente soluções para novas tarefas. Os métodos que investigamos e introduzimos têm importantes garantias teóricas em relação à otimalidade do conjunto de comportamentos identificados e sua capacidade de resolver novas tarefas de forma zero-shot, mesmo na presença de erros de aproximação de função. Avaliamos os métodos propostos em diversos problemas desafiadores de RL multitarefa e multiobjetivo e demonstramos que nossos algoritmos superam vários métodos estado-da-arte em domínios com espaços de estado e ação discretos ou contínuos. |
| id |
URGS_c3696ff5cdfd23a1d257ee50c1728db3 |
|---|---|
| oai_identifier_str |
oai:www.lume.ufrgs.br:10183/290816 |
| network_acronym_str |
URGS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| repository_id_str |
|
| spelling |
Alegre, Lucas NunesBazzan, Ana Lucia Cetertich2025-04-25T06:56:38Z2025http://hdl.handle.net/10183/290816001255265Ao resolver problemas de tomada de decisão sequencial, seres humanos exibem com portamentos diferentes dependendo do problema (ou tarefa) que devem resolver em um determinado momento. Um dos principais desafios na área de inteligência artificial, e de aprendizado por reforço (RL) em particular, é o desenvolvimento de agentes generalistas e f lexíveis que sejam capazes de resolver múltiplas tarefas ou problemas—cada uma exigindo que o agente aprenda um comportamento potencialmente novo e especializado. Superar esse desafio requer que agentes aprendam comportamentos que podem envolver otimizar umúnico objetivo, ou realizar “trade-offs” entre múltiplos objetivos conflitantes. Nós argu mentamos que muitas tarefas importantes do mundo real são naturalmente definidas por múltiplos objetivos que, quando priorizados de forma diferente, podem exigir que o agente adapte seu comportamento. Nesta tese, estudamos o problema de como projetar agentes de RLflexíveis que possam, de maneira eficiente em termos de quantidade de interações com o ambiente, adaptar seu comportamento para resolver qualquer tarefa—cada uma definida por múltiplos objetivos possivelmente conflitantes. A hipótese principal desta tese é que é possível combinar ideias de dois subcampos aparentemente díspares de aprendizado de máquina—RL multiobjetivo e RL multitarefa—para projetar novas técnicas com garantias teóricas para resolver o problema discutido acima. Em particular, tal combinação é possível porque ambos os campos lidam com problemas onde o agente precisa aprender múltiplos comportamentos/políticas. Nós introduzimos novos métodos multipolíticas que capacitam os agentes a (i) aprender cuidadosamente múltiplos comportamentos, cada um especia lizado em uma tarefa diferente ou em tarefas nas quais um agente atribui preferências diferentes para cada um de seus objetivos; e (ii) a combinar comportamentos previamente aprendidos para identificar eficientemente soluções para novas tarefas. Os métodos que investigamos e introduzimos têm importantes garantias teóricas em relação à otimalidade do conjunto de comportamentos identificados e sua capacidade de resolver novas tarefas de forma zero-shot, mesmo na presença de erros de aproximação de função. Avaliamos os métodos propostos em diversos problemas desafiadores de RL multitarefa e multiobjetivo e demonstramos que nossos algoritmos superam vários métodos estado-da-arte em domínios com espaços de estado e ação discretos ou contínuos.When solving sequential decision-making problems, humans exhibit different behaviors depending on the problem (or task) they are tasked with solving at a given moment. One of the main challenges in the field of artificial intelligence, and reinforcement learning (RL) in particular, is the development of generalist and flexible agents that are capable of solving multiple tasks—each requiring the agent to learn a potentially new, specialized behavior. Importantly, tackling this challenge requires agents to learn behaviors that may involve optimizing a single objective, or trading off between multiple conflicting objectives. We argue that many important real-world tasks are naturally defined by multiple objectives, which when prioritized differently, may require the agent to adapt its behavior accordingly. In this thesis, we study the problem of how to design flexible RL agents that can, in a sample-efficient manner, adapt their behavior to solve any given tasks—each of which is defined by multiple (possibly conflicting) objectives. The main hypothesis of this thesis is that it is possible to meaningfully combine insights from two apparently disparate sub-fields of machine learning—multi-objective RL and multi-task RL—to design novel and principled techniques to address the problem discussed above. In particular, such insights arise from the fact that both of these fields typically deal with problems where an agent needs to learn multiple behaviors/policies. We introduce new multi-policy methods that empower RL agents to (i) carefully learn multiple behaviors, each specialized in a different task or in tasks in which an agent assigns different priorities (or preferences) to each of its objectives; and (ii) combine previously-learned behaviors to efficiently identify solutions to novel tasks. The methods we investigate and introduce have important theoretical guarantees regarding the optimality of the set of behaviors they identify and their capability of solving new tasks in a zero-shot manner, even in the presence of function approximation errors. We evaluate the proposed methods in various challenging multi-task and multi-objective RL problems and show that our algorithms outperform various current state-of-the-art methods in domains with both discrete and continuous state and action spaces.application/pdfengAprendizado por reforçoTransferência de aprendizadoAprendizado de máquinaInteligência artificialMulti-objective RLMulti-task RLTransfer learningModel-based RLSample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviorsAprendizado por reforço multitarefa e multiobjetivo eficiente via combinação de múltiplos comportamentos info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2025doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001255265.pdf.txt001255265.pdf.txtExtracted Texttext/plain400539http://www.lume.ufrgs.br/bitstream/10183/290816/2/001255265.pdf.txt7cd0197ab97277b1edbe74cc1b95cd73MD52ORIGINAL001255265.pdfTexto completo (inglês)application/pdf3724409http://www.lume.ufrgs.br/bitstream/10183/290816/1/001255265.pdf1a805df5bb5699ef704a28ec7ab738cdMD5110183/2908162025-04-26 06:56:23.169405oai:www.lume.ufrgs.br:10183/290816Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532025-04-26T09:56:23Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
| dc.title.pt_BR.fl_str_mv |
Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors |
| dc.title.alternative.pt.fl_str_mv |
Aprendizado por reforço multitarefa e multiobjetivo eficiente via combinação de múltiplos comportamentos |
| title |
Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors |
| spellingShingle |
Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors Alegre, Lucas Nunes Aprendizado por reforço Transferência de aprendizado Aprendizado de máquina Inteligência artificial Multi-objective RL Multi-task RL Transfer learning Model-based RL |
| title_short |
Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors |
| title_full |
Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors |
| title_fullStr |
Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors |
| title_full_unstemmed |
Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors |
| title_sort |
Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors |
| author |
Alegre, Lucas Nunes |
| author_facet |
Alegre, Lucas Nunes |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Alegre, Lucas Nunes |
| dc.contributor.advisor1.fl_str_mv |
Bazzan, Ana Lucia Cetertich |
| contributor_str_mv |
Bazzan, Ana Lucia Cetertich |
| dc.subject.por.fl_str_mv |
Aprendizado por reforço Transferência de aprendizado Aprendizado de máquina Inteligência artificial |
| topic |
Aprendizado por reforço Transferência de aprendizado Aprendizado de máquina Inteligência artificial Multi-objective RL Multi-task RL Transfer learning Model-based RL |
| dc.subject.eng.fl_str_mv |
Multi-objective RL Multi-task RL Transfer learning Model-based RL |
| description |
Ao resolver problemas de tomada de decisão sequencial, seres humanos exibem com portamentos diferentes dependendo do problema (ou tarefa) que devem resolver em um determinado momento. Um dos principais desafios na área de inteligência artificial, e de aprendizado por reforço (RL) em particular, é o desenvolvimento de agentes generalistas e f lexíveis que sejam capazes de resolver múltiplas tarefas ou problemas—cada uma exigindo que o agente aprenda um comportamento potencialmente novo e especializado. Superar esse desafio requer que agentes aprendam comportamentos que podem envolver otimizar umúnico objetivo, ou realizar “trade-offs” entre múltiplos objetivos conflitantes. Nós argu mentamos que muitas tarefas importantes do mundo real são naturalmente definidas por múltiplos objetivos que, quando priorizados de forma diferente, podem exigir que o agente adapte seu comportamento. Nesta tese, estudamos o problema de como projetar agentes de RLflexíveis que possam, de maneira eficiente em termos de quantidade de interações com o ambiente, adaptar seu comportamento para resolver qualquer tarefa—cada uma definida por múltiplos objetivos possivelmente conflitantes. A hipótese principal desta tese é que é possível combinar ideias de dois subcampos aparentemente díspares de aprendizado de máquina—RL multiobjetivo e RL multitarefa—para projetar novas técnicas com garantias teóricas para resolver o problema discutido acima. Em particular, tal combinação é possível porque ambos os campos lidam com problemas onde o agente precisa aprender múltiplos comportamentos/políticas. Nós introduzimos novos métodos multipolíticas que capacitam os agentes a (i) aprender cuidadosamente múltiplos comportamentos, cada um especia lizado em uma tarefa diferente ou em tarefas nas quais um agente atribui preferências diferentes para cada um de seus objetivos; e (ii) a combinar comportamentos previamente aprendidos para identificar eficientemente soluções para novas tarefas. Os métodos que investigamos e introduzimos têm importantes garantias teóricas em relação à otimalidade do conjunto de comportamentos identificados e sua capacidade de resolver novas tarefas de forma zero-shot, mesmo na presença de erros de aproximação de função. Avaliamos os métodos propostos em diversos problemas desafiadores de RL multitarefa e multiobjetivo e demonstramos que nossos algoritmos superam vários métodos estado-da-arte em domínios com espaços de estado e ação discretos ou contínuos. |
| publishDate |
2025 |
| dc.date.accessioned.fl_str_mv |
2025-04-25T06:56:38Z |
| dc.date.issued.fl_str_mv |
2025 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/290816 |
| dc.identifier.nrb.pt_BR.fl_str_mv |
001255265 |
| url |
http://hdl.handle.net/10183/290816 |
| identifier_str_mv |
001255265 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
| instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
| instacron_str |
UFRGS |
| institution |
UFRGS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/290816/2/001255265.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/290816/1/001255265.pdf |
| bitstream.checksum.fl_str_mv |
7cd0197ab97277b1edbe74cc1b95cd73 1a805df5bb5699ef704a28ec7ab738cd |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
| repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
| _version_ |
1844167623550435328 |