Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Alegre, Lucas Nunes
Orientador(a): Bazzan, Ana Lucia Cetertich
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/290816
Resumo: Ao resolver problemas de tomada de decisão sequencial, seres humanos exibem com portamentos diferentes dependendo do problema (ou tarefa) que devem resolver em um determinado momento. Um dos principais desafios na área de inteligência artificial, e de aprendizado por reforço (RL) em particular, é o desenvolvimento de agentes generalistas e f lexíveis que sejam capazes de resolver múltiplas tarefas ou problemas—cada uma exigindo que o agente aprenda um comportamento potencialmente novo e especializado. Superar esse desafio requer que agentes aprendam comportamentos que podem envolver otimizar umúnico objetivo, ou realizar “trade-offs” entre múltiplos objetivos conflitantes. Nós argu mentamos que muitas tarefas importantes do mundo real são naturalmente definidas por múltiplos objetivos que, quando priorizados de forma diferente, podem exigir que o agente adapte seu comportamento. Nesta tese, estudamos o problema de como projetar agentes de RLflexíveis que possam, de maneira eficiente em termos de quantidade de interações com o ambiente, adaptar seu comportamento para resolver qualquer tarefa—cada uma definida por múltiplos objetivos possivelmente conflitantes. A hipótese principal desta tese é que é possível combinar ideias de dois subcampos aparentemente díspares de aprendizado de máquina—RL multiobjetivo e RL multitarefa—para projetar novas técnicas com garantias teóricas para resolver o problema discutido acima. Em particular, tal combinação é possível porque ambos os campos lidam com problemas onde o agente precisa aprender múltiplos comportamentos/políticas. Nós introduzimos novos métodos multipolíticas que capacitam os agentes a (i) aprender cuidadosamente múltiplos comportamentos, cada um especia lizado em uma tarefa diferente ou em tarefas nas quais um agente atribui preferências diferentes para cada um de seus objetivos; e (ii) a combinar comportamentos previamente aprendidos para identificar eficientemente soluções para novas tarefas. Os métodos que investigamos e introduzimos têm importantes garantias teóricas em relação à otimalidade do conjunto de comportamentos identificados e sua capacidade de resolver novas tarefas de forma zero-shot, mesmo na presença de erros de aproximação de função. Avaliamos os métodos propostos em diversos problemas desafiadores de RL multitarefa e multiobjetivo e demonstramos que nossos algoritmos superam vários métodos estado-da-arte em domínios com espaços de estado e ação discretos ou contínuos.
id URGS_c3696ff5cdfd23a1d257ee50c1728db3
oai_identifier_str oai:www.lume.ufrgs.br:10183/290816
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Alegre, Lucas NunesBazzan, Ana Lucia Cetertich2025-04-25T06:56:38Z2025http://hdl.handle.net/10183/290816001255265Ao resolver problemas de tomada de decisão sequencial, seres humanos exibem com portamentos diferentes dependendo do problema (ou tarefa) que devem resolver em um determinado momento. Um dos principais desafios na área de inteligência artificial, e de aprendizado por reforço (RL) em particular, é o desenvolvimento de agentes generalistas e f lexíveis que sejam capazes de resolver múltiplas tarefas ou problemas—cada uma exigindo que o agente aprenda um comportamento potencialmente novo e especializado. Superar esse desafio requer que agentes aprendam comportamentos que podem envolver otimizar umúnico objetivo, ou realizar “trade-offs” entre múltiplos objetivos conflitantes. Nós argu mentamos que muitas tarefas importantes do mundo real são naturalmente definidas por múltiplos objetivos que, quando priorizados de forma diferente, podem exigir que o agente adapte seu comportamento. Nesta tese, estudamos o problema de como projetar agentes de RLflexíveis que possam, de maneira eficiente em termos de quantidade de interações com o ambiente, adaptar seu comportamento para resolver qualquer tarefa—cada uma definida por múltiplos objetivos possivelmente conflitantes. A hipótese principal desta tese é que é possível combinar ideias de dois subcampos aparentemente díspares de aprendizado de máquina—RL multiobjetivo e RL multitarefa—para projetar novas técnicas com garantias teóricas para resolver o problema discutido acima. Em particular, tal combinação é possível porque ambos os campos lidam com problemas onde o agente precisa aprender múltiplos comportamentos/políticas. Nós introduzimos novos métodos multipolíticas que capacitam os agentes a (i) aprender cuidadosamente múltiplos comportamentos, cada um especia lizado em uma tarefa diferente ou em tarefas nas quais um agente atribui preferências diferentes para cada um de seus objetivos; e (ii) a combinar comportamentos previamente aprendidos para identificar eficientemente soluções para novas tarefas. Os métodos que investigamos e introduzimos têm importantes garantias teóricas em relação à otimalidade do conjunto de comportamentos identificados e sua capacidade de resolver novas tarefas de forma zero-shot, mesmo na presença de erros de aproximação de função. Avaliamos os métodos propostos em diversos problemas desafiadores de RL multitarefa e multiobjetivo e demonstramos que nossos algoritmos superam vários métodos estado-da-arte em domínios com espaços de estado e ação discretos ou contínuos.When solving sequential decision-making problems, humans exhibit different behaviors depending on the problem (or task) they are tasked with solving at a given moment. One of the main challenges in the field of artificial intelligence, and reinforcement learning (RL) in particular, is the development of generalist and flexible agents that are capable of solving multiple tasks—each requiring the agent to learn a potentially new, specialized behavior. Importantly, tackling this challenge requires agents to learn behaviors that may involve optimizing a single objective, or trading off between multiple conflicting objectives. We argue that many important real-world tasks are naturally defined by multiple objectives, which when prioritized differently, may require the agent to adapt its behavior accordingly. In this thesis, we study the problem of how to design flexible RL agents that can, in a sample-efficient manner, adapt their behavior to solve any given tasks—each of which is defined by multiple (possibly conflicting) objectives. The main hypothesis of this thesis is that it is possible to meaningfully combine insights from two apparently disparate sub-fields of machine learning—multi-objective RL and multi-task RL—to design novel and principled techniques to address the problem discussed above. In particular, such insights arise from the fact that both of these fields typically deal with problems where an agent needs to learn multiple behaviors/policies. We introduce new multi-policy methods that empower RL agents to (i) carefully learn multiple behaviors, each specialized in a different task or in tasks in which an agent assigns different priorities (or preferences) to each of its objectives; and (ii) combine previously-learned behaviors to efficiently identify solutions to novel tasks. The methods we investigate and introduce have important theoretical guarantees regarding the optimality of the set of behaviors they identify and their capability of solving new tasks in a zero-shot manner, even in the presence of function approximation errors. We evaluate the proposed methods in various challenging multi-task and multi-objective RL problems and show that our algorithms outperform various current state-of-the-art methods in domains with both discrete and continuous state and action spaces.application/pdfengAprendizado por reforçoTransferência de aprendizadoAprendizado de máquinaInteligência artificialMulti-objective RLMulti-task RLTransfer learningModel-based RLSample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviorsAprendizado por reforço multitarefa e multiobjetivo eficiente via combinação de múltiplos comportamentos info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2025doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001255265.pdf.txt001255265.pdf.txtExtracted Texttext/plain400539http://www.lume.ufrgs.br/bitstream/10183/290816/2/001255265.pdf.txt7cd0197ab97277b1edbe74cc1b95cd73MD52ORIGINAL001255265.pdfTexto completo (inglês)application/pdf3724409http://www.lume.ufrgs.br/bitstream/10183/290816/1/001255265.pdf1a805df5bb5699ef704a28ec7ab738cdMD5110183/2908162025-04-26 06:56:23.169405oai:www.lume.ufrgs.br:10183/290816Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532025-04-26T09:56:23Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors
dc.title.alternative.pt.fl_str_mv Aprendizado por reforço multitarefa e multiobjetivo eficiente via combinação de múltiplos comportamentos
title Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors
spellingShingle Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors
Alegre, Lucas Nunes
Aprendizado por reforço
Transferência de aprendizado
Aprendizado de máquina
Inteligência artificial
Multi-objective RL
Multi-task RL
Transfer learning
Model-based RL
title_short Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors
title_full Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors
title_fullStr Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors
title_full_unstemmed Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors
title_sort Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors
author Alegre, Lucas Nunes
author_facet Alegre, Lucas Nunes
author_role author
dc.contributor.author.fl_str_mv Alegre, Lucas Nunes
dc.contributor.advisor1.fl_str_mv Bazzan, Ana Lucia Cetertich
contributor_str_mv Bazzan, Ana Lucia Cetertich
dc.subject.por.fl_str_mv Aprendizado por reforço
Transferência de aprendizado
Aprendizado de máquina
Inteligência artificial
topic Aprendizado por reforço
Transferência de aprendizado
Aprendizado de máquina
Inteligência artificial
Multi-objective RL
Multi-task RL
Transfer learning
Model-based RL
dc.subject.eng.fl_str_mv Multi-objective RL
Multi-task RL
Transfer learning
Model-based RL
description Ao resolver problemas de tomada de decisão sequencial, seres humanos exibem com portamentos diferentes dependendo do problema (ou tarefa) que devem resolver em um determinado momento. Um dos principais desafios na área de inteligência artificial, e de aprendizado por reforço (RL) em particular, é o desenvolvimento de agentes generalistas e f lexíveis que sejam capazes de resolver múltiplas tarefas ou problemas—cada uma exigindo que o agente aprenda um comportamento potencialmente novo e especializado. Superar esse desafio requer que agentes aprendam comportamentos que podem envolver otimizar umúnico objetivo, ou realizar “trade-offs” entre múltiplos objetivos conflitantes. Nós argu mentamos que muitas tarefas importantes do mundo real são naturalmente definidas por múltiplos objetivos que, quando priorizados de forma diferente, podem exigir que o agente adapte seu comportamento. Nesta tese, estudamos o problema de como projetar agentes de RLflexíveis que possam, de maneira eficiente em termos de quantidade de interações com o ambiente, adaptar seu comportamento para resolver qualquer tarefa—cada uma definida por múltiplos objetivos possivelmente conflitantes. A hipótese principal desta tese é que é possível combinar ideias de dois subcampos aparentemente díspares de aprendizado de máquina—RL multiobjetivo e RL multitarefa—para projetar novas técnicas com garantias teóricas para resolver o problema discutido acima. Em particular, tal combinação é possível porque ambos os campos lidam com problemas onde o agente precisa aprender múltiplos comportamentos/políticas. Nós introduzimos novos métodos multipolíticas que capacitam os agentes a (i) aprender cuidadosamente múltiplos comportamentos, cada um especia lizado em uma tarefa diferente ou em tarefas nas quais um agente atribui preferências diferentes para cada um de seus objetivos; e (ii) a combinar comportamentos previamente aprendidos para identificar eficientemente soluções para novas tarefas. Os métodos que investigamos e introduzimos têm importantes garantias teóricas em relação à otimalidade do conjunto de comportamentos identificados e sua capacidade de resolver novas tarefas de forma zero-shot, mesmo na presença de erros de aproximação de função. Avaliamos os métodos propostos em diversos problemas desafiadores de RL multitarefa e multiobjetivo e demonstramos que nossos algoritmos superam vários métodos estado-da-arte em domínios com espaços de estado e ação discretos ou contínuos.
publishDate 2025
dc.date.accessioned.fl_str_mv 2025-04-25T06:56:38Z
dc.date.issued.fl_str_mv 2025
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/290816
dc.identifier.nrb.pt_BR.fl_str_mv 001255265
url http://hdl.handle.net/10183/290816
identifier_str_mv 001255265
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/290816/2/001255265.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/290816/1/001255265.pdf
bitstream.checksum.fl_str_mv 7cd0197ab97277b1edbe74cc1b95cd73
1a805df5bb5699ef704a28ec7ab738cd
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1844167623550435328