Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors

Alegre, Lucas Nunes

Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors

Detalhes bibliográficos
Ano de defesa:	2025
Autor(a) principal:	Alegre, Lucas Nunes
Orientador(a):	Bazzan, Ana Lucia Cetertich
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Aprendizado por reforço Transferência de aprendizado Aprendizado de máquina Inteligência artificial
Palavras-chave em Inglês:	Multi-objective RL Multi-task RL Transfer learning Model-based RL
Link de acesso:	http://hdl.handle.net/10183/290816
Resumo:	Ao resolver problemas de tomada de decisão sequencial, seres humanos exibem com portamentos diferentes dependendo do problema (ou tarefa) que devem resolver em um determinado momento. Um dos principais desafios na área de inteligência artificial, e de aprendizado por reforço (RL) em particular, é o desenvolvimento de agentes generalistas e f lexíveis que sejam capazes de resolver múltiplas tarefas ou problemas—cada uma exigindo que o agente aprenda um comportamento potencialmente novo e especializado. Superar esse desafio requer que agentes aprendam comportamentos que podem envolver otimizar umúnico objetivo, ou realizar “trade-offs” entre múltiplos objetivos conflitantes. Nós argu mentamos que muitas tarefas importantes do mundo real são naturalmente definidas por múltiplos objetivos que, quando priorizados de forma diferente, podem exigir que o agente adapte seu comportamento. Nesta tese, estudamos o problema de como projetar agentes de RLflexíveis que possam, de maneira eficiente em termos de quantidade de interações com o ambiente, adaptar seu comportamento para resolver qualquer tarefa—cada uma definida por múltiplos objetivos possivelmente conflitantes. A hipótese principal desta tese é que é possível combinar ideias de dois subcampos aparentemente díspares de aprendizado de máquina—RL multiobjetivo e RL multitarefa—para projetar novas técnicas com garantias teóricas para resolver o problema discutido acima. Em particular, tal combinação é possível porque ambos os campos lidam com problemas onde o agente precisa aprender múltiplos comportamentos/políticas. Nós introduzimos novos métodos multipolíticas que capacitam os agentes a (i) aprender cuidadosamente múltiplos comportamentos, cada um especia lizado em uma tarefa diferente ou em tarefas nas quais um agente atribui preferências diferentes para cada um de seus objetivos; e (ii) a combinar comportamentos previamente aprendidos para identificar eficientemente soluções para novas tarefas. Os métodos que investigamos e introduzimos têm importantes garantias teóricas em relação à otimalidade do conjunto de comportamentos identificados e sua capacidade de resolver novas tarefas de forma zero-shot, mesmo na presença de erros de aproximação de função. Avaliamos os métodos propostos em diversos problemas desafiadores de RL multitarefa e multiobjetivo e demonstramos que nossos algoritmos superam vários métodos estado-da-arte em domínios com espaços de estado e ação discretos ou contínuos.

Metadados do item

id	URGS_c3696ff5cdfd23a1d257ee50c1728db3
oai_identifier_str	oai:www.lume.ufrgs.br:10183/290816
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling	Alegre, Lucas NunesBazzan, Ana Lucia Cetertich2025-04-25T06:56:38Z2025http://hdl.handle.net/10183/290816001255265Ao resolver problemas de tomada de decisão sequencial, seres humanos exibem com portamentos diferentes dependendo do problema (ou tarefa) que devem resolver em um determinado momento. Um dos principais desafios na área de inteligência artificial, e de aprendizado por reforço (RL) em particular, é o desenvolvimento de agentes generalistas e f lexíveis que sejam capazes de resolver múltiplas tarefas ou problemas—cada uma exigindo que o agente aprenda um comportamento potencialmente novo e especializado. Superar esse desafio requer que agentes aprendam comportamentos que podem envolver otimizar umúnico objetivo, ou realizar “trade-offs” entre múltiplos objetivos conflitantes. Nós argu mentamos que muitas tarefas importantes do mundo real são naturalmente definidas por múltiplos objetivos que, quando priorizados de forma diferente, podem exigir que o agente adapte seu comportamento. Nesta tese, estudamos o problema de como projetar agentes de RLflexíveis que possam, de maneira eficiente em termos de quantidade de interações com o ambiente, adaptar seu comportamento para resolver qualquer tarefa—cada uma definida por múltiplos objetivos possivelmente conflitantes. A hipótese principal desta tese é que é possível combinar ideias de dois subcampos aparentemente díspares de aprendizado de máquina—RL multiobjetivo e RL multitarefa—para projetar novas técnicas com garantias teóricas para resolver o problema discutido acima. Em particular, tal combinação é possível porque ambos os campos lidam com problemas onde o agente precisa aprender múltiplos comportamentos/políticas. Nós introduzimos novos métodos multipolíticas que capacitam os agentes a (i) aprender cuidadosamente múltiplos comportamentos, cada um especia lizado em uma tarefa diferente ou em tarefas nas quais um agente atribui preferências diferentes para cada um de seus objetivos; e (ii) a combinar comportamentos previamente aprendidos para identificar eficientemente soluções para novas tarefas. Os métodos que investigamos e introduzimos têm importantes garantias teóricas em relação à otimalidade do conjunto de comportamentos identificados e sua capacidade de resolver novas tarefas de forma zero-shot, mesmo na presença de erros de aproximação de função. Avaliamos os métodos propostos em diversos problemas desafiadores de RL multitarefa e multiobjetivo e demonstramos que nossos algoritmos superam vários métodos estado-da-arte em domínios com espaços de estado e ação discretos ou contínuos.When solving sequential decision-making problems, humans exhibit different behaviors depending on the problem (or task) they are tasked with solving at a given moment. One of the main challenges in the field of artificial intelligence, and reinforcement learning (RL) in particular, is the development of generalist and flexible agents that are capable of solving multiple tasks—each requiring the agent to learn a potentially new, specialized behavior. Importantly, tackling this challenge requires agents to learn behaviors that may involve optimizing a single objective, or trading off between multiple conflicting objectives. We argue that many important real-world tasks are naturally defined by multiple objectives, which when prioritized differently, may require the agent to adapt its behavior accordingly. In this thesis, we study the problem of how to design flexible RL agents that can, in a sample-efficient manner, adapt their behavior to solve any given tasks—each of which is defined by multiple (possibly conflicting) objectives. The main hypothesis of this thesis is that it is possible to meaningfully combine insights from two apparently disparate sub-fields of machine learning—multi-objective RL and multi-task RL—to design novel and principled techniques to address the problem discussed above. In particular, such insights arise from the fact that both of these fields typically deal with problems where an agent needs to learn multiple behaviors/policies. We introduce new multi-policy methods that empower RL agents to (i) carefully learn multiple behaviors, each specialized in a different task or in tasks in which an agent assigns different priorities (or preferences) to each of its objectives; and (ii) combine previously-learned behaviors to efficiently identify solutions to novel tasks. The methods we investigate and introduce have important theoretical guarantees regarding the optimality of the set of behaviors they identify and their capability of solving new tasks in a zero-shot manner, even in the presence of function approximation errors. We evaluate the proposed methods in various challenging multi-task and multi-objective RL problems and show that our algorithms outperform various current state-of-the-art methods in domains with both discrete and continuous state and action spaces.application/pdfengAprendizado por reforçoTransferência de aprendizadoAprendizado de máquinaInteligência artificialMulti-objective RLMulti-task RLTransfer learningModel-based RLSample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviorsAprendizado por reforço multitarefa e multiobjetivo eficiente via combinação de múltiplos comportamentos info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2025doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001255265.pdf.txt001255265.pdf.txtExtracted Texttext/plain400539http://www.lume.ufrgs.br/bitstream/10183/290816/2/001255265.pdf.txt7cd0197ab97277b1edbe74cc1b95cd73MD52ORIGINAL001255265.pdfTexto completo (inglês)application/pdf3724409http://www.lume.ufrgs.br/bitstream/10183/290816/1/001255265.pdf1a805df5bb5699ef704a28ec7ab738cdMD5110183/2908162025-04-26 06:56:23.169405oai:www.lume.ufrgs.br:10183/290816Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532025-04-26T09:56:23Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors
dc.title.alternative.pt.fl_str_mv	Aprendizado por reforço multitarefa e multiobjetivo eficiente via combinação de múltiplos comportamentos
title	Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors
spellingShingle	Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors Alegre, Lucas Nunes Aprendizado por reforço Transferência de aprendizado Aprendizado de máquina Inteligência artificial Multi-objective RL Multi-task RL Transfer learning Model-based RL
title_short	Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors
title_full	Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors
title_fullStr	Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors
title_full_unstemmed	Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors
title_sort	Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors
author	Alegre, Lucas Nunes
author_facet	Alegre, Lucas Nunes
author_role	author
dc.contributor.author.fl_str_mv	Alegre, Lucas Nunes
dc.contributor.advisor1.fl_str_mv	Bazzan, Ana Lucia Cetertich
contributor_str_mv	Bazzan, Ana Lucia Cetertich
dc.subject.por.fl_str_mv	Aprendizado por reforço Transferência de aprendizado Aprendizado de máquina Inteligência artificial
topic	Aprendizado por reforço Transferência de aprendizado Aprendizado de máquina Inteligência artificial Multi-objective RL Multi-task RL Transfer learning Model-based RL
dc.subject.eng.fl_str_mv	Multi-objective RL Multi-task RL Transfer learning Model-based RL
description	Ao resolver problemas de tomada de decisão sequencial, seres humanos exibem com portamentos diferentes dependendo do problema (ou tarefa) que devem resolver em um determinado momento. Um dos principais desafios na área de inteligência artificial, e de aprendizado por reforço (RL) em particular, é o desenvolvimento de agentes generalistas e f lexíveis que sejam capazes de resolver múltiplas tarefas ou problemas—cada uma exigindo que o agente aprenda um comportamento potencialmente novo e especializado. Superar esse desafio requer que agentes aprendam comportamentos que podem envolver otimizar umúnico objetivo, ou realizar “trade-offs” entre múltiplos objetivos conflitantes. Nós argu mentamos que muitas tarefas importantes do mundo real são naturalmente definidas por múltiplos objetivos que, quando priorizados de forma diferente, podem exigir que o agente adapte seu comportamento. Nesta tese, estudamos o problema de como projetar agentes de RLflexíveis que possam, de maneira eficiente em termos de quantidade de interações com o ambiente, adaptar seu comportamento para resolver qualquer tarefa—cada uma definida por múltiplos objetivos possivelmente conflitantes. A hipótese principal desta tese é que é possível combinar ideias de dois subcampos aparentemente díspares de aprendizado de máquina—RL multiobjetivo e RL multitarefa—para projetar novas técnicas com garantias teóricas para resolver o problema discutido acima. Em particular, tal combinação é possível porque ambos os campos lidam com problemas onde o agente precisa aprender múltiplos comportamentos/políticas. Nós introduzimos novos métodos multipolíticas que capacitam os agentes a (i) aprender cuidadosamente múltiplos comportamentos, cada um especia lizado em uma tarefa diferente ou em tarefas nas quais um agente atribui preferências diferentes para cada um de seus objetivos; e (ii) a combinar comportamentos previamente aprendidos para identificar eficientemente soluções para novas tarefas. Os métodos que investigamos e introduzimos têm importantes garantias teóricas em relação à otimalidade do conjunto de comportamentos identificados e sua capacidade de resolver novas tarefas de forma zero-shot, mesmo na presença de erros de aproximação de função. Avaliamos os métodos propostos em diversos problemas desafiadores de RL multitarefa e multiobjetivo e demonstramos que nossos algoritmos superam vários métodos estado-da-arte em domínios com espaços de estado e ação discretos ou contínuos.
publishDate	2025
dc.date.accessioned.fl_str_mv	2025-04-25T06:56:38Z
dc.date.issued.fl_str_mv	2025
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/290816
dc.identifier.nrb.pt_BR.fl_str_mv	001255265
url	http://hdl.handle.net/10183/290816
identifier_str_mv	001255265
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/290816/2/001255265.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/290816/1/001255265.pdf
bitstream.checksum.fl_str_mv	7cd0197ab97277b1edbe74cc1b95cd73 1a805df5bb5699ef704a28ec7ab738cd
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1844167623550435328

Sample-efficient multi-task and multi-objective reinforcement learning by combining multiple behaviors

Registros relacionados