Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.

Felizardo, Leonardo Kanashiro

Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Felizardo, Leonardo Kanashiro
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Approximate dynamic programming Aprendizado por reforço profundo Autonomous tading systems Deep reinforcement learning Multi-agent system Operations research Pesquisa operacional Sistemas autônomos Sistemas de negociação Sistemas multiagentes
Link de acesso:	https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26082024-093343/
Resumo:	Dado o ambiente complexo e em rápida mudança de hoje, é essencial elaborar metodologias robustas para a tomada de decisões. No domínio dos processos algorítmicos de tomada de decisão, o paradigma de Reinforcement Learning (RL) tem-se afirmado progressivamente como uma metodologia preeminente. Essa abordagem é especialmente proficiente ao lidar com ambientes caracterizados por atributos dinâmicos e não determinísticos. No entanto, é fundamental analisar a adequação de RL para cada aplicação. Nesta tese, utilizamos uma estrutura matemática unificada baseada no controle estocástico que nos ajuda a identificar as principais características de um problema, permitindo a descoberta de métodos mais eficazes para melhor convergência para um espaço de solução. Com esta estrutura matemática, desenvolvemos e descrevemos as duas contribuições significativas feitas nesta tese. Primeiramente, propomos um método de classificação denominado Residual Network Long Short-Term Memory Actor (RSLSTM-A) para resolver o Active Single-Asset Trading Problem (ASATP). Nosso método supervisionado proposto apresentou resultados superiores ao estado da arte dos métodos de RL . Como o ASATP é um tipo de problema onde a matriz de probabilidades de transição não depende das ações do agente, é razoável supor que a Supervised Learning possa ser capaz de alcançar melhores resultados frente ao uso de RL. Além disso, assumindo que nesta instância do problema nao enfrentamos um dilema de exploração-aproveitamento (exploration-exploitation), os métodos contextual bandit podem não ser adequados, estabelecendo-se Supervised Learning a melhor abordagem. Na segunda parte dos resultados desta tese, validamos o potencial das técnicas de RL em outra instância do problema, o Stochastic Discrete Lot-Sizing Problem (SDLSP), propondo uma abordagem multiagente que supera as principais técnicas de RL. Além disso, aplicamos estados pós-decisão para construir um método de Approximate Dynamic Programming que pode superar métodos básicos e de Deep Reinforcement Learning em várias configurações de SDLSP.

Metadados do item

id	USP_ece012d8fb6892e23669eed93aa6dbaf
oai_identifier_str	oai:teses.usp.br:tde-26082024-093343
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling	Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.Exploring the boundaries of deep reinforcement learning in simulated environments: a study on financial trading and lot-sizing.Approximate dynamic programmingAprendizado por reforço profundoAutonomous tading systemsDeep reinforcement learningMulti-agent systemOperations researchPesquisa operacionalSistemas autônomosSistemas de negociaçãoSistemas multiagentesDado o ambiente complexo e em rápida mudança de hoje, é essencial elaborar metodologias robustas para a tomada de decisões. No domínio dos processos algorítmicos de tomada de decisão, o paradigma de Reinforcement Learning (RL) tem-se afirmado progressivamente como uma metodologia preeminente. Essa abordagem é especialmente proficiente ao lidar com ambientes caracterizados por atributos dinâmicos e não determinísticos. No entanto, é fundamental analisar a adequação de RL para cada aplicação. Nesta tese, utilizamos uma estrutura matemática unificada baseada no controle estocástico que nos ajuda a identificar as principais características de um problema, permitindo a descoberta de métodos mais eficazes para melhor convergência para um espaço de solução. Com esta estrutura matemática, desenvolvemos e descrevemos as duas contribuições significativas feitas nesta tese. Primeiramente, propomos um método de classificação denominado Residual Network Long Short-Term Memory Actor (RSLSTM-A) para resolver o Active Single-Asset Trading Problem (ASATP). Nosso método supervisionado proposto apresentou resultados superiores ao estado da arte dos métodos de RL . Como o ASATP é um tipo de problema onde a matriz de probabilidades de transição não depende das ações do agente, é razoável supor que a Supervised Learning possa ser capaz de alcançar melhores resultados frente ao uso de RL. Além disso, assumindo que nesta instância do problema nao enfrentamos um dilema de exploração-aproveitamento (exploration-exploitation), os métodos contextual bandit podem não ser adequados, estabelecendo-se Supervised Learning a melhor abordagem. Na segunda parte dos resultados desta tese, validamos o potencial das técnicas de RL em outra instância do problema, o Stochastic Discrete Lot-Sizing Problem (SDLSP), propondo uma abordagem multiagente que supera as principais técnicas de RL. Além disso, aplicamos estados pós-decisão para construir um método de Approximate Dynamic Programming que pode superar métodos básicos e de Deep Reinforcement Learning em várias configurações de SDLSP.Given todays rapidly changing and complex environment, crafting robust methodologies for decision-making is essential. In algorithmic decision-making processes, the Reinforcement Learning (RL) paradigm has progressively asserted itself as a preeminent methodology. This approach is especially proficient when dealing with environments characterized by both dynamic and non-deterministic attributes. However, it is essential to analyze the suitability of RL for each problem application. In this thesis, we use a unified mathematical structure based on stochastic control that helps us identify the main characteristics of a problem, allowing the discovery of more effective methods for better convergence in the solution space. With this mathematical framework, we develop and describe the two significant contributions made in this thesis. Firstly, we propose a classification method named Residual Network Long Short-Term Memory Actor (RSLSTM-A) to solve the Active Single-Asset Trading Problem (ASATP). Our proposed supervised method presented results that are superior to state-of-the-art RL methods. Since the ASATP is a type of problem where the transition probability matrix is not dependent on the agents actions, it is reasonable to assume that Supervised Learning might achieve better results than RL. Also, assuming that in this problem instance, we do not face an exploration-exploitation dilemma, the contextual bandit methods may need to be revised, and Supervised Learning establishes itself as the best approach. In the second part of the results of this thesis, we validate the potential of RL techniques in another problem instance, the Stochastic Discrete Lot-Sizing Problem (SDLSP), by proposing a multi-agent approach that outperforms the leading RL techniques. Furthermore, we apply post-decision states to build an Approximate Dynamic Programming method that can outperform baseline and Deep Reinforcement Learning methods in various SDLSP settings.Biblioteca Digitais de Teses e Dissertações da USPHernandez, Emílio Del MoralFelizardo, Leonardo Kanashiro2024-01-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-26082024-093343/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-08-27T11:02:02Zoai:teses.usp.br:tde-26082024-093343Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212024-08-27T11:02:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes. Exploring the boundaries of deep reinforcement learning in simulated environments: a study on financial trading and lot-sizing.
title	Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.
spellingShingle	Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes. Felizardo, Leonardo Kanashiro Approximate dynamic programming Aprendizado por reforço profundo Autonomous tading systems Deep reinforcement learning Multi-agent system Operations research Pesquisa operacional Sistemas autônomos Sistemas de negociação Sistemas multiagentes
title_short	Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.
title_full	Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.
title_fullStr	Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.
title_full_unstemmed	Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.
title_sort	Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.
author	Felizardo, Leonardo Kanashiro
author_facet	Felizardo, Leonardo Kanashiro
author_role	author
dc.contributor.none.fl_str_mv	Hernandez, Emílio Del Moral
dc.contributor.author.fl_str_mv	Felizardo, Leonardo Kanashiro
dc.subject.por.fl_str_mv	Approximate dynamic programming Aprendizado por reforço profundo Autonomous tading systems Deep reinforcement learning Multi-agent system Operations research Pesquisa operacional Sistemas autônomos Sistemas de negociação Sistemas multiagentes
topic	Approximate dynamic programming Aprendizado por reforço profundo Autonomous tading systems Deep reinforcement learning Multi-agent system Operations research Pesquisa operacional Sistemas autônomos Sistemas de negociação Sistemas multiagentes
description	Dado o ambiente complexo e em rápida mudança de hoje, é essencial elaborar metodologias robustas para a tomada de decisões. No domínio dos processos algorítmicos de tomada de decisão, o paradigma de Reinforcement Learning (RL) tem-se afirmado progressivamente como uma metodologia preeminente. Essa abordagem é especialmente proficiente ao lidar com ambientes caracterizados por atributos dinâmicos e não determinísticos. No entanto, é fundamental analisar a adequação de RL para cada aplicação. Nesta tese, utilizamos uma estrutura matemática unificada baseada no controle estocástico que nos ajuda a identificar as principais características de um problema, permitindo a descoberta de métodos mais eficazes para melhor convergência para um espaço de solução. Com esta estrutura matemática, desenvolvemos e descrevemos as duas contribuições significativas feitas nesta tese. Primeiramente, propomos um método de classificação denominado Residual Network Long Short-Term Memory Actor (RSLSTM-A) para resolver o Active Single-Asset Trading Problem (ASATP). Nosso método supervisionado proposto apresentou resultados superiores ao estado da arte dos métodos de RL . Como o ASATP é um tipo de problema onde a matriz de probabilidades de transição não depende das ações do agente, é razoável supor que a Supervised Learning possa ser capaz de alcançar melhores resultados frente ao uso de RL. Além disso, assumindo que nesta instância do problema nao enfrentamos um dilema de exploração-aproveitamento (exploration-exploitation), os métodos contextual bandit podem não ser adequados, estabelecendo-se Supervised Learning a melhor abordagem. Na segunda parte dos resultados desta tese, validamos o potencial das técnicas de RL em outra instância do problema, o Stochastic Discrete Lot-Sizing Problem (SDLSP), propondo uma abordagem multiagente que supera as principais técnicas de RL. Além disso, aplicamos estados pós-decisão para construir um método de Approximate Dynamic Programming que pode superar métodos básicos e de Deep Reinforcement Learning em várias configurações de SDLSP.
publishDate	2024
dc.date.none.fl_str_mv	2024-01-11
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26082024-093343/
url	https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26082024-093343/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1815258500743299072

Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.

Registros relacionados