Exportação concluída — 

Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Felizardo, Leonardo Kanashiro
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26082024-093343/
Resumo: Dado o ambiente complexo e em rápida mudança de hoje, é essencial elaborar metodologias robustas para a tomada de decisões. No domínio dos processos algorítmicos de tomada de decisão, o paradigma de Reinforcement Learning (RL) tem-se afirmado progressivamente como uma metodologia preeminente. Essa abordagem é especialmente proficiente ao lidar com ambientes caracterizados por atributos dinâmicos e não determinísticos. No entanto, é fundamental analisar a adequação de RL para cada aplicação. Nesta tese, utilizamos uma estrutura matemática unificada baseada no controle estocástico que nos ajuda a identificar as principais características de um problema, permitindo a descoberta de métodos mais eficazes para melhor convergência para um espaço de solução. Com esta estrutura matemática, desenvolvemos e descrevemos as duas contribuições significativas feitas nesta tese. Primeiramente, propomos um método de classificação denominado Residual Network Long Short-Term Memory Actor (RSLSTM-A) para resolver o Active Single-Asset Trading Problem (ASATP). Nosso método supervisionado proposto apresentou resultados superiores ao estado da arte dos métodos de RL . Como o ASATP é um tipo de problema onde a matriz de probabilidades de transição não depende das ações do agente, é razoável supor que a Supervised Learning possa ser capaz de alcançar melhores resultados frente ao uso de RL. Além disso, assumindo que nesta instância do problema nao enfrentamos um dilema de exploração-aproveitamento (exploration-exploitation), os métodos contextual bandit podem não ser adequados, estabelecendo-se Supervised Learning a melhor abordagem. Na segunda parte dos resultados desta tese, validamos o potencial das técnicas de RL em outra instância do problema, o Stochastic Discrete Lot-Sizing Problem (SDLSP), propondo uma abordagem multiagente que supera as principais técnicas de RL. Além disso, aplicamos estados pós-decisão para construir um método de Approximate Dynamic Programming que pode superar métodos básicos e de Deep Reinforcement Learning em várias configurações de SDLSP.
id USP_ece012d8fb6892e23669eed93aa6dbaf
oai_identifier_str oai:teses.usp.br:tde-26082024-093343
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.Exploring the boundaries of deep reinforcement learning in simulated environments: a study on financial trading and lot-sizing.Approximate dynamic programmingAprendizado por reforço profundoAutonomous tading systemsDeep reinforcement learningMulti-agent systemOperations researchPesquisa operacionalSistemas autônomosSistemas de negociaçãoSistemas multiagentesDado o ambiente complexo e em rápida mudança de hoje, é essencial elaborar metodologias robustas para a tomada de decisões. No domínio dos processos algorítmicos de tomada de decisão, o paradigma de Reinforcement Learning (RL) tem-se afirmado progressivamente como uma metodologia preeminente. Essa abordagem é especialmente proficiente ao lidar com ambientes caracterizados por atributos dinâmicos e não determinísticos. No entanto, é fundamental analisar a adequação de RL para cada aplicação. Nesta tese, utilizamos uma estrutura matemática unificada baseada no controle estocástico que nos ajuda a identificar as principais características de um problema, permitindo a descoberta de métodos mais eficazes para melhor convergência para um espaço de solução. Com esta estrutura matemática, desenvolvemos e descrevemos as duas contribuições significativas feitas nesta tese. Primeiramente, propomos um método de classificação denominado Residual Network Long Short-Term Memory Actor (RSLSTM-A) para resolver o Active Single-Asset Trading Problem (ASATP). Nosso método supervisionado proposto apresentou resultados superiores ao estado da arte dos métodos de RL . Como o ASATP é um tipo de problema onde a matriz de probabilidades de transição não depende das ações do agente, é razoável supor que a Supervised Learning possa ser capaz de alcançar melhores resultados frente ao uso de RL. Além disso, assumindo que nesta instância do problema nao enfrentamos um dilema de exploração-aproveitamento (exploration-exploitation), os métodos contextual bandit podem não ser adequados, estabelecendo-se Supervised Learning a melhor abordagem. Na segunda parte dos resultados desta tese, validamos o potencial das técnicas de RL em outra instância do problema, o Stochastic Discrete Lot-Sizing Problem (SDLSP), propondo uma abordagem multiagente que supera as principais técnicas de RL. Além disso, aplicamos estados pós-decisão para construir um método de Approximate Dynamic Programming que pode superar métodos básicos e de Deep Reinforcement Learning em várias configurações de SDLSP.Given todays rapidly changing and complex environment, crafting robust methodologies for decision-making is essential. In algorithmic decision-making processes, the Reinforcement Learning (RL) paradigm has progressively asserted itself as a preeminent methodology. This approach is especially proficient when dealing with environments characterized by both dynamic and non-deterministic attributes. However, it is essential to analyze the suitability of RL for each problem application. In this thesis, we use a unified mathematical structure based on stochastic control that helps us identify the main characteristics of a problem, allowing the discovery of more effective methods for better convergence in the solution space. With this mathematical framework, we develop and describe the two significant contributions made in this thesis. Firstly, we propose a classification method named Residual Network Long Short-Term Memory Actor (RSLSTM-A) to solve the Active Single-Asset Trading Problem (ASATP). Our proposed supervised method presented results that are superior to state-of-the-art RL methods. Since the ASATP is a type of problem where the transition probability matrix is not dependent on the agents actions, it is reasonable to assume that Supervised Learning might achieve better results than RL. Also, assuming that in this problem instance, we do not face an exploration-exploitation dilemma, the contextual bandit methods may need to be revised, and Supervised Learning establishes itself as the best approach. In the second part of the results of this thesis, we validate the potential of RL techniques in another problem instance, the Stochastic Discrete Lot-Sizing Problem (SDLSP), by proposing a multi-agent approach that outperforms the leading RL techniques. Furthermore, we apply post-decision states to build an Approximate Dynamic Programming method that can outperform baseline and Deep Reinforcement Learning methods in various SDLSP settings.Biblioteca Digitais de Teses e Dissertações da USPHernandez, Emílio Del MoralFelizardo, Leonardo Kanashiro2024-01-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-26082024-093343/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-08-27T11:02:02Zoai:teses.usp.br:tde-26082024-093343Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-08-27T11:02:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.
Exploring the boundaries of deep reinforcement learning in simulated environments: a study on financial trading and lot-sizing.
title Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.
spellingShingle Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.
Felizardo, Leonardo Kanashiro
Approximate dynamic programming
Aprendizado por reforço profundo
Autonomous tading systems
Deep reinforcement learning
Multi-agent system
Operations research
Pesquisa operacional
Sistemas autônomos
Sistemas de negociação
Sistemas multiagentes
title_short Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.
title_full Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.
title_fullStr Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.
title_full_unstemmed Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.
title_sort Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.
author Felizardo, Leonardo Kanashiro
author_facet Felizardo, Leonardo Kanashiro
author_role author
dc.contributor.none.fl_str_mv Hernandez, Emílio Del Moral
dc.contributor.author.fl_str_mv Felizardo, Leonardo Kanashiro
dc.subject.por.fl_str_mv Approximate dynamic programming
Aprendizado por reforço profundo
Autonomous tading systems
Deep reinforcement learning
Multi-agent system
Operations research
Pesquisa operacional
Sistemas autônomos
Sistemas de negociação
Sistemas multiagentes
topic Approximate dynamic programming
Aprendizado por reforço profundo
Autonomous tading systems
Deep reinforcement learning
Multi-agent system
Operations research
Pesquisa operacional
Sistemas autônomos
Sistemas de negociação
Sistemas multiagentes
description Dado o ambiente complexo e em rápida mudança de hoje, é essencial elaborar metodologias robustas para a tomada de decisões. No domínio dos processos algorítmicos de tomada de decisão, o paradigma de Reinforcement Learning (RL) tem-se afirmado progressivamente como uma metodologia preeminente. Essa abordagem é especialmente proficiente ao lidar com ambientes caracterizados por atributos dinâmicos e não determinísticos. No entanto, é fundamental analisar a adequação de RL para cada aplicação. Nesta tese, utilizamos uma estrutura matemática unificada baseada no controle estocástico que nos ajuda a identificar as principais características de um problema, permitindo a descoberta de métodos mais eficazes para melhor convergência para um espaço de solução. Com esta estrutura matemática, desenvolvemos e descrevemos as duas contribuições significativas feitas nesta tese. Primeiramente, propomos um método de classificação denominado Residual Network Long Short-Term Memory Actor (RSLSTM-A) para resolver o Active Single-Asset Trading Problem (ASATP). Nosso método supervisionado proposto apresentou resultados superiores ao estado da arte dos métodos de RL . Como o ASATP é um tipo de problema onde a matriz de probabilidades de transição não depende das ações do agente, é razoável supor que a Supervised Learning possa ser capaz de alcançar melhores resultados frente ao uso de RL. Além disso, assumindo que nesta instância do problema nao enfrentamos um dilema de exploração-aproveitamento (exploration-exploitation), os métodos contextual bandit podem não ser adequados, estabelecendo-se Supervised Learning a melhor abordagem. Na segunda parte dos resultados desta tese, validamos o potencial das técnicas de RL em outra instância do problema, o Stochastic Discrete Lot-Sizing Problem (SDLSP), propondo uma abordagem multiagente que supera as principais técnicas de RL. Além disso, aplicamos estados pós-decisão para construir um método de Approximate Dynamic Programming que pode superar métodos básicos e de Deep Reinforcement Learning em várias configurações de SDLSP.
publishDate 2024
dc.date.none.fl_str_mv 2024-01-11
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26082024-093343/
url https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26082024-093343/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815258500743299072