Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26082024-093343/ |
Resumo: | Dado o ambiente complexo e em rápida mudança de hoje, é essencial elaborar metodologias robustas para a tomada de decisões. No domínio dos processos algorítmicos de tomada de decisão, o paradigma de Reinforcement Learning (RL) tem-se afirmado progressivamente como uma metodologia preeminente. Essa abordagem é especialmente proficiente ao lidar com ambientes caracterizados por atributos dinâmicos e não determinísticos. No entanto, é fundamental analisar a adequação de RL para cada aplicação. Nesta tese, utilizamos uma estrutura matemática unificada baseada no controle estocástico que nos ajuda a identificar as principais características de um problema, permitindo a descoberta de métodos mais eficazes para melhor convergência para um espaço de solução. Com esta estrutura matemática, desenvolvemos e descrevemos as duas contribuições significativas feitas nesta tese. Primeiramente, propomos um método de classificação denominado Residual Network Long Short-Term Memory Actor (RSLSTM-A) para resolver o Active Single-Asset Trading Problem (ASATP). Nosso método supervisionado proposto apresentou resultados superiores ao estado da arte dos métodos de RL . Como o ASATP é um tipo de problema onde a matriz de probabilidades de transição não depende das ações do agente, é razoável supor que a Supervised Learning possa ser capaz de alcançar melhores resultados frente ao uso de RL. Além disso, assumindo que nesta instância do problema nao enfrentamos um dilema de exploração-aproveitamento (exploration-exploitation), os métodos contextual bandit podem não ser adequados, estabelecendo-se Supervised Learning a melhor abordagem. Na segunda parte dos resultados desta tese, validamos o potencial das técnicas de RL em outra instância do problema, o Stochastic Discrete Lot-Sizing Problem (SDLSP), propondo uma abordagem multiagente que supera as principais técnicas de RL. Além disso, aplicamos estados pós-decisão para construir um método de Approximate Dynamic Programming que pode superar métodos básicos e de Deep Reinforcement Learning em várias configurações de SDLSP. |
| id |
USP_ece012d8fb6892e23669eed93aa6dbaf |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-26082024-093343 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.Exploring the boundaries of deep reinforcement learning in simulated environments: a study on financial trading and lot-sizing.Approximate dynamic programmingAprendizado por reforço profundoAutonomous tading systemsDeep reinforcement learningMulti-agent systemOperations researchPesquisa operacionalSistemas autônomosSistemas de negociaçãoSistemas multiagentesDado o ambiente complexo e em rápida mudança de hoje, é essencial elaborar metodologias robustas para a tomada de decisões. No domínio dos processos algorítmicos de tomada de decisão, o paradigma de Reinforcement Learning (RL) tem-se afirmado progressivamente como uma metodologia preeminente. Essa abordagem é especialmente proficiente ao lidar com ambientes caracterizados por atributos dinâmicos e não determinísticos. No entanto, é fundamental analisar a adequação de RL para cada aplicação. Nesta tese, utilizamos uma estrutura matemática unificada baseada no controle estocástico que nos ajuda a identificar as principais características de um problema, permitindo a descoberta de métodos mais eficazes para melhor convergência para um espaço de solução. Com esta estrutura matemática, desenvolvemos e descrevemos as duas contribuições significativas feitas nesta tese. Primeiramente, propomos um método de classificação denominado Residual Network Long Short-Term Memory Actor (RSLSTM-A) para resolver o Active Single-Asset Trading Problem (ASATP). Nosso método supervisionado proposto apresentou resultados superiores ao estado da arte dos métodos de RL . Como o ASATP é um tipo de problema onde a matriz de probabilidades de transição não depende das ações do agente, é razoável supor que a Supervised Learning possa ser capaz de alcançar melhores resultados frente ao uso de RL. Além disso, assumindo que nesta instância do problema nao enfrentamos um dilema de exploração-aproveitamento (exploration-exploitation), os métodos contextual bandit podem não ser adequados, estabelecendo-se Supervised Learning a melhor abordagem. Na segunda parte dos resultados desta tese, validamos o potencial das técnicas de RL em outra instância do problema, o Stochastic Discrete Lot-Sizing Problem (SDLSP), propondo uma abordagem multiagente que supera as principais técnicas de RL. Além disso, aplicamos estados pós-decisão para construir um método de Approximate Dynamic Programming que pode superar métodos básicos e de Deep Reinforcement Learning em várias configurações de SDLSP.Given todays rapidly changing and complex environment, crafting robust methodologies for decision-making is essential. In algorithmic decision-making processes, the Reinforcement Learning (RL) paradigm has progressively asserted itself as a preeminent methodology. This approach is especially proficient when dealing with environments characterized by both dynamic and non-deterministic attributes. However, it is essential to analyze the suitability of RL for each problem application. In this thesis, we use a unified mathematical structure based on stochastic control that helps us identify the main characteristics of a problem, allowing the discovery of more effective methods for better convergence in the solution space. With this mathematical framework, we develop and describe the two significant contributions made in this thesis. Firstly, we propose a classification method named Residual Network Long Short-Term Memory Actor (RSLSTM-A) to solve the Active Single-Asset Trading Problem (ASATP). Our proposed supervised method presented results that are superior to state-of-the-art RL methods. Since the ASATP is a type of problem where the transition probability matrix is not dependent on the agents actions, it is reasonable to assume that Supervised Learning might achieve better results than RL. Also, assuming that in this problem instance, we do not face an exploration-exploitation dilemma, the contextual bandit methods may need to be revised, and Supervised Learning establishes itself as the best approach. In the second part of the results of this thesis, we validate the potential of RL techniques in another problem instance, the Stochastic Discrete Lot-Sizing Problem (SDLSP), by proposing a multi-agent approach that outperforms the leading RL techniques. Furthermore, we apply post-decision states to build an Approximate Dynamic Programming method that can outperform baseline and Deep Reinforcement Learning methods in various SDLSP settings.Biblioteca Digitais de Teses e Dissertações da USPHernandez, Emílio Del MoralFelizardo, Leonardo Kanashiro2024-01-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-26082024-093343/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-08-27T11:02:02Zoai:teses.usp.br:tde-26082024-093343Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-08-27T11:02:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes. Exploring the boundaries of deep reinforcement learning in simulated environments: a study on financial trading and lot-sizing. |
| title |
Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes. |
| spellingShingle |
Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes. Felizardo, Leonardo Kanashiro Approximate dynamic programming Aprendizado por reforço profundo Autonomous tading systems Deep reinforcement learning Multi-agent system Operations research Pesquisa operacional Sistemas autônomos Sistemas de negociação Sistemas multiagentes |
| title_short |
Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes. |
| title_full |
Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes. |
| title_fullStr |
Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes. |
| title_full_unstemmed |
Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes. |
| title_sort |
Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes. |
| author |
Felizardo, Leonardo Kanashiro |
| author_facet |
Felizardo, Leonardo Kanashiro |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Hernandez, Emílio Del Moral |
| dc.contributor.author.fl_str_mv |
Felizardo, Leonardo Kanashiro |
| dc.subject.por.fl_str_mv |
Approximate dynamic programming Aprendizado por reforço profundo Autonomous tading systems Deep reinforcement learning Multi-agent system Operations research Pesquisa operacional Sistemas autônomos Sistemas de negociação Sistemas multiagentes |
| topic |
Approximate dynamic programming Aprendizado por reforço profundo Autonomous tading systems Deep reinforcement learning Multi-agent system Operations research Pesquisa operacional Sistemas autônomos Sistemas de negociação Sistemas multiagentes |
| description |
Dado o ambiente complexo e em rápida mudança de hoje, é essencial elaborar metodologias robustas para a tomada de decisões. No domínio dos processos algorítmicos de tomada de decisão, o paradigma de Reinforcement Learning (RL) tem-se afirmado progressivamente como uma metodologia preeminente. Essa abordagem é especialmente proficiente ao lidar com ambientes caracterizados por atributos dinâmicos e não determinísticos. No entanto, é fundamental analisar a adequação de RL para cada aplicação. Nesta tese, utilizamos uma estrutura matemática unificada baseada no controle estocástico que nos ajuda a identificar as principais características de um problema, permitindo a descoberta de métodos mais eficazes para melhor convergência para um espaço de solução. Com esta estrutura matemática, desenvolvemos e descrevemos as duas contribuições significativas feitas nesta tese. Primeiramente, propomos um método de classificação denominado Residual Network Long Short-Term Memory Actor (RSLSTM-A) para resolver o Active Single-Asset Trading Problem (ASATP). Nosso método supervisionado proposto apresentou resultados superiores ao estado da arte dos métodos de RL . Como o ASATP é um tipo de problema onde a matriz de probabilidades de transição não depende das ações do agente, é razoável supor que a Supervised Learning possa ser capaz de alcançar melhores resultados frente ao uso de RL. Além disso, assumindo que nesta instância do problema nao enfrentamos um dilema de exploração-aproveitamento (exploration-exploitation), os métodos contextual bandit podem não ser adequados, estabelecendo-se Supervised Learning a melhor abordagem. Na segunda parte dos resultados desta tese, validamos o potencial das técnicas de RL em outra instância do problema, o Stochastic Discrete Lot-Sizing Problem (SDLSP), propondo uma abordagem multiagente que supera as principais técnicas de RL. Além disso, aplicamos estados pós-decisão para construir um método de Approximate Dynamic Programming que pode superar métodos básicos e de Deep Reinforcement Learning em várias configurações de SDLSP. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-01-11 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26082024-093343/ |
| url |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26082024-093343/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1815258500743299072 |