Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partes
| Ano de defesa: | 2021 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/100/100131/tde-06052021-193841/ |
Resumo: | O Processo de Decisão de Markov (MDP) é comumente usado para modelar um problema de tomada de decisão sequencial em que um agente interage com um ambiente incerto enquanto busca minimizar o custo esperado acumulado ao longo do processo. Se o horizonte do processo for infinito, um fator de desconto γ ∈ [0,1] é usado para indicar a importância que o agente dá aos estados futuros. Se a missão do agente é atingir um estado meta, o processo se torna um problema de Caminho mais Curto Estocástico (Stochastic Shortest Path MDP - SSP-MDP), o modelo de fato usado para o planejamento probabilístico em inteligência artificial. Embora várias soluções eficientes tenham sido propostas para resolver SSP-MDPs, existem poucas pesquisas realizadas quando é considerado o risco em tais processos. Um MDP Sensível a Risco (Risk Sensitive MDP - RS-MDP) permite modelar as atitudes aversas e propensas a risco do agente, usando uma função de transformação linear por partes e incluindo um fator de risco e um fator de desconto. A prova de convergência de soluções conhecidas com base em programação dinâmica adaptada para RS-MDPs, como Iteração de Valor Sensível a Risco (RSVI) e Iteração de Política Sensível a Risco (RSPI), depende do fator de desconto. Porém, ao resolver um SSP-MDP busca-se uma política própria, ou seja, uma política que garanta o alcance da meta ao mesmo tempo em que minimiza o custo esperado acumulado, que é naturalmente modelado sem fator de desconto. Neste trabalho, foram projetados 3 algoritmos para SSP-MDP Sensível a Risco que usam uma função de transformação linear por partes, sem um fator de desconto, que são: Iteração de Valor (RSTL-VI), Iteração de Política (RSTL-PI) e o algoritmo ILAO* Sensível a Risco (RSTL-ILAO*). Também foi provada formalmente a convergência do algoritmo RSTL-PI. Foram feitos experimentos no domínio de Travessia do Rio e em um novo domínio baseado no Modelo Epidemiológico de Espalhamento de Doenças (SIR) com vacinação. Neste domínio, a dinâmica da quantidade de indivíduos suscetíveis, infectados e recuperados é controlada através de políticas de vacinação da população e inclui risco. Os resultados experimentais evidenciam que o algoritmo RSTL-ILAO* possui melhor desempenho do que os algoritmos RSTL-VI e RSTL-PI em ambos domínios. |
| id |
USP_aae9ac9ffe4dee8e06a493bf3550e177 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-06052021-193841 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partesAlgorithms for Risk-Sensitive Stochastic Shortest Path using Piecewise-linear transformation functionAlgorithms for risk sensitive Markov decision processesAlgoritmos para processos de decisão de Markov sensíveis a riscoMarkov decision processesPlanejamento probabilístico sensível a riscoProcessos de decisão de MarkovRiscoRiskRisk sensitive probabilistic planningO Processo de Decisão de Markov (MDP) é comumente usado para modelar um problema de tomada de decisão sequencial em que um agente interage com um ambiente incerto enquanto busca minimizar o custo esperado acumulado ao longo do processo. Se o horizonte do processo for infinito, um fator de desconto γ ∈ [0,1] é usado para indicar a importância que o agente dá aos estados futuros. Se a missão do agente é atingir um estado meta, o processo se torna um problema de Caminho mais Curto Estocástico (Stochastic Shortest Path MDP - SSP-MDP), o modelo de fato usado para o planejamento probabilístico em inteligência artificial. Embora várias soluções eficientes tenham sido propostas para resolver SSP-MDPs, existem poucas pesquisas realizadas quando é considerado o risco em tais processos. Um MDP Sensível a Risco (Risk Sensitive MDP - RS-MDP) permite modelar as atitudes aversas e propensas a risco do agente, usando uma função de transformação linear por partes e incluindo um fator de risco e um fator de desconto. A prova de convergência de soluções conhecidas com base em programação dinâmica adaptada para RS-MDPs, como Iteração de Valor Sensível a Risco (RSVI) e Iteração de Política Sensível a Risco (RSPI), depende do fator de desconto. Porém, ao resolver um SSP-MDP busca-se uma política própria, ou seja, uma política que garanta o alcance da meta ao mesmo tempo em que minimiza o custo esperado acumulado, que é naturalmente modelado sem fator de desconto. Neste trabalho, foram projetados 3 algoritmos para SSP-MDP Sensível a Risco que usam uma função de transformação linear por partes, sem um fator de desconto, que são: Iteração de Valor (RSTL-VI), Iteração de Política (RSTL-PI) e o algoritmo ILAO* Sensível a Risco (RSTL-ILAO*). Também foi provada formalmente a convergência do algoritmo RSTL-PI. Foram feitos experimentos no domínio de Travessia do Rio e em um novo domínio baseado no Modelo Epidemiológico de Espalhamento de Doenças (SIR) com vacinação. Neste domínio, a dinâmica da quantidade de indivíduos suscetíveis, infectados e recuperados é controlada através de políticas de vacinação da população e inclui risco. Os resultados experimentais evidenciam que o algoritmo RSTL-ILAO* possui melhor desempenho do que os algoritmos RSTL-VI e RSTL-PI em ambos domínios.A Markov Decision Process (MDP) is commonly used to model a sequential decision-making problem in which an agent interacts with an uncertain environment while seeking to minimize the expected cost accumulated over the process. If the process horizon is infinite, a discount γ ∈ [0.1] is used to indicate the importance that the agent gives to future states. If the agent\'s mission is to reach a goal state, the process becomes a Stochastic Shortest Path MDP (SSP-MDP) problem, the model actually used for probabilistic planning in artificial intelligence. Although several efficient solutions have been proposed to address SSP-MDPs, there are little research carried out when we consider the risk in such processes. A Risk Sensitive MDP (RS-MDP) allows modeling the agent\'s risk-averse and risk-prone attitudes, using a piecewise-linear transformation function and including a risk factor and a discount factor. The proof of convergence of known solutions based on dynamic programming adapted for RS-MDPs, such as Risk Sensitive Value Iteration (RSVI) and Risk Sensitive Policy Iteration (RSPI), rely on the discount factor. However, when solving an SSP-MDP, we need a proper policy, that is, a policy that guarantees to reach the goal while minimizing the accumulated expected cost, which is naturally modeled without discount factor. In this work, 3 algorithms were designed for Risk-Sensitive SSP-MDP that use a piecewise-linear transformation function, without a discount factor, which are: Value Iteration (RSTL-VI), Policy Iteration (RSTL-PI) and the Risk Sensitive ILAO* (RSTL-ILAO*) algorithm. The convergence of the RSTL-PI algorithm was also formally proven. Experiments were carried out in the Rio domain and in a new domain based on the Epidemiological Disease Spreading Model (SIR) with vaccination. In this domain, the dynamics of the number of susceptible, infected and recovered individuals is controlled through population vaccination policies and includes risk. The experimental results show that the RSTL-ILAO* algorithm has better performance than the RSTL-VI and RSTL-PI algorithms in both domains.Biblioteca Digitais de Teses e Dissertações da USPDelgado, Karina ValdiviaPastor, Henrique Dias2021-03-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-06052021-193841/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-06-13T12:30:02Zoai:teses.usp.br:tde-06052021-193841Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-06-13T12:30:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partes Algorithms for Risk-Sensitive Stochastic Shortest Path using Piecewise-linear transformation function |
| title |
Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partes |
| spellingShingle |
Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partes Pastor, Henrique Dias Algorithms for risk sensitive Markov decision processes Algoritmos para processos de decisão de Markov sensíveis a risco Markov decision processes Planejamento probabilístico sensível a risco Processos de decisão de Markov Risco Risk Risk sensitive probabilistic planning |
| title_short |
Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partes |
| title_full |
Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partes |
| title_fullStr |
Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partes |
| title_full_unstemmed |
Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partes |
| title_sort |
Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partes |
| author |
Pastor, Henrique Dias |
| author_facet |
Pastor, Henrique Dias |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Delgado, Karina Valdivia |
| dc.contributor.author.fl_str_mv |
Pastor, Henrique Dias |
| dc.subject.por.fl_str_mv |
Algorithms for risk sensitive Markov decision processes Algoritmos para processos de decisão de Markov sensíveis a risco Markov decision processes Planejamento probabilístico sensível a risco Processos de decisão de Markov Risco Risk Risk sensitive probabilistic planning |
| topic |
Algorithms for risk sensitive Markov decision processes Algoritmos para processos de decisão de Markov sensíveis a risco Markov decision processes Planejamento probabilístico sensível a risco Processos de decisão de Markov Risco Risk Risk sensitive probabilistic planning |
| description |
O Processo de Decisão de Markov (MDP) é comumente usado para modelar um problema de tomada de decisão sequencial em que um agente interage com um ambiente incerto enquanto busca minimizar o custo esperado acumulado ao longo do processo. Se o horizonte do processo for infinito, um fator de desconto γ ∈ [0,1] é usado para indicar a importância que o agente dá aos estados futuros. Se a missão do agente é atingir um estado meta, o processo se torna um problema de Caminho mais Curto Estocástico (Stochastic Shortest Path MDP - SSP-MDP), o modelo de fato usado para o planejamento probabilístico em inteligência artificial. Embora várias soluções eficientes tenham sido propostas para resolver SSP-MDPs, existem poucas pesquisas realizadas quando é considerado o risco em tais processos. Um MDP Sensível a Risco (Risk Sensitive MDP - RS-MDP) permite modelar as atitudes aversas e propensas a risco do agente, usando uma função de transformação linear por partes e incluindo um fator de risco e um fator de desconto. A prova de convergência de soluções conhecidas com base em programação dinâmica adaptada para RS-MDPs, como Iteração de Valor Sensível a Risco (RSVI) e Iteração de Política Sensível a Risco (RSPI), depende do fator de desconto. Porém, ao resolver um SSP-MDP busca-se uma política própria, ou seja, uma política que garanta o alcance da meta ao mesmo tempo em que minimiza o custo esperado acumulado, que é naturalmente modelado sem fator de desconto. Neste trabalho, foram projetados 3 algoritmos para SSP-MDP Sensível a Risco que usam uma função de transformação linear por partes, sem um fator de desconto, que são: Iteração de Valor (RSTL-VI), Iteração de Política (RSTL-PI) e o algoritmo ILAO* Sensível a Risco (RSTL-ILAO*). Também foi provada formalmente a convergência do algoritmo RSTL-PI. Foram feitos experimentos no domínio de Travessia do Rio e em um novo domínio baseado no Modelo Epidemiológico de Espalhamento de Doenças (SIR) com vacinação. Neste domínio, a dinâmica da quantidade de indivíduos suscetíveis, infectados e recuperados é controlada através de políticas de vacinação da população e inclui risco. Os resultados experimentais evidenciam que o algoritmo RSTL-ILAO* possui melhor desempenho do que os algoritmos RSTL-VI e RSTL-PI em ambos domínios. |
| publishDate |
2021 |
| dc.date.none.fl_str_mv |
2021-03-17 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/100/100131/tde-06052021-193841/ |
| url |
https://www.teses.usp.br/teses/disponiveis/100/100131/tde-06052021-193841/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1844786328738201600 |