Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partes

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Pastor, Henrique Dias
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/100/100131/tde-06052021-193841/
Resumo: O Processo de Decisão de Markov (MDP) é comumente usado para modelar um problema de tomada de decisão sequencial em que um agente interage com um ambiente incerto enquanto busca minimizar o custo esperado acumulado ao longo do processo. Se o horizonte do processo for infinito, um fator de desconto γ ∈ [0,1] é usado para indicar a importância que o agente dá aos estados futuros. Se a missão do agente é atingir um estado meta, o processo se torna um problema de Caminho mais Curto Estocástico (Stochastic Shortest Path MDP - SSP-MDP), o modelo de fato usado para o planejamento probabilístico em inteligência artificial. Embora várias soluções eficientes tenham sido propostas para resolver SSP-MDPs, existem poucas pesquisas realizadas quando é considerado o risco em tais processos. Um MDP Sensível a Risco (Risk Sensitive MDP - RS-MDP) permite modelar as atitudes aversas e propensas a risco do agente, usando uma função de transformação linear por partes e incluindo um fator de risco e um fator de desconto. A prova de convergência de soluções conhecidas com base em programação dinâmica adaptada para RS-MDPs, como Iteração de Valor Sensível a Risco (RSVI) e Iteração de Política Sensível a Risco (RSPI), depende do fator de desconto. Porém, ao resolver um SSP-MDP busca-se uma política própria, ou seja, uma política que garanta o alcance da meta ao mesmo tempo em que minimiza o custo esperado acumulado, que é naturalmente modelado sem fator de desconto. Neste trabalho, foram projetados 3 algoritmos para SSP-MDP Sensível a Risco que usam uma função de transformação linear por partes, sem um fator de desconto, que são: Iteração de Valor (RSTL-VI), Iteração de Política (RSTL-PI) e o algoritmo ILAO* Sensível a Risco (RSTL-ILAO*). Também foi provada formalmente a convergência do algoritmo RSTL-PI. Foram feitos experimentos no domínio de Travessia do Rio e em um novo domínio baseado no Modelo Epidemiológico de Espalhamento de Doenças (SIR) com vacinação. Neste domínio, a dinâmica da quantidade de indivíduos suscetíveis, infectados e recuperados é controlada através de políticas de vacinação da população e inclui risco. Os resultados experimentais evidenciam que o algoritmo RSTL-ILAO* possui melhor desempenho do que os algoritmos RSTL-VI e RSTL-PI em ambos domínios.
id USP_aae9ac9ffe4dee8e06a493bf3550e177
oai_identifier_str oai:teses.usp.br:tde-06052021-193841
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partesAlgorithms for Risk-Sensitive Stochastic Shortest Path using Piecewise-linear transformation functionAlgorithms for risk sensitive Markov decision processesAlgoritmos para processos de decisão de Markov sensíveis a riscoMarkov decision processesPlanejamento probabilístico sensível a riscoProcessos de decisão de MarkovRiscoRiskRisk sensitive probabilistic planningO Processo de Decisão de Markov (MDP) é comumente usado para modelar um problema de tomada de decisão sequencial em que um agente interage com um ambiente incerto enquanto busca minimizar o custo esperado acumulado ao longo do processo. Se o horizonte do processo for infinito, um fator de desconto γ ∈ [0,1] é usado para indicar a importância que o agente dá aos estados futuros. Se a missão do agente é atingir um estado meta, o processo se torna um problema de Caminho mais Curto Estocástico (Stochastic Shortest Path MDP - SSP-MDP), o modelo de fato usado para o planejamento probabilístico em inteligência artificial. Embora várias soluções eficientes tenham sido propostas para resolver SSP-MDPs, existem poucas pesquisas realizadas quando é considerado o risco em tais processos. Um MDP Sensível a Risco (Risk Sensitive MDP - RS-MDP) permite modelar as atitudes aversas e propensas a risco do agente, usando uma função de transformação linear por partes e incluindo um fator de risco e um fator de desconto. A prova de convergência de soluções conhecidas com base em programação dinâmica adaptada para RS-MDPs, como Iteração de Valor Sensível a Risco (RSVI) e Iteração de Política Sensível a Risco (RSPI), depende do fator de desconto. Porém, ao resolver um SSP-MDP busca-se uma política própria, ou seja, uma política que garanta o alcance da meta ao mesmo tempo em que minimiza o custo esperado acumulado, que é naturalmente modelado sem fator de desconto. Neste trabalho, foram projetados 3 algoritmos para SSP-MDP Sensível a Risco que usam uma função de transformação linear por partes, sem um fator de desconto, que são: Iteração de Valor (RSTL-VI), Iteração de Política (RSTL-PI) e o algoritmo ILAO* Sensível a Risco (RSTL-ILAO*). Também foi provada formalmente a convergência do algoritmo RSTL-PI. Foram feitos experimentos no domínio de Travessia do Rio e em um novo domínio baseado no Modelo Epidemiológico de Espalhamento de Doenças (SIR) com vacinação. Neste domínio, a dinâmica da quantidade de indivíduos suscetíveis, infectados e recuperados é controlada através de políticas de vacinação da população e inclui risco. Os resultados experimentais evidenciam que o algoritmo RSTL-ILAO* possui melhor desempenho do que os algoritmos RSTL-VI e RSTL-PI em ambos domínios.A Markov Decision Process (MDP) is commonly used to model a sequential decision-making problem in which an agent interacts with an uncertain environment while seeking to minimize the expected cost accumulated over the process. If the process horizon is infinite, a discount γ ∈ [0.1] is used to indicate the importance that the agent gives to future states. If the agent\'s mission is to reach a goal state, the process becomes a Stochastic Shortest Path MDP (SSP-MDP) problem, the model actually used for probabilistic planning in artificial intelligence. Although several efficient solutions have been proposed to address SSP-MDPs, there are little research carried out when we consider the risk in such processes. A Risk Sensitive MDP (RS-MDP) allows modeling the agent\'s risk-averse and risk-prone attitudes, using a piecewise-linear transformation function and including a risk factor and a discount factor. The proof of convergence of known solutions based on dynamic programming adapted for RS-MDPs, such as Risk Sensitive Value Iteration (RSVI) and Risk Sensitive Policy Iteration (RSPI), rely on the discount factor. However, when solving an SSP-MDP, we need a proper policy, that is, a policy that guarantees to reach the goal while minimizing the accumulated expected cost, which is naturally modeled without discount factor. In this work, 3 algorithms were designed for Risk-Sensitive SSP-MDP that use a piecewise-linear transformation function, without a discount factor, which are: Value Iteration (RSTL-VI), Policy Iteration (RSTL-PI) and the Risk Sensitive ILAO* (RSTL-ILAO*) algorithm. The convergence of the RSTL-PI algorithm was also formally proven. Experiments were carried out in the Rio domain and in a new domain based on the Epidemiological Disease Spreading Model (SIR) with vaccination. In this domain, the dynamics of the number of susceptible, infected and recovered individuals is controlled through population vaccination policies and includes risk. The experimental results show that the RSTL-ILAO* algorithm has better performance than the RSTL-VI and RSTL-PI algorithms in both domains.Biblioteca Digitais de Teses e Dissertações da USPDelgado, Karina ValdiviaPastor, Henrique Dias2021-03-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-06052021-193841/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-06-13T12:30:02Zoai:teses.usp.br:tde-06052021-193841Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-06-13T12:30:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partes
Algorithms for Risk-Sensitive Stochastic Shortest Path using Piecewise-linear transformation function
title Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partes
spellingShingle Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partes
Pastor, Henrique Dias
Algorithms for risk sensitive Markov decision processes
Algoritmos para processos de decisão de Markov sensíveis a risco
Markov decision processes
Planejamento probabilístico sensível a risco
Processos de decisão de Markov
Risco
Risk
Risk sensitive probabilistic planning
title_short Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partes
title_full Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partes
title_fullStr Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partes
title_full_unstemmed Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partes
title_sort Algoritmos para o problema de Caminho mais Curto Estocástico Sensível a Risco usando função de transformação linear por partes
author Pastor, Henrique Dias
author_facet Pastor, Henrique Dias
author_role author
dc.contributor.none.fl_str_mv Delgado, Karina Valdivia
dc.contributor.author.fl_str_mv Pastor, Henrique Dias
dc.subject.por.fl_str_mv Algorithms for risk sensitive Markov decision processes
Algoritmos para processos de decisão de Markov sensíveis a risco
Markov decision processes
Planejamento probabilístico sensível a risco
Processos de decisão de Markov
Risco
Risk
Risk sensitive probabilistic planning
topic Algorithms for risk sensitive Markov decision processes
Algoritmos para processos de decisão de Markov sensíveis a risco
Markov decision processes
Planejamento probabilístico sensível a risco
Processos de decisão de Markov
Risco
Risk
Risk sensitive probabilistic planning
description O Processo de Decisão de Markov (MDP) é comumente usado para modelar um problema de tomada de decisão sequencial em que um agente interage com um ambiente incerto enquanto busca minimizar o custo esperado acumulado ao longo do processo. Se o horizonte do processo for infinito, um fator de desconto γ ∈ [0,1] é usado para indicar a importância que o agente dá aos estados futuros. Se a missão do agente é atingir um estado meta, o processo se torna um problema de Caminho mais Curto Estocástico (Stochastic Shortest Path MDP - SSP-MDP), o modelo de fato usado para o planejamento probabilístico em inteligência artificial. Embora várias soluções eficientes tenham sido propostas para resolver SSP-MDPs, existem poucas pesquisas realizadas quando é considerado o risco em tais processos. Um MDP Sensível a Risco (Risk Sensitive MDP - RS-MDP) permite modelar as atitudes aversas e propensas a risco do agente, usando uma função de transformação linear por partes e incluindo um fator de risco e um fator de desconto. A prova de convergência de soluções conhecidas com base em programação dinâmica adaptada para RS-MDPs, como Iteração de Valor Sensível a Risco (RSVI) e Iteração de Política Sensível a Risco (RSPI), depende do fator de desconto. Porém, ao resolver um SSP-MDP busca-se uma política própria, ou seja, uma política que garanta o alcance da meta ao mesmo tempo em que minimiza o custo esperado acumulado, que é naturalmente modelado sem fator de desconto. Neste trabalho, foram projetados 3 algoritmos para SSP-MDP Sensível a Risco que usam uma função de transformação linear por partes, sem um fator de desconto, que são: Iteração de Valor (RSTL-VI), Iteração de Política (RSTL-PI) e o algoritmo ILAO* Sensível a Risco (RSTL-ILAO*). Também foi provada formalmente a convergência do algoritmo RSTL-PI. Foram feitos experimentos no domínio de Travessia do Rio e em um novo domínio baseado no Modelo Epidemiológico de Espalhamento de Doenças (SIR) com vacinação. Neste domínio, a dinâmica da quantidade de indivíduos suscetíveis, infectados e recuperados é controlada através de políticas de vacinação da população e inclui risco. Os resultados experimentais evidenciam que o algoritmo RSTL-ILAO* possui melhor desempenho do que os algoritmos RSTL-VI e RSTL-PI em ambos domínios.
publishDate 2021
dc.date.none.fl_str_mv 2021-03-17
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/100/100131/tde-06052021-193841/
url https://www.teses.usp.br/teses/disponiveis/100/100131/tde-06052021-193841/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1844786328738201600