Aprendizado por reforço profundo aplicado ao problema de alocação de veículos dinâmico e estocástico

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Cordeiro, Francisco Edyvalberty Alenquer
Orientador(a): Pitombeira Neto, Anselmo Ramalho
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Área do conhecimento CNPq:
Link de acesso: http://repositorio.ufc.br/handle/riufc/75618
Resumo: The dynamic and stochastic vehicle allocation problem involves deciding which vehicles to assign to requests that arise randomly in time and space. This challenge includes various practical scenarios, such as the transportation of goods by trucks, emergency response systems, and app- based transportation services. In this study, the problem was modeled as a semi-Markov decision process, allowing the treatment of time as a continuous variable. In this approach, decision moments coincide with discrete events with random durations. The use of this event-based strategy results in a significant reduction in decision space, thereby reducing the complexity of the allocation problems involved. Furthermore, it proves to be more suitable for practical situations when compared to discrete-time models often used in the literature. To validate the proposed approach, a discrete event simulator was developed, and two decision-making agents were trained using the reinforcement learning algorithm called Double Deep Q-Learning. Numerical experiments were conducted in realistic scenarios in New York, and the results of the proposed approach were compared with commonly employed heuristics, demonstrating substantial improvements, including up to a 50% reduction in average waiting times compared to other tested policies.
id UFC-7_6b2dc57b68d1b95f9bb6670540e317f0
oai_identifier_str oai:repositorio.ufc.br:riufc/75618
network_acronym_str UFC-7
network_name_str Repositório Institucional da Universidade Federal do Ceará (UFC)
repository_id_str
spelling Cordeiro, Francisco Edyvalberty AlenquerPitombeira Neto, Anselmo Ramalho2024-01-05T13:25:12Z2024-01-05T13:25:12Z2023-12-20CORDEIRO, Francisco Edyvalberty Alenquer. Aprendizado por reforço profundo aplicado ao problema de alocação de veículos dinâmico e estocástico. 2023. 106 f. Dissertação (Mestrado em Modelagem e Métodos Quantitativos) – Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2023.http://repositorio.ufc.br/handle/riufc/75618The dynamic and stochastic vehicle allocation problem involves deciding which vehicles to assign to requests that arise randomly in time and space. This challenge includes various practical scenarios, such as the transportation of goods by trucks, emergency response systems, and app- based transportation services. In this study, the problem was modeled as a semi-Markov decision process, allowing the treatment of time as a continuous variable. In this approach, decision moments coincide with discrete events with random durations. The use of this event-based strategy results in a significant reduction in decision space, thereby reducing the complexity of the allocation problems involved. Furthermore, it proves to be more suitable for practical situations when compared to discrete-time models often used in the literature. To validate the proposed approach, a discrete event simulator was developed, and two decision-making agents were trained using the reinforcement learning algorithm called Double Deep Q-Learning. Numerical experiments were conducted in realistic scenarios in New York, and the results of the proposed approach were compared with commonly employed heuristics, demonstrating substantial improvements, including up to a 50% reduction in average waiting times compared to other tested policies.O problema de alocação de veículos dinâmico e estocástico consiste em decidir quais veículos atribuir a solicitações que surgem de maneira aleatória no tempo e no espaço. Este desafio abrange diversas situações práticas, como o transporte de cargas por caminhões, sistemas de atendimento de emergência e serviços de transporte por aplicativo. Neste estudo, o problema foi modelado como um processo de decisão semimarkoviano, permitindo tratar o tempo como uma variável contínua. Nessa abordagem, os momentos de decisão coincidem com eventos discretos, cujas durações são aleatórias. A aplicação dessa estratégia baseada em eventos resulta em uma significativa redução do espaço de decisões, diminuindo a complexidade dos problemas de alocação envolvidos. Além disso, mostra-se mais adequada para situações práticas quando comparada com os modelos de tempo discreto frequentemente utilizados na literatura. Para validar a abordagem proposta, foi desenvolvido um simulador de eventos discretos e realizado o treinamento de dois agentes tomadores de decisão utilizando o algoritmo de aprendizado por reforço chamado Double Deep Q-Learning. Os experimentos numéricos foram conduzidos em cenários realistas de Nova York, e os resultados da abordagem proposta foram comparados com heurísticas comumente empregadas na prática, evidenciando melhorias substanciais, incluindo a redução de até 50% nos tempos médios de espera em comparação com as demais políticas testadas.Aprendizado por reforço profundo aplicado ao problema de alocação de veículos dinâmico e estocásticoDeep reinforcement learning applied to the dynamic and stochastic vehicle allocation probleminfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisOtimização matemáticaSimulação de eventos discretosAprendizado por reforçoRedes neurais (Computação)Q-learningProcesso de decisão semimarkovianoMathematical optimizationDiscrete event simulationReinforcement learningNeural networks (Computer science)Q-learningSemi-Markov decision processCNPQ::CIENCIAS EXATAS E DA TERRA::MATEMATICA::MATEMATICA APLICADAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal do Ceará (UFC)instname:Universidade Federal do Ceará (UFC)instacron:UFChttp://lattes.cnpq.br/96778721883196440000-0001-9234-8917http://lattes.cnpq.br/56615874135647132023-12-21LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.ufc.br/bitstream/riufc/75618/5/license.txt8a4605be74aa9ea9d79846c1fba20a33MD55ORIGINAL2023_dis_feacordeiro.pdf2023_dis_feacordeiro.pdfDissertação Edy Alenquerapplication/pdf14171534http://repositorio.ufc.br/bitstream/riufc/75618/6/2023_dis_feacordeiro.pdf8019f447245b704dc994080743bef11cMD56riufc/756182024-01-05 16:18:54.711oai:repositorio.ufc.br:riufc/75618Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttp://www.repositorio.ufc.br/ri-oai/requestbu@ufc.br || repositorio@ufc.bropendoar:2024-01-05T19:18:54Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)false
dc.title.pt_BR.fl_str_mv Aprendizado por reforço profundo aplicado ao problema de alocação de veículos dinâmico e estocástico
dc.title.en.pt_BR.fl_str_mv Deep reinforcement learning applied to the dynamic and stochastic vehicle allocation problem
title Aprendizado por reforço profundo aplicado ao problema de alocação de veículos dinâmico e estocástico
spellingShingle Aprendizado por reforço profundo aplicado ao problema de alocação de veículos dinâmico e estocástico
Cordeiro, Francisco Edyvalberty Alenquer
CNPQ::CIENCIAS EXATAS E DA TERRA::MATEMATICA::MATEMATICA APLICADA
Otimização matemática
Simulação de eventos discretos
Aprendizado por reforço
Redes neurais (Computação)
Q-learning
Processo de decisão semimarkoviano
Mathematical optimization
Discrete event simulation
Reinforcement learning
Neural networks (Computer science)
Q-learning
Semi-Markov decision process
title_short Aprendizado por reforço profundo aplicado ao problema de alocação de veículos dinâmico e estocástico
title_full Aprendizado por reforço profundo aplicado ao problema de alocação de veículos dinâmico e estocástico
title_fullStr Aprendizado por reforço profundo aplicado ao problema de alocação de veículos dinâmico e estocástico
title_full_unstemmed Aprendizado por reforço profundo aplicado ao problema de alocação de veículos dinâmico e estocástico
title_sort Aprendizado por reforço profundo aplicado ao problema de alocação de veículos dinâmico e estocástico
author Cordeiro, Francisco Edyvalberty Alenquer
author_facet Cordeiro, Francisco Edyvalberty Alenquer
author_role author
dc.contributor.author.fl_str_mv Cordeiro, Francisco Edyvalberty Alenquer
dc.contributor.advisor1.fl_str_mv Pitombeira Neto, Anselmo Ramalho
contributor_str_mv Pitombeira Neto, Anselmo Ramalho
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::MATEMATICA::MATEMATICA APLICADA
topic CNPQ::CIENCIAS EXATAS E DA TERRA::MATEMATICA::MATEMATICA APLICADA
Otimização matemática
Simulação de eventos discretos
Aprendizado por reforço
Redes neurais (Computação)
Q-learning
Processo de decisão semimarkoviano
Mathematical optimization
Discrete event simulation
Reinforcement learning
Neural networks (Computer science)
Q-learning
Semi-Markov decision process
dc.subject.ptbr.pt_BR.fl_str_mv Otimização matemática
Simulação de eventos discretos
Aprendizado por reforço
Redes neurais (Computação)
Q-learning
Processo de decisão semimarkoviano
dc.subject.en.pt_BR.fl_str_mv Mathematical optimization
Discrete event simulation
Reinforcement learning
Neural networks (Computer science)
Q-learning
Semi-Markov decision process
description The dynamic and stochastic vehicle allocation problem involves deciding which vehicles to assign to requests that arise randomly in time and space. This challenge includes various practical scenarios, such as the transportation of goods by trucks, emergency response systems, and app- based transportation services. In this study, the problem was modeled as a semi-Markov decision process, allowing the treatment of time as a continuous variable. In this approach, decision moments coincide with discrete events with random durations. The use of this event-based strategy results in a significant reduction in decision space, thereby reducing the complexity of the allocation problems involved. Furthermore, it proves to be more suitable for practical situations when compared to discrete-time models often used in the literature. To validate the proposed approach, a discrete event simulator was developed, and two decision-making agents were trained using the reinforcement learning algorithm called Double Deep Q-Learning. Numerical experiments were conducted in realistic scenarios in New York, and the results of the proposed approach were compared with commonly employed heuristics, demonstrating substantial improvements, including up to a 50% reduction in average waiting times compared to other tested policies.
publishDate 2023
dc.date.issued.fl_str_mv 2023-12-20
dc.date.accessioned.fl_str_mv 2024-01-05T13:25:12Z
dc.date.available.fl_str_mv 2024-01-05T13:25:12Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv CORDEIRO, Francisco Edyvalberty Alenquer. Aprendizado por reforço profundo aplicado ao problema de alocação de veículos dinâmico e estocástico. 2023. 106 f. Dissertação (Mestrado em Modelagem e Métodos Quantitativos) – Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2023.
dc.identifier.uri.fl_str_mv http://repositorio.ufc.br/handle/riufc/75618
identifier_str_mv CORDEIRO, Francisco Edyvalberty Alenquer. Aprendizado por reforço profundo aplicado ao problema de alocação de veículos dinâmico e estocástico. 2023. 106 f. Dissertação (Mestrado em Modelagem e Métodos Quantitativos) – Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2023.
url http://repositorio.ufc.br/handle/riufc/75618
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal do Ceará (UFC)
instname:Universidade Federal do Ceará (UFC)
instacron:UFC
instname_str Universidade Federal do Ceará (UFC)
instacron_str UFC
institution UFC
reponame_str Repositório Institucional da Universidade Federal do Ceará (UFC)
collection Repositório Institucional da Universidade Federal do Ceará (UFC)
bitstream.url.fl_str_mv http://repositorio.ufc.br/bitstream/riufc/75618/5/license.txt
http://repositorio.ufc.br/bitstream/riufc/75618/6/2023_dis_feacordeiro.pdf
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
8019f447245b704dc994080743bef11c
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)
repository.mail.fl_str_mv bu@ufc.br || repositorio@ufc.br
_version_ 1847793158613630976