Aplicação de técnicas de aprendizado por reforço na solução do problema de corte de estoque multiperíodo estocástico

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Murta, Arthur Hermont Fonseca
Orientador(a): Pitombeira Neto, Anselmo Ramalho
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://www.repositorio.ufc.br/handle/riufc/70010
Resumo: The cutting stock problem is a combinatorial optimization problem that consists of cutting larger objects in order to produce smaller pieces to meet a given demand in order to minimize material losses. This dissertation addresses up a multiperiod stochastic variant in which the problem is solved in multiple periods of time and we do not know exactly what the future demand will be, which is modeled as a random variable. This problem variant corresponds more closely to the reality of companies, which usually do not know in advance the demand for each time period. First, the stochastic multiperiod cutting stock problem was modeled as a Markovian decision process. A solution to the problem corresponds to an optimal decision policy, which is defined as what action to be taken every time to minimize the expected total cost. Exact algorithms to calculate an optimal policy require large computational effort when the problem size grows, then reinforcement learning techniques were used through an approximate policy iteration algorithm using a Bayesian filter. Computational experiments were performed to illustrate the application of the approach to real data on cutting steel bars in construction industry. The results indicate that the performance of the policy obtained by the proposed approach was up to fifty times better than the performance using a short-sighted policy, which does not take into account the future impact of decisions taken in the present.
id UFC-7_04c9271204aff80bdfc9995ab887f165
oai_identifier_str oai:repositorio.ufc.br:riufc/70010
network_acronym_str UFC-7
network_name_str Repositório Institucional da Universidade Federal do Ceará (UFC)
repository_id_str
spelling Murta, Arthur Hermont FonsecaPitombeira Neto, Anselmo Ramalho2023-01-09T12:13:34Z2023-01-09T12:13:34Z2021MURTA, Arthur Hermont Fonseca. Aplicação de técnicas de aprendizado por reforço na solução do problema de corte de estoque multiperíodo estocástico. 2021. 82 f. Dissertação (Mestrado em Modelagem e Métodos Quantitativos) - Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2021.http://www.repositorio.ufc.br/handle/riufc/70010The cutting stock problem is a combinatorial optimization problem that consists of cutting larger objects in order to produce smaller pieces to meet a given demand in order to minimize material losses. This dissertation addresses up a multiperiod stochastic variant in which the problem is solved in multiple periods of time and we do not know exactly what the future demand will be, which is modeled as a random variable. This problem variant corresponds more closely to the reality of companies, which usually do not know in advance the demand for each time period. First, the stochastic multiperiod cutting stock problem was modeled as a Markovian decision process. A solution to the problem corresponds to an optimal decision policy, which is defined as what action to be taken every time to minimize the expected total cost. Exact algorithms to calculate an optimal policy require large computational effort when the problem size grows, then reinforcement learning techniques were used through an approximate policy iteration algorithm using a Bayesian filter. Computational experiments were performed to illustrate the application of the approach to real data on cutting steel bars in construction industry. The results indicate that the performance of the policy obtained by the proposed approach was up to fifty times better than the performance using a short-sighted policy, which does not take into account the future impact of decisions taken in the present.O problema de corte de estoque é um problema de otimização combinatória que consiste em cortar objetos maiores a fim de produzir peças menores para atender uma dada demanda de forma a minimizar as perdas de material. Nesta dissertação, aborda-se uma variante multiperíodo estocástica na qual o problema é resolvido em múltiplos períodos de tempo e não se sabe exatamente qual é a demanda futura, a qual é modelada como uma variável aleatória. Essa variante corresponde mais fielmente à realidade das empresas, em que normalmente não se conhece antecipadamente a demanda em cada período de tempo. Primeiramente, o problema de corte de estoque multiperíodo estocástico foi modelado como um processo de decisão markoviano. Uma solução para o problema corresponde a uma política de decisão ótima, a qual é definida como sendo qual ação a ser tomada a cada período de tempo de forma a minimizar o custo esperado total a longo prazo. Algoritmos exatos para calcular uma política ótima requerem grande esforço computacional quando o tamanho do problema cresce, por isso foram utilizadas técnicas de aprendizado por reforço por meio de um algoritmo de iteração de política aproximada com o uso de um filtro bayesiano. Experimentos computacionais foram realizados para ilustrar a aplicação da abordagem com uso de dados reais de corte de barras de aço em obras de construção civil. Os resultados indicam que o desempenho da política obtida pela abordagem proposta foi até cinquenta vezes melhor do que o desempenho utilizando uma política míope, a qual não leva em conta o impacto futuro de decisões tomadas no presente.Cutting stock problemReinforcement learningApproximate dynamic programmingCombinatorial optimizationProblema de corte de estoqueAprendizado por reforçoProgramação dinâmica aproximadaOtimização combinatóriaAplicação de técnicas de aprendizado por reforço na solução do problema de corte de estoque multiperíodo estocásticoApplying reinforcement learning techniques to the solution of the multi-period stochastic stock cutting probleminfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da Universidade Federal do Ceará (UFC)instname:Universidade Federal do Ceará (UFC)instacron:UFCinfo:eu-repo/semantics/openAccessORIGINALdis_2021_ahfmurta.pdfdis_2021_ahfmurta.pdfapplication/pdf24148973http://repositorio.ufc.br/bitstream/riufc/70010/5/dis_2021_ahfmurta.pdf87543c2f9ae2a27440f971e3c372043bMD55LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.ufc.br/bitstream/riufc/70010/4/license.txt8a4605be74aa9ea9d79846c1fba20a33MD54riufc/700102023-02-27 15:15:52.431oai:repositorio.ufc.br:riufc/70010Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttp://www.repositorio.ufc.br/ri-oai/requestbu@ufc.br || repositorio@ufc.bropendoar:2023-02-27T18:15:52Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)false
dc.title.pt_BR.fl_str_mv Aplicação de técnicas de aprendizado por reforço na solução do problema de corte de estoque multiperíodo estocástico
dc.title.en.eng.fl_str_mv Applying reinforcement learning techniques to the solution of the multi-period stochastic stock cutting problem
title Aplicação de técnicas de aprendizado por reforço na solução do problema de corte de estoque multiperíodo estocástico
spellingShingle Aplicação de técnicas de aprendizado por reforço na solução do problema de corte de estoque multiperíodo estocástico
Murta, Arthur Hermont Fonseca
Cutting stock problem
Reinforcement learning
Approximate dynamic programming
Combinatorial optimization
Problema de corte de estoque
Aprendizado por reforço
Programação dinâmica aproximada
Otimização combinatória
title_short Aplicação de técnicas de aprendizado por reforço na solução do problema de corte de estoque multiperíodo estocástico
title_full Aplicação de técnicas de aprendizado por reforço na solução do problema de corte de estoque multiperíodo estocástico
title_fullStr Aplicação de técnicas de aprendizado por reforço na solução do problema de corte de estoque multiperíodo estocástico
title_full_unstemmed Aplicação de técnicas de aprendizado por reforço na solução do problema de corte de estoque multiperíodo estocástico
title_sort Aplicação de técnicas de aprendizado por reforço na solução do problema de corte de estoque multiperíodo estocástico
author Murta, Arthur Hermont Fonseca
author_facet Murta, Arthur Hermont Fonseca
author_role author
dc.contributor.author.fl_str_mv Murta, Arthur Hermont Fonseca
dc.contributor.advisor1.fl_str_mv Pitombeira Neto, Anselmo Ramalho
contributor_str_mv Pitombeira Neto, Anselmo Ramalho
dc.subject.eng.fl_str_mv Cutting stock problem
Reinforcement learning
Approximate dynamic programming
Combinatorial optimization
topic Cutting stock problem
Reinforcement learning
Approximate dynamic programming
Combinatorial optimization
Problema de corte de estoque
Aprendizado por reforço
Programação dinâmica aproximada
Otimização combinatória
dc.subject.por.fl_str_mv Problema de corte de estoque
Aprendizado por reforço
Programação dinâmica aproximada
Otimização combinatória
description The cutting stock problem is a combinatorial optimization problem that consists of cutting larger objects in order to produce smaller pieces to meet a given demand in order to minimize material losses. This dissertation addresses up a multiperiod stochastic variant in which the problem is solved in multiple periods of time and we do not know exactly what the future demand will be, which is modeled as a random variable. This problem variant corresponds more closely to the reality of companies, which usually do not know in advance the demand for each time period. First, the stochastic multiperiod cutting stock problem was modeled as a Markovian decision process. A solution to the problem corresponds to an optimal decision policy, which is defined as what action to be taken every time to minimize the expected total cost. Exact algorithms to calculate an optimal policy require large computational effort when the problem size grows, then reinforcement learning techniques were used through an approximate policy iteration algorithm using a Bayesian filter. Computational experiments were performed to illustrate the application of the approach to real data on cutting steel bars in construction industry. The results indicate that the performance of the policy obtained by the proposed approach was up to fifty times better than the performance using a short-sighted policy, which does not take into account the future impact of decisions taken in the present.
publishDate 2021
dc.date.issued.fl_str_mv 2021
dc.date.accessioned.fl_str_mv 2023-01-09T12:13:34Z
dc.date.available.fl_str_mv 2023-01-09T12:13:34Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MURTA, Arthur Hermont Fonseca. Aplicação de técnicas de aprendizado por reforço na solução do problema de corte de estoque multiperíodo estocástico. 2021. 82 f. Dissertação (Mestrado em Modelagem e Métodos Quantitativos) - Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2021.
dc.identifier.uri.fl_str_mv http://www.repositorio.ufc.br/handle/riufc/70010
identifier_str_mv MURTA, Arthur Hermont Fonseca. Aplicação de técnicas de aprendizado por reforço na solução do problema de corte de estoque multiperíodo estocástico. 2021. 82 f. Dissertação (Mestrado em Modelagem e Métodos Quantitativos) - Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2021.
url http://www.repositorio.ufc.br/handle/riufc/70010
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal do Ceará (UFC)
instname:Universidade Federal do Ceará (UFC)
instacron:UFC
instname_str Universidade Federal do Ceará (UFC)
instacron_str UFC
institution UFC
reponame_str Repositório Institucional da Universidade Federal do Ceará (UFC)
collection Repositório Institucional da Universidade Federal do Ceará (UFC)
bitstream.url.fl_str_mv http://repositorio.ufc.br/bitstream/riufc/70010/5/dis_2021_ahfmurta.pdf
http://repositorio.ufc.br/bitstream/riufc/70010/4/license.txt
bitstream.checksum.fl_str_mv 87543c2f9ae2a27440f971e3c372043b
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)
repository.mail.fl_str_mv bu@ufc.br || repositorio@ufc.br
_version_ 1847793295287123968