Aprendizagem por reforço profundo uma nova perspectiva sobre o problema dos k-servos
Ano de defesa: | 2020 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal do Rio Grande do Norte
|
Programa de Pós-Graduação: |
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: | |
Área do conhecimento CNPq: | |
Link de acesso: | https://repositorio.ufrn.br/jspui/handle/123456789/29661 |
Resumo: | O problema dos k-servos em um grafo ponderado (ou espaço métrico) é definido pela necessidade de mover eficientemente k servos para atender uma sequência de requisições que surgem de maneira online em cada nó do grafo. Este é talvez o problema mais influente de computação online cuja solução continua em aberto servindo de abstração para diversas aplicações, como a compra e venda de moedas, reatribuição de processos em processamento paralelo para balanceamento de carga, serviços de transporte online, gerenciamento de sondas de produção de petróleo, dentre outros. Sua simplicidade conceitual contrasta com sua complexidade computacional que cresce exponencialmente com o aumento do número de nós e servos. Anteriormente a este trabalho, o algoritmo Q-learning foi utilizado na solução de pequenas instâncias do problema dos k-servos. A solução ficou restrita à pequenas dimensões do problema pois sua estrutura de armazenamento cresce exponencialmente com o aumento do número de nós e servos. Este problema, conhecido como maldição de dimensionalidade, torna ineficiente ou até impossibilita a execução do algoritmo para certas instâncias do problema. Para lidar com maiores dimensões, o Qlearning em conjunto com o algoritmo guloso foi aplicado a um número reduzido de nós separados por um processo de agrupamento (abordagem hierárquica). A política local obtida em cada agrupamento, em conjunto com a política gulosa, foi utilizada na formação de uma política global, abordando de maneira satisfatória grandes instâncias do problema. Os resultados foram comparados a importantes algoritmos da literatura, o Work function, o Harmonic e o guloso. As soluções até então propostas dão ênfase ao aumento do número de nós, porém se analisarmos o crescimento da estrutura de armazenamento definida por Cn,k ' O(nk), é possível perceber que o aumento do número de servos pode torná-la rapidamente limitada pelo problema da maldição da dimensionalidade. Para contornar esta barreira, o problema dos k-servos foi modelado como um problema de aprendizagem por reforço profundo cuja a função de valor estado-ação foi definida por uma rede neural perceptron de múltiplas camadas capaz de extrair as informações do ambiente a partir de imagens que codificam a dinâmica do problema. A aplicabilidade do algoritmo proposto foi ilustrada em um estudo de caso no qual diferentes configurações do problema foram consideradas. O comportamento dos agentes foi analisado durante a fase de treinamento e sua performance foi avaliada a partir de testes de desempenho que quantificaram a qualidade das políticas de deslocamento dos servos geradas. Os resultados obtidos fornecem uma visão promissora de sua utilização como solução alternativa ao problema dos k-servos. |
id |
UFRN_f2b1743c4311b03a26723d45dc131a16 |
---|---|
oai_identifier_str |
oai:https://repositorio.ufrn.br:123456789/29661 |
network_acronym_str |
UFRN |
network_name_str |
Repositório Institucional da UFRN |
repository_id_str |
|
spelling |
Lins, Ramon Augusto SousaLima Júnior, Francisco Chagas deBarreto, Guilherme de AlencarMelo, Jorge Dantas deFernandes, Marcelo Augusto CostaSouza, Samuel Xavier deDória Neto, Adrião Duarte2020-07-16T23:22:05Z2020-07-16T23:22:05Z2020-01-28LINS, Ramon Augusto Sousa. Aprendizagem por reforço profundo uma nova perspectiva sobre o problema dos k-servos. 2020. 93f. Tese (Doutorado em Engenharia Elétrica e de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2020.https://repositorio.ufrn.br/jspui/handle/123456789/29661O problema dos k-servos em um grafo ponderado (ou espaço métrico) é definido pela necessidade de mover eficientemente k servos para atender uma sequência de requisições que surgem de maneira online em cada nó do grafo. Este é talvez o problema mais influente de computação online cuja solução continua em aberto servindo de abstração para diversas aplicações, como a compra e venda de moedas, reatribuição de processos em processamento paralelo para balanceamento de carga, serviços de transporte online, gerenciamento de sondas de produção de petróleo, dentre outros. Sua simplicidade conceitual contrasta com sua complexidade computacional que cresce exponencialmente com o aumento do número de nós e servos. Anteriormente a este trabalho, o algoritmo Q-learning foi utilizado na solução de pequenas instâncias do problema dos k-servos. A solução ficou restrita à pequenas dimensões do problema pois sua estrutura de armazenamento cresce exponencialmente com o aumento do número de nós e servos. Este problema, conhecido como maldição de dimensionalidade, torna ineficiente ou até impossibilita a execução do algoritmo para certas instâncias do problema. Para lidar com maiores dimensões, o Qlearning em conjunto com o algoritmo guloso foi aplicado a um número reduzido de nós separados por um processo de agrupamento (abordagem hierárquica). A política local obtida em cada agrupamento, em conjunto com a política gulosa, foi utilizada na formação de uma política global, abordando de maneira satisfatória grandes instâncias do problema. Os resultados foram comparados a importantes algoritmos da literatura, o Work function, o Harmonic e o guloso. As soluções até então propostas dão ênfase ao aumento do número de nós, porém se analisarmos o crescimento da estrutura de armazenamento definida por Cn,k ' O(nk), é possível perceber que o aumento do número de servos pode torná-la rapidamente limitada pelo problema da maldição da dimensionalidade. Para contornar esta barreira, o problema dos k-servos foi modelado como um problema de aprendizagem por reforço profundo cuja a função de valor estado-ação foi definida por uma rede neural perceptron de múltiplas camadas capaz de extrair as informações do ambiente a partir de imagens que codificam a dinâmica do problema. A aplicabilidade do algoritmo proposto foi ilustrada em um estudo de caso no qual diferentes configurações do problema foram consideradas. O comportamento dos agentes foi analisado durante a fase de treinamento e sua performance foi avaliada a partir de testes de desempenho que quantificaram a qualidade das políticas de deslocamento dos servos geradas. Os resultados obtidos fornecem uma visão promissora de sua utilização como solução alternativa ao problema dos k-servos.The k-server problem in a weighted graph (or metric space) is defined by the need to efficiently move k servers to fulfill a sequence of requests that arise online at each graph node. This is perhaps the most influential online computation problem whose solution remains open, serving as an abstraction for a variety of applications, as buying and selling of currencies, reassign processes in a parallel processing for load balancing, online transportation service, probe management of oil production rigs, among others. Its conceptual simplicity contrasts with its computational complexity that grows exponentially with the increasing number of nodes and servers. Prior to this work, the Q-learning algorithm was used to solve small instances of the k-server problem. The solution was restricted to small dimensions of the problem because its storage structure grows exponentially with the increase in the number of nodes and servers. This problem, known as the curse of dimensionality, makes the algorithm inefficient or even impossible to execute for certain instances of the problem. To handle with larger dimensions, Q-learning together with the greedy algorithm were applied to a small number of nodes separated into different clusters (hierarchical approach). The local policy obtained from each cluster, together with greedy policy, were used to form a global policy satisfactorily addressing large instances of the problem. The results were compared to important algorithms in the literature, as the Work function, Harmonic and greedy. The solutions proposed so far emphasize the increase in the number of nodes, but if we analyze the growth of the storage structure defined by Cn,k ' O(nk) It can be seen that the increase in the number of servers can be quickly limited by the problem of the curse of dimensionality. To circumvent this barrier, the k-server problem was modeled as a deep reinforcement learning task whose state-action value function was defined by a multilayer perceptron neural network capable of extracting environmental information from images that encode the dynamics of the problem. The applicability of the proposed algorithm was illustrated in a case study in which different problem configurations were considered. The behavior of the agents was analyzed during the training phase and their performance was evaluated from performance tests that quantified the quality of the displacement policies of the servers generated. The results provide a promising insight into its use as an alternative solution to the k-servers problem.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESUniversidade Federal do Rio Grande do NortePROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃOUFRNBrasilCNPQ::ENGENHARIAS::ENGENHARIA ELETRICAAprendizado por reforço profundoProblemas onlineO problema dos k-ServosOtimização combinatóriaLocalização competitivaAprendizagem por reforço profundo uma nova perspectiva sobre o problema dos k-servosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNTEXTAprendizagemreforcoprofundo_Lins_2020.pdf.txtAprendizagemreforcoprofundo_Lins_2020.pdf.txtExtracted texttext/plain125727https://repositorio.ufrn.br/bitstream/123456789/29661/2/Aprendizagemreforcoprofundo_Lins_2020.pdf.txt6cdf895faafde100225b2b45f070143cMD52THUMBNAILAprendizagemreforcoprofundo_Lins_2020.pdf.jpgAprendizagemreforcoprofundo_Lins_2020.pdf.jpgGenerated Thumbnailimage/jpeg1483https://repositorio.ufrn.br/bitstream/123456789/29661/3/Aprendizagemreforcoprofundo_Lins_2020.pdf.jpg03db0bb6aedd9030c40db94ae6a96587MD53ORIGINALAprendizagemreforcoprofundo_Lins_2020.pdfapplication/pdf4859159https://repositorio.ufrn.br/bitstream/123456789/29661/1/Aprendizagemreforcoprofundo_Lins_2020.pdf97331d985d99c5d05faa876313c1b4a5MD51123456789/296612020-07-19 04:46:13.045oai:https://repositorio.ufrn.br:123456789/29661Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2020-07-19T07:46:13Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false |
dc.title.pt_BR.fl_str_mv |
Aprendizagem por reforço profundo uma nova perspectiva sobre o problema dos k-servos |
title |
Aprendizagem por reforço profundo uma nova perspectiva sobre o problema dos k-servos |
spellingShingle |
Aprendizagem por reforço profundo uma nova perspectiva sobre o problema dos k-servos Lins, Ramon Augusto Sousa CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA Aprendizado por reforço profundo Problemas online O problema dos k-Servos Otimização combinatória Localização competitiva |
title_short |
Aprendizagem por reforço profundo uma nova perspectiva sobre o problema dos k-servos |
title_full |
Aprendizagem por reforço profundo uma nova perspectiva sobre o problema dos k-servos |
title_fullStr |
Aprendizagem por reforço profundo uma nova perspectiva sobre o problema dos k-servos |
title_full_unstemmed |
Aprendizagem por reforço profundo uma nova perspectiva sobre o problema dos k-servos |
title_sort |
Aprendizagem por reforço profundo uma nova perspectiva sobre o problema dos k-servos |
author |
Lins, Ramon Augusto Sousa |
author_facet |
Lins, Ramon Augusto Sousa |
author_role |
author |
dc.contributor.authorID.pt_BR.fl_str_mv |
|
dc.contributor.advisorID.pt_BR.fl_str_mv |
|
dc.contributor.referees1.none.fl_str_mv |
Lima Júnior, Francisco Chagas de |
dc.contributor.referees1ID.pt_BR.fl_str_mv |
|
dc.contributor.referees2.none.fl_str_mv |
Barreto, Guilherme de Alencar |
dc.contributor.referees2ID.pt_BR.fl_str_mv |
|
dc.contributor.referees3.none.fl_str_mv |
Melo, Jorge Dantas de |
dc.contributor.referees3ID.pt_BR.fl_str_mv |
|
dc.contributor.referees4.none.fl_str_mv |
Fernandes, Marcelo Augusto Costa |
dc.contributor.referees4ID.pt_BR.fl_str_mv |
|
dc.contributor.referees5.none.fl_str_mv |
Souza, Samuel Xavier de |
dc.contributor.referees5ID.pt_BR.fl_str_mv |
|
dc.contributor.author.fl_str_mv |
Lins, Ramon Augusto Sousa |
dc.contributor.advisor1.fl_str_mv |
Dória Neto, Adrião Duarte |
contributor_str_mv |
Dória Neto, Adrião Duarte |
dc.subject.cnpq.fl_str_mv |
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
topic |
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA Aprendizado por reforço profundo Problemas online O problema dos k-Servos Otimização combinatória Localização competitiva |
dc.subject.por.fl_str_mv |
Aprendizado por reforço profundo Problemas online O problema dos k-Servos Otimização combinatória Localização competitiva |
description |
O problema dos k-servos em um grafo ponderado (ou espaço métrico) é definido pela necessidade de mover eficientemente k servos para atender uma sequência de requisições que surgem de maneira online em cada nó do grafo. Este é talvez o problema mais influente de computação online cuja solução continua em aberto servindo de abstração para diversas aplicações, como a compra e venda de moedas, reatribuição de processos em processamento paralelo para balanceamento de carga, serviços de transporte online, gerenciamento de sondas de produção de petróleo, dentre outros. Sua simplicidade conceitual contrasta com sua complexidade computacional que cresce exponencialmente com o aumento do número de nós e servos. Anteriormente a este trabalho, o algoritmo Q-learning foi utilizado na solução de pequenas instâncias do problema dos k-servos. A solução ficou restrita à pequenas dimensões do problema pois sua estrutura de armazenamento cresce exponencialmente com o aumento do número de nós e servos. Este problema, conhecido como maldição de dimensionalidade, torna ineficiente ou até impossibilita a execução do algoritmo para certas instâncias do problema. Para lidar com maiores dimensões, o Qlearning em conjunto com o algoritmo guloso foi aplicado a um número reduzido de nós separados por um processo de agrupamento (abordagem hierárquica). A política local obtida em cada agrupamento, em conjunto com a política gulosa, foi utilizada na formação de uma política global, abordando de maneira satisfatória grandes instâncias do problema. Os resultados foram comparados a importantes algoritmos da literatura, o Work function, o Harmonic e o guloso. As soluções até então propostas dão ênfase ao aumento do número de nós, porém se analisarmos o crescimento da estrutura de armazenamento definida por Cn,k ' O(nk), é possível perceber que o aumento do número de servos pode torná-la rapidamente limitada pelo problema da maldição da dimensionalidade. Para contornar esta barreira, o problema dos k-servos foi modelado como um problema de aprendizagem por reforço profundo cuja a função de valor estado-ação foi definida por uma rede neural perceptron de múltiplas camadas capaz de extrair as informações do ambiente a partir de imagens que codificam a dinâmica do problema. A aplicabilidade do algoritmo proposto foi ilustrada em um estudo de caso no qual diferentes configurações do problema foram consideradas. O comportamento dos agentes foi analisado durante a fase de treinamento e sua performance foi avaliada a partir de testes de desempenho que quantificaram a qualidade das políticas de deslocamento dos servos geradas. Os resultados obtidos fornecem uma visão promissora de sua utilização como solução alternativa ao problema dos k-servos. |
publishDate |
2020 |
dc.date.accessioned.fl_str_mv |
2020-07-16T23:22:05Z |
dc.date.available.fl_str_mv |
2020-07-16T23:22:05Z |
dc.date.issued.fl_str_mv |
2020-01-28 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
LINS, Ramon Augusto Sousa. Aprendizagem por reforço profundo uma nova perspectiva sobre o problema dos k-servos. 2020. 93f. Tese (Doutorado em Engenharia Elétrica e de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2020. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufrn.br/jspui/handle/123456789/29661 |
identifier_str_mv |
LINS, Ramon Augusto Sousa. Aprendizagem por reforço profundo uma nova perspectiva sobre o problema dos k-servos. 2020. 93f. Tese (Doutorado em Engenharia Elétrica e de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2020. |
url |
https://repositorio.ufrn.br/jspui/handle/123456789/29661 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.publisher.program.fl_str_mv |
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO |
dc.publisher.initials.fl_str_mv |
UFRN |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN |
instname_str |
Universidade Federal do Rio Grande do Norte (UFRN) |
instacron_str |
UFRN |
institution |
UFRN |
reponame_str |
Repositório Institucional da UFRN |
collection |
Repositório Institucional da UFRN |
bitstream.url.fl_str_mv |
https://repositorio.ufrn.br/bitstream/123456789/29661/2/Aprendizagemreforcoprofundo_Lins_2020.pdf.txt https://repositorio.ufrn.br/bitstream/123456789/29661/3/Aprendizagemreforcoprofundo_Lins_2020.pdf.jpg https://repositorio.ufrn.br/bitstream/123456789/29661/1/Aprendizagemreforcoprofundo_Lins_2020.pdf |
bitstream.checksum.fl_str_mv |
6cdf895faafde100225b2b45f070143c 03db0bb6aedd9030c40db94ae6a96587 97331d985d99c5d05faa876313c1b4a5 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN) |
repository.mail.fl_str_mv |
|
_version_ |
1797777763718922240 |