Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço

Detalhes bibliográficos
Ano de defesa: 2005
Autor(a) principal: Lima Júnior, Manoel Leandro de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Rio Grande do Norte
BR
UFRN
Programa de Pós-Graduação em Engenharia Elétrica
Automação e Sistemas; Engenharia de Computação; Telecomunicações
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufrn.br/jspui/handle/123456789/15405
Resumo: Neste trabalho é proposto um novo algoritmo online para o resolver o Problema dos k-Servos (PKS). O desempenho desta solução é comparado com o de outros algoritmos existentes na literatura, a saber, os algoritmos Harmonic e Work Function, que mostraram ser competitivos, tornando-os parâmetros de comparação significativos. Um algoritmo que apresente desempenho eficiente em relação aos mesmos tende a ser competitivo também, devendo, obviamente, se provar o referido fato. Tal prova, entretanto, foge aos objetivos do presente trabalho. O algoritmo apresentado para a solução do PKS é baseado em técnicas de aprendizagem por reforço. Para tanto, o problema foi modelado como um processo de decisão em múltiplas etapas, ao qual é aplicado o algoritmo Q-Learning, um dos métodos de solução mais populares para o estabelecimento de políticas ótimas neste tipo de problema de decisão. Entretanto, deve-se observar que a dimensão da estrutura de armazenamento utilizada pela aprendizagem por reforço para se obter a política ótima cresce em função do número de estados e de ações, que por sua vez é proporcional ao número n de nós e k de servos. Ao se analisar esse crescimento (matematicamente, ) percebe-se que o mesmo ocorre de maneira exponencial, limitando a aplicação do método a problemas de menor porte, onde o número de nós e de servos é reduzido. Este problema, denominado maldição da dimensionalidade, foi introduzido por Belmann e implica na impossibilidade de execução de um algoritmo para certas instâncias de um problema pelo esgotamento de recursos computacionais para obtenção de sua saída. De modo a evitar que a solução proposta, baseada exclusivamente na aprendizagem por reforço, seja restrita a aplicações de menor porte, propõe-se uma solução alternativa para problemas mais realistas, que envolvam um número maior de nós e de servos. Esta solução alternativa é hierarquizada e utiliza dois métodos de solução do PKS: a aprendizagem por reforço, aplicada a um número reduzido de nós obtidos a partir de um processo de agregação, e um método guloso, aplicado aos subconjuntos de nós resultantes do processo de agregação, onde o critério de escolha do agendamento dos servos é baseado na menor distância ao local de demanda
id UFRN_de7d2f3c8f55d20ff06eb65982e6279a
oai_identifier_str oai:repositorio.ufrn.br:123456789/15405
network_acronym_str UFRN
network_name_str Repositório Institucional da UFRN
repository_id_str
spelling Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforçoK-ServosAprendizado por ReforçoQ-LearningK-ServosReinforcement LearningQ-LearningCNPQ::ENGENHARIAS::ENGENHARIA ELETRICANeste trabalho é proposto um novo algoritmo online para o resolver o Problema dos k-Servos (PKS). O desempenho desta solução é comparado com o de outros algoritmos existentes na literatura, a saber, os algoritmos Harmonic e Work Function, que mostraram ser competitivos, tornando-os parâmetros de comparação significativos. Um algoritmo que apresente desempenho eficiente em relação aos mesmos tende a ser competitivo também, devendo, obviamente, se provar o referido fato. Tal prova, entretanto, foge aos objetivos do presente trabalho. O algoritmo apresentado para a solução do PKS é baseado em técnicas de aprendizagem por reforço. Para tanto, o problema foi modelado como um processo de decisão em múltiplas etapas, ao qual é aplicado o algoritmo Q-Learning, um dos métodos de solução mais populares para o estabelecimento de políticas ótimas neste tipo de problema de decisão. Entretanto, deve-se observar que a dimensão da estrutura de armazenamento utilizada pela aprendizagem por reforço para se obter a política ótima cresce em função do número de estados e de ações, que por sua vez é proporcional ao número n de nós e k de servos. Ao se analisar esse crescimento (matematicamente, ) percebe-se que o mesmo ocorre de maneira exponencial, limitando a aplicação do método a problemas de menor porte, onde o número de nós e de servos é reduzido. Este problema, denominado maldição da dimensionalidade, foi introduzido por Belmann e implica na impossibilidade de execução de um algoritmo para certas instâncias de um problema pelo esgotamento de recursos computacionais para obtenção de sua saída. De modo a evitar que a solução proposta, baseada exclusivamente na aprendizagem por reforço, seja restrita a aplicações de menor porte, propõe-se uma solução alternativa para problemas mais realistas, que envolvam um número maior de nós e de servos. Esta solução alternativa é hierarquizada e utiliza dois métodos de solução do PKS: a aprendizagem por reforço, aplicada a um número reduzido de nós obtidos a partir de um processo de agregação, e um método guloso, aplicado aos subconjuntos de nós resultantes do processo de agregação, onde o critério de escolha do agendamento dos servos é baseado na menor distância ao local de demandaUniversidade Federal do Rio Grande do NorteBRUFRNPrograma de Pós-Graduação em Engenharia ElétricaAutomação e Sistemas; Engenharia de Computação; TelecomunicaçõesMelo, Jorge Dantas dehttp://lattes.cnpq.br/7325007451912598Dória Neto, Adrião Duartehttp://lattes.cnpq.br/1987295209521433Aloise, Dario Joséhttp://lattes.cnpq.br/7266011798625538Medeiros Júnior, Manoel Firmino dehttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4781378J1Lima Júnior, Manoel Leandro de2014-12-17T14:55:59Z2007-02-122014-12-17T14:55:59Z2005-04-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfapplication/pdfLIMA JÚNIOR, Manoel Leandro de. Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço. 2005. 96 f. Dissertação (Mestrado em Automação e Sistemas; Engenharia de Computação; Telecomunicações) - Universidade Federal do Rio Grande do Norte, Natal, 2005.https://repositorio.ufrn.br/jspui/handle/123456789/15405porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRN2017-11-02T12:43:00Zoai:repositorio.ufrn.br:123456789/15405Repositório InstitucionalPUBhttp://repositorio.ufrn.br/oai/repositorio@bczm.ufrn.bropendoar:2017-11-02T12:43Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.none.fl_str_mv Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço
title Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço
spellingShingle Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço
Lima Júnior, Manoel Leandro de
K-Servos
Aprendizado por Reforço
Q-Learning
K-Servos
Reinforcement Learning
Q-Learning
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
title_short Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço
title_full Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço
title_fullStr Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço
title_full_unstemmed Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço
title_sort Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço
author Lima Júnior, Manoel Leandro de
author_facet Lima Júnior, Manoel Leandro de
author_role author
dc.contributor.none.fl_str_mv Melo, Jorge Dantas de


http://lattes.cnpq.br/7325007451912598
Dória Neto, Adrião Duarte

http://lattes.cnpq.br/1987295209521433
Aloise, Dario José

http://lattes.cnpq.br/7266011798625538
Medeiros Júnior, Manoel Firmino de

http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4781378J1
dc.contributor.author.fl_str_mv Lima Júnior, Manoel Leandro de
dc.subject.por.fl_str_mv K-Servos
Aprendizado por Reforço
Q-Learning
K-Servos
Reinforcement Learning
Q-Learning
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
topic K-Servos
Aprendizado por Reforço
Q-Learning
K-Servos
Reinforcement Learning
Q-Learning
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
description Neste trabalho é proposto um novo algoritmo online para o resolver o Problema dos k-Servos (PKS). O desempenho desta solução é comparado com o de outros algoritmos existentes na literatura, a saber, os algoritmos Harmonic e Work Function, que mostraram ser competitivos, tornando-os parâmetros de comparação significativos. Um algoritmo que apresente desempenho eficiente em relação aos mesmos tende a ser competitivo também, devendo, obviamente, se provar o referido fato. Tal prova, entretanto, foge aos objetivos do presente trabalho. O algoritmo apresentado para a solução do PKS é baseado em técnicas de aprendizagem por reforço. Para tanto, o problema foi modelado como um processo de decisão em múltiplas etapas, ao qual é aplicado o algoritmo Q-Learning, um dos métodos de solução mais populares para o estabelecimento de políticas ótimas neste tipo de problema de decisão. Entretanto, deve-se observar que a dimensão da estrutura de armazenamento utilizada pela aprendizagem por reforço para se obter a política ótima cresce em função do número de estados e de ações, que por sua vez é proporcional ao número n de nós e k de servos. Ao se analisar esse crescimento (matematicamente, ) percebe-se que o mesmo ocorre de maneira exponencial, limitando a aplicação do método a problemas de menor porte, onde o número de nós e de servos é reduzido. Este problema, denominado maldição da dimensionalidade, foi introduzido por Belmann e implica na impossibilidade de execução de um algoritmo para certas instâncias de um problema pelo esgotamento de recursos computacionais para obtenção de sua saída. De modo a evitar que a solução proposta, baseada exclusivamente na aprendizagem por reforço, seja restrita a aplicações de menor porte, propõe-se uma solução alternativa para problemas mais realistas, que envolvam um número maior de nós e de servos. Esta solução alternativa é hierarquizada e utiliza dois métodos de solução do PKS: a aprendizagem por reforço, aplicada a um número reduzido de nós obtidos a partir de um processo de agregação, e um método guloso, aplicado aos subconjuntos de nós resultantes do processo de agregação, onde o critério de escolha do agendamento dos servos é baseado na menor distância ao local de demanda
publishDate 2005
dc.date.none.fl_str_mv 2005-04-06
2007-02-12
2014-12-17T14:55:59Z
2014-12-17T14:55:59Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv LIMA JÚNIOR, Manoel Leandro de. Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço. 2005. 96 f. Dissertação (Mestrado em Automação e Sistemas; Engenharia de Computação; Telecomunicações) - Universidade Federal do Rio Grande do Norte, Natal, 2005.
https://repositorio.ufrn.br/jspui/handle/123456789/15405
identifier_str_mv LIMA JÚNIOR, Manoel Leandro de. Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço. 2005. 96 f. Dissertação (Mestrado em Automação e Sistemas; Engenharia de Computação; Telecomunicações) - Universidade Federal do Rio Grande do Norte, Natal, 2005.
url https://repositorio.ufrn.br/jspui/handle/123456789/15405
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
BR
UFRN
Programa de Pós-Graduação em Engenharia Elétrica
Automação e Sistemas; Engenharia de Computação; Telecomunicações
publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
BR
UFRN
Programa de Pós-Graduação em Engenharia Elétrica
Automação e Sistemas; Engenharia de Computação; Telecomunicações
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRN
instname:Universidade Federal do Rio Grande do Norte (UFRN)
instacron:UFRN
instname_str Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str UFRN
institution UFRN
reponame_str Repositório Institucional da UFRN
collection Repositório Institucional da UFRN
repository.name.fl_str_mv Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv repositorio@bczm.ufrn.br
_version_ 1855758877123936256