Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço
| Ano de defesa: | 2005 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal do Rio Grande do Norte
BR UFRN Programa de Pós-Graduação em Engenharia Elétrica Automação e Sistemas; Engenharia de Computação; Telecomunicações |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://repositorio.ufrn.br/jspui/handle/123456789/15405 |
Resumo: | Neste trabalho é proposto um novo algoritmo online para o resolver o Problema dos k-Servos (PKS). O desempenho desta solução é comparado com o de outros algoritmos existentes na literatura, a saber, os algoritmos Harmonic e Work Function, que mostraram ser competitivos, tornando-os parâmetros de comparação significativos. Um algoritmo que apresente desempenho eficiente em relação aos mesmos tende a ser competitivo também, devendo, obviamente, se provar o referido fato. Tal prova, entretanto, foge aos objetivos do presente trabalho. O algoritmo apresentado para a solução do PKS é baseado em técnicas de aprendizagem por reforço. Para tanto, o problema foi modelado como um processo de decisão em múltiplas etapas, ao qual é aplicado o algoritmo Q-Learning, um dos métodos de solução mais populares para o estabelecimento de políticas ótimas neste tipo de problema de decisão. Entretanto, deve-se observar que a dimensão da estrutura de armazenamento utilizada pela aprendizagem por reforço para se obter a política ótima cresce em função do número de estados e de ações, que por sua vez é proporcional ao número n de nós e k de servos. Ao se analisar esse crescimento (matematicamente, ) percebe-se que o mesmo ocorre de maneira exponencial, limitando a aplicação do método a problemas de menor porte, onde o número de nós e de servos é reduzido. Este problema, denominado maldição da dimensionalidade, foi introduzido por Belmann e implica na impossibilidade de execução de um algoritmo para certas instâncias de um problema pelo esgotamento de recursos computacionais para obtenção de sua saída. De modo a evitar que a solução proposta, baseada exclusivamente na aprendizagem por reforço, seja restrita a aplicações de menor porte, propõe-se uma solução alternativa para problemas mais realistas, que envolvam um número maior de nós e de servos. Esta solução alternativa é hierarquizada e utiliza dois métodos de solução do PKS: a aprendizagem por reforço, aplicada a um número reduzido de nós obtidos a partir de um processo de agregação, e um método guloso, aplicado aos subconjuntos de nós resultantes do processo de agregação, onde o critério de escolha do agendamento dos servos é baseado na menor distância ao local de demanda |
| id |
UFRN_de7d2f3c8f55d20ff06eb65982e6279a |
|---|---|
| oai_identifier_str |
oai:repositorio.ufrn.br:123456789/15405 |
| network_acronym_str |
UFRN |
| network_name_str |
Repositório Institucional da UFRN |
| repository_id_str |
|
| spelling |
Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforçoK-ServosAprendizado por ReforçoQ-LearningK-ServosReinforcement LearningQ-LearningCNPQ::ENGENHARIAS::ENGENHARIA ELETRICANeste trabalho é proposto um novo algoritmo online para o resolver o Problema dos k-Servos (PKS). O desempenho desta solução é comparado com o de outros algoritmos existentes na literatura, a saber, os algoritmos Harmonic e Work Function, que mostraram ser competitivos, tornando-os parâmetros de comparação significativos. Um algoritmo que apresente desempenho eficiente em relação aos mesmos tende a ser competitivo também, devendo, obviamente, se provar o referido fato. Tal prova, entretanto, foge aos objetivos do presente trabalho. O algoritmo apresentado para a solução do PKS é baseado em técnicas de aprendizagem por reforço. Para tanto, o problema foi modelado como um processo de decisão em múltiplas etapas, ao qual é aplicado o algoritmo Q-Learning, um dos métodos de solução mais populares para o estabelecimento de políticas ótimas neste tipo de problema de decisão. Entretanto, deve-se observar que a dimensão da estrutura de armazenamento utilizada pela aprendizagem por reforço para se obter a política ótima cresce em função do número de estados e de ações, que por sua vez é proporcional ao número n de nós e k de servos. Ao se analisar esse crescimento (matematicamente, ) percebe-se que o mesmo ocorre de maneira exponencial, limitando a aplicação do método a problemas de menor porte, onde o número de nós e de servos é reduzido. Este problema, denominado maldição da dimensionalidade, foi introduzido por Belmann e implica na impossibilidade de execução de um algoritmo para certas instâncias de um problema pelo esgotamento de recursos computacionais para obtenção de sua saída. De modo a evitar que a solução proposta, baseada exclusivamente na aprendizagem por reforço, seja restrita a aplicações de menor porte, propõe-se uma solução alternativa para problemas mais realistas, que envolvam um número maior de nós e de servos. Esta solução alternativa é hierarquizada e utiliza dois métodos de solução do PKS: a aprendizagem por reforço, aplicada a um número reduzido de nós obtidos a partir de um processo de agregação, e um método guloso, aplicado aos subconjuntos de nós resultantes do processo de agregação, onde o critério de escolha do agendamento dos servos é baseado na menor distância ao local de demandaUniversidade Federal do Rio Grande do NorteBRUFRNPrograma de Pós-Graduação em Engenharia ElétricaAutomação e Sistemas; Engenharia de Computação; TelecomunicaçõesMelo, Jorge Dantas dehttp://lattes.cnpq.br/7325007451912598Dória Neto, Adrião Duartehttp://lattes.cnpq.br/1987295209521433Aloise, Dario Joséhttp://lattes.cnpq.br/7266011798625538Medeiros Júnior, Manoel Firmino dehttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4781378J1Lima Júnior, Manoel Leandro de2014-12-17T14:55:59Z2007-02-122014-12-17T14:55:59Z2005-04-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfapplication/pdfLIMA JÚNIOR, Manoel Leandro de. Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço. 2005. 96 f. Dissertação (Mestrado em Automação e Sistemas; Engenharia de Computação; Telecomunicações) - Universidade Federal do Rio Grande do Norte, Natal, 2005.https://repositorio.ufrn.br/jspui/handle/123456789/15405porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRN2017-11-02T12:43:00Zoai:repositorio.ufrn.br:123456789/15405Repositório InstitucionalPUBhttp://repositorio.ufrn.br/oai/repositorio@bczm.ufrn.bropendoar:2017-11-02T12:43Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false |
| dc.title.none.fl_str_mv |
Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço |
| title |
Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço |
| spellingShingle |
Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço Lima Júnior, Manoel Leandro de K-Servos Aprendizado por Reforço Q-Learning K-Servos Reinforcement Learning Q-Learning CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
| title_short |
Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço |
| title_full |
Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço |
| title_fullStr |
Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço |
| title_full_unstemmed |
Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço |
| title_sort |
Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço |
| author |
Lima Júnior, Manoel Leandro de |
| author_facet |
Lima Júnior, Manoel Leandro de |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Melo, Jorge Dantas de http://lattes.cnpq.br/7325007451912598 Dória Neto, Adrião Duarte http://lattes.cnpq.br/1987295209521433 Aloise, Dario José http://lattes.cnpq.br/7266011798625538 Medeiros Júnior, Manoel Firmino de http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4781378J1 |
| dc.contributor.author.fl_str_mv |
Lima Júnior, Manoel Leandro de |
| dc.subject.por.fl_str_mv |
K-Servos Aprendizado por Reforço Q-Learning K-Servos Reinforcement Learning Q-Learning CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
| topic |
K-Servos Aprendizado por Reforço Q-Learning K-Servos Reinforcement Learning Q-Learning CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
| description |
Neste trabalho é proposto um novo algoritmo online para o resolver o Problema dos k-Servos (PKS). O desempenho desta solução é comparado com o de outros algoritmos existentes na literatura, a saber, os algoritmos Harmonic e Work Function, que mostraram ser competitivos, tornando-os parâmetros de comparação significativos. Um algoritmo que apresente desempenho eficiente em relação aos mesmos tende a ser competitivo também, devendo, obviamente, se provar o referido fato. Tal prova, entretanto, foge aos objetivos do presente trabalho. O algoritmo apresentado para a solução do PKS é baseado em técnicas de aprendizagem por reforço. Para tanto, o problema foi modelado como um processo de decisão em múltiplas etapas, ao qual é aplicado o algoritmo Q-Learning, um dos métodos de solução mais populares para o estabelecimento de políticas ótimas neste tipo de problema de decisão. Entretanto, deve-se observar que a dimensão da estrutura de armazenamento utilizada pela aprendizagem por reforço para se obter a política ótima cresce em função do número de estados e de ações, que por sua vez é proporcional ao número n de nós e k de servos. Ao se analisar esse crescimento (matematicamente, ) percebe-se que o mesmo ocorre de maneira exponencial, limitando a aplicação do método a problemas de menor porte, onde o número de nós e de servos é reduzido. Este problema, denominado maldição da dimensionalidade, foi introduzido por Belmann e implica na impossibilidade de execução de um algoritmo para certas instâncias de um problema pelo esgotamento de recursos computacionais para obtenção de sua saída. De modo a evitar que a solução proposta, baseada exclusivamente na aprendizagem por reforço, seja restrita a aplicações de menor porte, propõe-se uma solução alternativa para problemas mais realistas, que envolvam um número maior de nós e de servos. Esta solução alternativa é hierarquizada e utiliza dois métodos de solução do PKS: a aprendizagem por reforço, aplicada a um número reduzido de nós obtidos a partir de um processo de agregação, e um método guloso, aplicado aos subconjuntos de nós resultantes do processo de agregação, onde o critério de escolha do agendamento dos servos é baseado na menor distância ao local de demanda |
| publishDate |
2005 |
| dc.date.none.fl_str_mv |
2005-04-06 2007-02-12 2014-12-17T14:55:59Z 2014-12-17T14:55:59Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
LIMA JÚNIOR, Manoel Leandro de. Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço. 2005. 96 f. Dissertação (Mestrado em Automação e Sistemas; Engenharia de Computação; Telecomunicações) - Universidade Federal do Rio Grande do Norte, Natal, 2005. https://repositorio.ufrn.br/jspui/handle/123456789/15405 |
| identifier_str_mv |
LIMA JÚNIOR, Manoel Leandro de. Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço. 2005. 96 f. Dissertação (Mestrado em Automação e Sistemas; Engenharia de Computação; Telecomunicações) - Universidade Federal do Rio Grande do Norte, Natal, 2005. |
| url |
https://repositorio.ufrn.br/jspui/handle/123456789/15405 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte BR UFRN Programa de Pós-Graduação em Engenharia Elétrica Automação e Sistemas; Engenharia de Computação; Telecomunicações |
| publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte BR UFRN Programa de Pós-Graduação em Engenharia Elétrica Automação e Sistemas; Engenharia de Computação; Telecomunicações |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN |
| instname_str |
Universidade Federal do Rio Grande do Norte (UFRN) |
| instacron_str |
UFRN |
| institution |
UFRN |
| reponame_str |
Repositório Institucional da UFRN |
| collection |
Repositório Institucional da UFRN |
| repository.name.fl_str_mv |
Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN) |
| repository.mail.fl_str_mv |
repositorio@bczm.ufrn.br |
| _version_ |
1855758877123936256 |