Aplicação da rede GTSOM para navegação de robôs móveis utilizando aprendizado por reforço

Detalhes bibliográficos
Ano de defesa: 2009
Autor(a) principal: Menegaz, Mauricio
Orientador(a): Engel, Paulo Martins
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/22816
Resumo: Neste trabalho será descrita uma arquitetura de agente robótico autônomo projetada para ser capaz de criar uma representação de estado do ambiente e de realizar o aprendizado de tarefas simples em cima desta representação. A rede GTSOM (BASTOS, 2007) foi selecionada como método para classificação de estados. Sua tarefa é transformar os dados multidimensionais e contínuos lidos dos sensores em uma representação discreta, permitindo o uso de aprendizado por reforço convencional. Algumas modificações no algoritmo da rede foram necessárias para que pudesse ser aplicada neste contexto. Juntamente com esta rede, foi utilizado um mapa de grade que permite associar as experiências sensoriais com sua localização espacial. Enquanto a rede GTSOM é o ponto central de um sistema de classificação de estados, o algoritmo Q-Learning de aprendizado por reforço foi utilizado para a realização da tarefa. Utilizando a representação compacta de estado criada pela rede auto-organizável, o agente aprende as ações que devem ser executadas em cada ponto, para atingimento de seus objetivos. O modelo foi testado com um experimento que consiste em encontrar um objeto em um labirinto. Os resultados obtidos nos testes mostraram que o modelo consegue segmentar adequadamente o espaço de estados, e realiza o aprendizado da tarefa. O agente consegue aprender a evitar colisões e memorizar a localização do alvo, podendo chegar até ele independentemente de sua posição inicial. Além disso, é capaz de expandir sua representação sempre que se depara com situações não conhecidas, ao mesmo tempo que gradualmente remove da memória estados associados a experiências que não se repetem.
id URGS_0bca864c916596b9b558a1e3378fa74d
oai_identifier_str oai:www.lume.ufrgs.br:10183/22816
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Menegaz, MauricioEngel, Paulo Martins2010-05-25T04:17:54Z2009http://hdl.handle.net/10183/22816000740707Neste trabalho será descrita uma arquitetura de agente robótico autônomo projetada para ser capaz de criar uma representação de estado do ambiente e de realizar o aprendizado de tarefas simples em cima desta representação. A rede GTSOM (BASTOS, 2007) foi selecionada como método para classificação de estados. Sua tarefa é transformar os dados multidimensionais e contínuos lidos dos sensores em uma representação discreta, permitindo o uso de aprendizado por reforço convencional. Algumas modificações no algoritmo da rede foram necessárias para que pudesse ser aplicada neste contexto. Juntamente com esta rede, foi utilizado um mapa de grade que permite associar as experiências sensoriais com sua localização espacial. Enquanto a rede GTSOM é o ponto central de um sistema de classificação de estados, o algoritmo Q-Learning de aprendizado por reforço foi utilizado para a realização da tarefa. Utilizando a representação compacta de estado criada pela rede auto-organizável, o agente aprende as ações que devem ser executadas em cada ponto, para atingimento de seus objetivos. O modelo foi testado com um experimento que consiste em encontrar um objeto em um labirinto. Os resultados obtidos nos testes mostraram que o modelo consegue segmentar adequadamente o espaço de estados, e realiza o aprendizado da tarefa. O agente consegue aprender a evitar colisões e memorizar a localização do alvo, podendo chegar até ele independentemente de sua posição inicial. Além disso, é capaz de expandir sua representação sempre que se depara com situações não conhecidas, ao mesmo tempo que gradualmente remove da memória estados associados a experiências que não se repetem.This work describes an architecture for an autonomous robotic agent that is capable of creating a state representation of its environment and learning how to execute simple tasks using this representation. The GTSOM Neural Network was chosen as the method for state clustering. It is used to transform the multidimensional and continuous state signal into a discrete representation, allowing the use of conventional reinforcement learning techniques. Some modifications on the algorithm were necessary so that it could be used in this project. This network is used together with a grid map algorithm that allows the model to associate the sensor readings with the places where they ocurred. While the GTSOM network is the main component of a state clustering system, the Q-Learning reinforcement learning method was chosen for the task execution. Using the compact state representation created by the self-organizing network, the agent learns which actions to execute at each state in order to achieve its objectives. The model was tested in an experiment that consists in finding the path in a maze. The results show that it can divide the state space in an useful way, and is capable of executing the task. It learns to avoid collisions and remembers the location of the target, even when the robot’s initial position is changed. Furthermore, the representation is expanded when the agent faces an unknown situation, and at the same time, states associated with old experiences are forgotten.application/pdfporInteligência artificialRedes neuraisRoboticsNeural networksReinforcement learningAplicação da rede GTSOM para navegação de robôs móveis utilizando aprendizado por reforçoUsing the GTSOM network for mobile robot navigation with reinforcement learning info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2009mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000740707.pdf000740707.pdfTexto completoapplication/pdf486919http://www.lume.ufrgs.br/bitstream/10183/22816/1/000740707.pdf931fc8a76472adc63e0b270bd6a02b43MD51TEXT000740707.pdf.txt000740707.pdf.txtExtracted Texttext/plain123787http://www.lume.ufrgs.br/bitstream/10183/22816/2/000740707.pdf.txt271b95c00cd9cc27031e3351c3ece7b3MD52THUMBNAIL000740707.pdf.jpg000740707.pdf.jpgGenerated Thumbnailimage/jpeg1006http://www.lume.ufrgs.br/bitstream/10183/22816/3/000740707.pdf.jpg11890faa9e35767cb84605a6917d3801MD5310183/228162018-10-18 07:20:08.911oai:www.lume.ufrgs.br:10183/22816Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532018-10-18T10:20:08Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Aplicação da rede GTSOM para navegação de robôs móveis utilizando aprendizado por reforço
dc.title.alternative.en.fl_str_mv Using the GTSOM network for mobile robot navigation with reinforcement learning
title Aplicação da rede GTSOM para navegação de robôs móveis utilizando aprendizado por reforço
spellingShingle Aplicação da rede GTSOM para navegação de robôs móveis utilizando aprendizado por reforço
Menegaz, Mauricio
Inteligência artificial
Redes neurais
Robotics
Neural networks
Reinforcement learning
title_short Aplicação da rede GTSOM para navegação de robôs móveis utilizando aprendizado por reforço
title_full Aplicação da rede GTSOM para navegação de robôs móveis utilizando aprendizado por reforço
title_fullStr Aplicação da rede GTSOM para navegação de robôs móveis utilizando aprendizado por reforço
title_full_unstemmed Aplicação da rede GTSOM para navegação de robôs móveis utilizando aprendizado por reforço
title_sort Aplicação da rede GTSOM para navegação de robôs móveis utilizando aprendizado por reforço
author Menegaz, Mauricio
author_facet Menegaz, Mauricio
author_role author
dc.contributor.author.fl_str_mv Menegaz, Mauricio
dc.contributor.advisor1.fl_str_mv Engel, Paulo Martins
contributor_str_mv Engel, Paulo Martins
dc.subject.por.fl_str_mv Inteligência artificial
Redes neurais
topic Inteligência artificial
Redes neurais
Robotics
Neural networks
Reinforcement learning
dc.subject.eng.fl_str_mv Robotics
Neural networks
Reinforcement learning
description Neste trabalho será descrita uma arquitetura de agente robótico autônomo projetada para ser capaz de criar uma representação de estado do ambiente e de realizar o aprendizado de tarefas simples em cima desta representação. A rede GTSOM (BASTOS, 2007) foi selecionada como método para classificação de estados. Sua tarefa é transformar os dados multidimensionais e contínuos lidos dos sensores em uma representação discreta, permitindo o uso de aprendizado por reforço convencional. Algumas modificações no algoritmo da rede foram necessárias para que pudesse ser aplicada neste contexto. Juntamente com esta rede, foi utilizado um mapa de grade que permite associar as experiências sensoriais com sua localização espacial. Enquanto a rede GTSOM é o ponto central de um sistema de classificação de estados, o algoritmo Q-Learning de aprendizado por reforço foi utilizado para a realização da tarefa. Utilizando a representação compacta de estado criada pela rede auto-organizável, o agente aprende as ações que devem ser executadas em cada ponto, para atingimento de seus objetivos. O modelo foi testado com um experimento que consiste em encontrar um objeto em um labirinto. Os resultados obtidos nos testes mostraram que o modelo consegue segmentar adequadamente o espaço de estados, e realiza o aprendizado da tarefa. O agente consegue aprender a evitar colisões e memorizar a localização do alvo, podendo chegar até ele independentemente de sua posição inicial. Além disso, é capaz de expandir sua representação sempre que se depara com situações não conhecidas, ao mesmo tempo que gradualmente remove da memória estados associados a experiências que não se repetem.
publishDate 2009
dc.date.issued.fl_str_mv 2009
dc.date.accessioned.fl_str_mv 2010-05-25T04:17:54Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/22816
dc.identifier.nrb.pt_BR.fl_str_mv 000740707
url http://hdl.handle.net/10183/22816
identifier_str_mv 000740707
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/22816/1/000740707.pdf
http://www.lume.ufrgs.br/bitstream/10183/22816/2/000740707.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/22816/3/000740707.pdf.jpg
bitstream.checksum.fl_str_mv 931fc8a76472adc63e0b270bd6a02b43
271b95c00cd9cc27031e3351c3ece7b3
11890faa9e35767cb84605a6917d3801
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1831315875559374848