Especialização de comunicação e políticas em aprendizado por reforço com múltiplos agentes heterogêneos utilizando redes neurais de grafos

Meneghetti, D. R.

Especialização de comunicação e políticas em aprendizado por reforço com múltiplos agentes heterogêneos utilizando redes neurais de grafos

Detalhes bibliográficos
Ano de defesa:	2021
Autor(a) principal:	Meneghetti, D. R.
Orientador(a):	Bianchi, Reinaldo Augusto da Costa
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Centro Universitário FEI, São Bernardo do Campo
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	sistemas multi-agentes aprendizado por reforço agentes heterogêneos redes neurais de grafos
Link de acesso:	https://repositorio.fei.edu.br/handle/FEI/3447 https://doi.org/10.31414/EE.2021.T.131375
Resumo:	Esta tese apresenta uma arquitetura de rede neural voltada ao aprendizado de políticas em sistemas multi-agentes totalmente cooperativos, compostos de agentes heterogêneos e comunicativos. O ambiente é formalizado como um Processo de Decisão de Markov Parcialmente Observável Descentralizado e os estados transformados em grafos direcionados rotulados atribuídos de agentes e entidades. Vértices representam agentes e entidades; os rótulos dos vértices, suas classes, sendo todos os agentes dentro de uma mesma classe considerados homogêneos entre si; arcos direcionados representam a capacidade dos agentes de adquirir informação de outras entidades; e vetores armazenados nos vértices representam as características que descrevem agentes e entidades, ou as observações dos agentes. A topologia de rede neural proposta usa camadas totalmente conectadas para codificar as observações dos agentes; convoluções relacionais em grafos para aprender mecanismos de comunicação específicos para diferentes pares de classes; e diferentes redes neurais treinadas utilizando aprendizado por reforço para modelar as políticas das classes de agentes. A tese apresenta dois métodos. No primeiro, os módulos de codificação e aprendizado de funções valor-ação são modelados como redes neurais distintas para cada classe de entidade e agente, e o treinamento do modelo é feito utilizando uma memória de repetição de transições. O segundo método usa compartilhamento de parâmetros entre as classes de agentes para obter uma rede neural com menos parâmetros, assim como emprega camadas recorrentes e treinamento com amostras de uma memória de repetição de episódios. A comunicação relacional é comparada à comunicação realizada através de mecanismos de atenção e à ausência de comunicação entre os agentes. Também é testada a compatibilidade do método com outras contribuições disponíveis na literatura, como a regularização por relações temporais e o mixing aditivo. Testes realizados no ambiente do StarCraft Multi-Agent Challenge demonstram que o emprego de camadas de convolução relacionais para a especialização da comunicação entre agentes viabiliza desempenho comparável ou superior aos outros métodos em todos os cenários testados, principalmente naqueles com maior número de classes de agentes. Já a combinação da comunicação relacional com o mixing aditivo apresentou, geralmente, os melhores resultados

Metadados do item

id	FEI_4f60db68c6483c56b2e2ff2995e9e388
oai_identifier_str	oai:repositorio.fei.edu.br:FEI/3447
network_acronym_str	FEI
network_name_str	Repositório do Conhecimento Institucional do Centro Universitário da Fundação Educacional Inaciana (FEI)
repository_id_str
spelling	Meneghetti, D. R.Bianchi, Reinaldo Augusto da Costa2021-11-09T14:13:35Z2021-11-09T14:13:35Z2021MENEGHETTI, D. R.; BIANCHI, Reinaldo Augusto da Costa. <b> Especialização de comunicação e políticas em aprendizado por reforço com múltiplos agentes heterogêneos utilizando redes neurais de grafos. </b> 2021. 136 p. Tese (Doutorado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2021 Disponível em: https://doi.org/10.31414/EE.2021.T.131375.https://repositorio.fei.edu.br/handle/FEI/3447https://doi.org/10.31414/EE.2021.T.131375Esta tese apresenta uma arquitetura de rede neural voltada ao aprendizado de políticas em sistemas multi-agentes totalmente cooperativos, compostos de agentes heterogêneos e comunicativos. O ambiente é formalizado como um Processo de Decisão de Markov Parcialmente Observável Descentralizado e os estados transformados em grafos direcionados rotulados atribuídos de agentes e entidades. Vértices representam agentes e entidades; os rótulos dos vértices, suas classes, sendo todos os agentes dentro de uma mesma classe considerados homogêneos entre si; arcos direcionados representam a capacidade dos agentes de adquirir informação de outras entidades; e vetores armazenados nos vértices representam as características que descrevem agentes e entidades, ou as observações dos agentes. A topologia de rede neural proposta usa camadas totalmente conectadas para codificar as observações dos agentes; convoluções relacionais em grafos para aprender mecanismos de comunicação específicos para diferentes pares de classes; e diferentes redes neurais treinadas utilizando aprendizado por reforço para modelar as políticas das classes de agentes. A tese apresenta dois métodos. No primeiro, os módulos de codificação e aprendizado de funções valor-ação são modelados como redes neurais distintas para cada classe de entidade e agente, e o treinamento do modelo é feito utilizando uma memória de repetição de transições. O segundo método usa compartilhamento de parâmetros entre as classes de agentes para obter uma rede neural com menos parâmetros, assim como emprega camadas recorrentes e treinamento com amostras de uma memória de repetição de episódios. A comunicação relacional é comparada à comunicação realizada através de mecanismos de atenção e à ausência de comunicação entre os agentes. Também é testada a compatibilidade do método com outras contribuições disponíveis na literatura, como a regularização por relações temporais e o mixing aditivo. Testes realizados no ambiente do StarCraft Multi-Agent Challenge demonstram que o emprego de camadas de convolução relacionais para a especialização da comunicação entre agentes viabiliza desempenho comparável ou superior aos outros métodos em todos os cenários testados, principalmente naqueles com maior número de classes de agentes. Já a combinação da comunicação relacional com o mixing aditivo apresentou, geralmente, os melhores resultadosThis thesis presents a neural network architecture specialized in learning policies for agents in fully cooperative multi-agent systems, composed by heterogeneous, communicative agents. The environment is formalized as a Decentralized Partially Observable Markov Decision Process and states are transformed into directed labeled attributed graphs of agents and entities, in which vertex labels represent agent/entity classes. Agents that share a single class are considered homogeneous among themselves; directed arcs represent an agent’s capacity of acquiring information from other entities; and vectors stored in vertices represent the features that describe the agents and entities, or agents’ observations. The proposed neural network topology uses fully connected layers to encode agent features and observations; relational graph convolutions to learn specific communication protocols for different pairs of agent classes; and different neural networks, trained using reinforcement learning, to model agent class policies. The thesis presents two methods. The first one uses separate neural networks to encode and learn policies for each agent/entity class and training is realized through a replay buffer of state transitions. The second version employs parameter sharing between agent classes to attain a neural network with fewer parameters, as well as recurrent layers and training via a replay buffer of complete episodes. Relational communication is compared to communication via an attention mechanism and no communication. Compatibility with other contributions provided in the literature is also tested, such as temporal relation regularization and additive mixing. Tests performed in the StarCraft Multi-Agent Challenge environment demonstrate that employing relational graph convolutions with specialization of communication protocols attains comparable or superior performance in all the tested scenarios, specially in the ones with higher number of agent classes. Furthermore, the combination of relational communication with additive mixing achieved, in general, the best resultsporpt_BRCentro Universitário FEI, São Bernardo do Camposistemas multi-agentesaprendizado por reforçoagentes heterogêneosredes neurais de grafosEspecialização de comunicação e políticas em aprendizado por reforço com múltiplos agentes heterogêneos utilizando redes neurais de grafosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisInteligência Artificial Aplicada à Automação e Robóticareponame:Repositório do Conhecimento Institucional do Centro Universitário da Fundação Educacional Inaciana (FEI)instname:Centro Universitário da Fundação Educacional Inaciana (FEI)instacron:FEIinfo:eu-repo/semantics/openAccessORIGINALfulltext.pdfapplication/pdf5433443https://repositorio-novo.fei.edu.br/bitstreams/9073db39-a3fb-4474-8031-e987876862c0/downloadfcd5ebbd3aa9ace225e9998356dfe2a5MD51trueAnonymousREADTEXTfulltext.pdf.txtfulltext.pdf.txtExtracted texttext/plain103570https://repositorio-novo.fei.edu.br/bitstreams/ef35f25e-3126-40a6-b4dd-25271c7a04a0/downloadaa0ac0c4cce297504cc65e60646f7040MD54falseAnonymousREADTHUMBNAILfulltext.pdf.jpgfulltext.pdf.jpgGenerated Thumbnailimage/jpeg2648https://repositorio-novo.fei.edu.br/bitstreams/3553f7e2-00a2-4899-a94d-e04bd1e4bb77/download19f0bfc8c5de84746cd1655069cf1367MD55falseAnonymousREADFEI/34472024-03-01 22:48:32.553open.accessoai:repositorio.fei.edu.br:FEI/3447https://repositorio-novo.fei.edu.brBiblioteca Digital de Teses e Dissertaçõeshttp://sofia.fei.edu.br/pergamum/biblioteca/PRIhttps://repositorio-api.fei.edu.br/server/oai/requestcfernandes@fei.edu.bropendoar:2024-03-01T22:48:32Repositório do Conhecimento Institucional do Centro Universitário da Fundação Educacional Inaciana (FEI) - Centro Universitário da Fundação Educacional Inaciana (FEI)false
dc.title.pt_BR.fl_str_mv	Especialização de comunicação e políticas em aprendizado por reforço com múltiplos agentes heterogêneos utilizando redes neurais de grafos
title	Especialização de comunicação e políticas em aprendizado por reforço com múltiplos agentes heterogêneos utilizando redes neurais de grafos
spellingShingle	Especialização de comunicação e políticas em aprendizado por reforço com múltiplos agentes heterogêneos utilizando redes neurais de grafos Meneghetti, D. R. sistemas multi-agentes aprendizado por reforço agentes heterogêneos redes neurais de grafos
title_short	Especialização de comunicação e políticas em aprendizado por reforço com múltiplos agentes heterogêneos utilizando redes neurais de grafos
title_full	Especialização de comunicação e políticas em aprendizado por reforço com múltiplos agentes heterogêneos utilizando redes neurais de grafos
title_fullStr	Especialização de comunicação e políticas em aprendizado por reforço com múltiplos agentes heterogêneos utilizando redes neurais de grafos
title_full_unstemmed	Especialização de comunicação e políticas em aprendizado por reforço com múltiplos agentes heterogêneos utilizando redes neurais de grafos
title_sort	Especialização de comunicação e políticas em aprendizado por reforço com múltiplos agentes heterogêneos utilizando redes neurais de grafos
author	Meneghetti, D. R.
author_facet	Meneghetti, D. R.
author_role	author
dc.contributor.author.fl_str_mv	Meneghetti, D. R.
dc.contributor.advisor1.fl_str_mv	Bianchi, Reinaldo Augusto da Costa
contributor_str_mv	Bianchi, Reinaldo Augusto da Costa
dc.subject.por.fl_str_mv	sistemas multi-agentes aprendizado por reforço agentes heterogêneos redes neurais de grafos
topic	sistemas multi-agentes aprendizado por reforço agentes heterogêneos redes neurais de grafos
description	Esta tese apresenta uma arquitetura de rede neural voltada ao aprendizado de políticas em sistemas multi-agentes totalmente cooperativos, compostos de agentes heterogêneos e comunicativos. O ambiente é formalizado como um Processo de Decisão de Markov Parcialmente Observável Descentralizado e os estados transformados em grafos direcionados rotulados atribuídos de agentes e entidades. Vértices representam agentes e entidades; os rótulos dos vértices, suas classes, sendo todos os agentes dentro de uma mesma classe considerados homogêneos entre si; arcos direcionados representam a capacidade dos agentes de adquirir informação de outras entidades; e vetores armazenados nos vértices representam as características que descrevem agentes e entidades, ou as observações dos agentes. A topologia de rede neural proposta usa camadas totalmente conectadas para codificar as observações dos agentes; convoluções relacionais em grafos para aprender mecanismos de comunicação específicos para diferentes pares de classes; e diferentes redes neurais treinadas utilizando aprendizado por reforço para modelar as políticas das classes de agentes. A tese apresenta dois métodos. No primeiro, os módulos de codificação e aprendizado de funções valor-ação são modelados como redes neurais distintas para cada classe de entidade e agente, e o treinamento do modelo é feito utilizando uma memória de repetição de transições. O segundo método usa compartilhamento de parâmetros entre as classes de agentes para obter uma rede neural com menos parâmetros, assim como emprega camadas recorrentes e treinamento com amostras de uma memória de repetição de episódios. A comunicação relacional é comparada à comunicação realizada através de mecanismos de atenção e à ausência de comunicação entre os agentes. Também é testada a compatibilidade do método com outras contribuições disponíveis na literatura, como a regularização por relações temporais e o mixing aditivo. Testes realizados no ambiente do StarCraft Multi-Agent Challenge demonstram que o emprego de camadas de convolução relacionais para a especialização da comunicação entre agentes viabiliza desempenho comparável ou superior aos outros métodos em todos os cenários testados, principalmente naqueles com maior número de classes de agentes. Já a combinação da comunicação relacional com o mixing aditivo apresentou, geralmente, os melhores resultados
publishDate	2021
dc.date.accessioned.fl_str_mv	2021-11-09T14:13:35Z
dc.date.available.fl_str_mv	2021-11-09T14:13:35Z
dc.date.issued.fl_str_mv	2021
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	MENEGHETTI, D. R.; BIANCHI, Reinaldo Augusto da Costa. <b> Especialização de comunicação e políticas em aprendizado por reforço com múltiplos agentes heterogêneos utilizando redes neurais de grafos. </b> 2021. 136 p. Tese (Doutorado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2021 Disponível em: https://doi.org/10.31414/EE.2021.T.131375.
dc.identifier.uri.fl_str_mv	https://repositorio.fei.edu.br/handle/FEI/3447
dc.identifier.doi.none.fl_str_mv	https://doi.org/10.31414/EE.2021.T.131375
identifier_str_mv	MENEGHETTI, D. R.; BIANCHI, Reinaldo Augusto da Costa. <b> Especialização de comunicação e políticas em aprendizado por reforço com múltiplos agentes heterogêneos utilizando redes neurais de grafos. </b> 2021. 136 p. Tese (Doutorado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2021 Disponível em: https://doi.org/10.31414/EE.2021.T.131375.
url	https://repositorio.fei.edu.br/handle/FEI/3447 https://doi.org/10.31414/EE.2021.T.131375
dc.language.iso.fl_str_mv	por pt_BR
language	por
language_invalid_str_mv	pt_BR
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.coverage.area.none.fl_str_mv	Inteligência Artificial Aplicada à Automação e Robótica
dc.publisher.none.fl_str_mv	Centro Universitário FEI, São Bernardo do Campo
publisher.none.fl_str_mv	Centro Universitário FEI, São Bernardo do Campo
dc.source.none.fl_str_mv	reponame:Repositório do Conhecimento Institucional do Centro Universitário da Fundação Educacional Inaciana (FEI) instname:Centro Universitário da Fundação Educacional Inaciana (FEI) instacron:FEI
instname_str	Centro Universitário da Fundação Educacional Inaciana (FEI)
instacron_str	FEI
institution	FEI
reponame_str	Repositório do Conhecimento Institucional do Centro Universitário da Fundação Educacional Inaciana (FEI)
collection	Repositório do Conhecimento Institucional do Centro Universitário da Fundação Educacional Inaciana (FEI)
bitstream.url.fl_str_mv	https://repositorio-novo.fei.edu.br/bitstreams/9073db39-a3fb-4474-8031-e987876862c0/download https://repositorio-novo.fei.edu.br/bitstreams/ef35f25e-3126-40a6-b4dd-25271c7a04a0/download https://repositorio-novo.fei.edu.br/bitstreams/3553f7e2-00a2-4899-a94d-e04bd1e4bb77/download
bitstream.checksum.fl_str_mv	fcd5ebbd3aa9ace225e9998356dfe2a5 aa0ac0c4cce297504cc65e60646f7040 19f0bfc8c5de84746cd1655069cf1367
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório do Conhecimento Institucional do Centro Universitário da Fundação Educacional Inaciana (FEI) - Centro Universitário da Fundação Educacional Inaciana (FEI)
repository.mail.fl_str_mv	cfernandes@fei.edu.br
_version_	1856221262218526720

Especialização de comunicação e políticas em aprendizado por reforço com múltiplos agentes heterogêneos utilizando redes neurais de grafos

Registros relacionados