Aplicação de mineração de dados para reduzir a dimensão do espaço de características e ações em aprendizagem por reforço: cenário do drible da RoboCup
| Ano de defesa: | 2010 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de Pernambuco
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://repositorio.ufpe.br/handle/123456789/2456 |
Resumo: | A aprendizagem por reforço é usada em cenários nos quais não se dispõe de um resultado associado a cada estado nem a cada ação tomada por um agente inteligente. Essa forma de aprendizagem; portanto, mantém uma forte dependência da exploração dos espaços de estados e de ações que produz uma explosão de dados cujo armazenamento se torna um problema em muitas situações. Por outro lado, tem-se a mineração de dados como uma área da inteligência artificial que busca extrair informações ou padrões de grandes quantidades de dados, ou armazenados em um banco de dados ou trafegando em um fluxo contínuo de dados. A principal contribuição deste trabalho é mostrar como as técnicas de mineração de dados podem ser utilizadas para selecionar as variáveis e ações mais relevantes dos ambientes da aprendizagem por reforço. O objetivo desta seleção é reduzir a complexidade do problema e a quantidade de memória usada pelo agente, que podem acelerar a convergência da aprendizagem. A dificuldade em utilizar as técnicas de mineração de dados em ambientes da aprendizagem por reforço deve-se ao não armazenamento dos dados provenientes da exploração dos espaços de estados e de ações em um banco de dados. Este trabalho também contribui propondo um esquema de armazenamento para os estados visitados e as ações executadas pelo agente. Neste estudo, o método de seleção de atributos e de ações foi validado experimentalmente em um problema no qual a aprendizagem por reforço é a abordagem mais adequada; o drible no futebol de robôs RoboCup-2D. Este problema é composto de 23 variáveis contínuas e 113 ações disponíveis para o agente que consome cerca de 18MB de memória quando utilizado o algoritmo combinado com a técnica de tile-coding. Os resultados dos experimentos mostraram que a quantidade de variáveis do ambiente pode ser reduzida em até 56% e a quantidade de ações em até 85%, com uma redução do uso da memória de 95% e um aumento no desempenho de aproximadamente 10% de acordo com a distribuição da freqüência relativa de sucesso do agente. A abordagem proposta é simples de usar e eficiente |
| id |
UFPE_eb2a8ee90ae8bd072992f9e04b5e0770 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufpe.br:123456789/2456 |
| network_acronym_str |
UFPE |
| network_name_str |
Repositório Institucional da UFPE |
| repository_id_str |
|
| spelling |
VIEIRA, Davi Carnaúba de LimaADEODATO, Paulo Jorge Leitão2014-06-12T15:58:23Z2014-06-12T15:58:23Z2010-01-31Carnaúba de Lima Vieira, Davi; Jorge Leitão Adeodato, Paulo. Aplicação de mineração de dados para reduzir a dimensão do espaço de características e ações em aprendizagem por reforço: cenário do drible da RoboCup. 2010. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2010.https://repositorio.ufpe.br/handle/123456789/2456A aprendizagem por reforço é usada em cenários nos quais não se dispõe de um resultado associado a cada estado nem a cada ação tomada por um agente inteligente. Essa forma de aprendizagem; portanto, mantém uma forte dependência da exploração dos espaços de estados e de ações que produz uma explosão de dados cujo armazenamento se torna um problema em muitas situações. Por outro lado, tem-se a mineração de dados como uma área da inteligência artificial que busca extrair informações ou padrões de grandes quantidades de dados, ou armazenados em um banco de dados ou trafegando em um fluxo contínuo de dados. A principal contribuição deste trabalho é mostrar como as técnicas de mineração de dados podem ser utilizadas para selecionar as variáveis e ações mais relevantes dos ambientes da aprendizagem por reforço. O objetivo desta seleção é reduzir a complexidade do problema e a quantidade de memória usada pelo agente, que podem acelerar a convergência da aprendizagem. A dificuldade em utilizar as técnicas de mineração de dados em ambientes da aprendizagem por reforço deve-se ao não armazenamento dos dados provenientes da exploração dos espaços de estados e de ações em um banco de dados. Este trabalho também contribui propondo um esquema de armazenamento para os estados visitados e as ações executadas pelo agente. Neste estudo, o método de seleção de atributos e de ações foi validado experimentalmente em um problema no qual a aprendizagem por reforço é a abordagem mais adequada; o drible no futebol de robôs RoboCup-2D. Este problema é composto de 23 variáveis contínuas e 113 ações disponíveis para o agente que consome cerca de 18MB de memória quando utilizado o algoritmo combinado com a técnica de tile-coding. Os resultados dos experimentos mostraram que a quantidade de variáveis do ambiente pode ser reduzida em até 56% e a quantidade de ações em até 85%, com uma redução do uso da memória de 95% e um aumento no desempenho de aproximadamente 10% de acordo com a distribuição da freqüência relativa de sucesso do agente. A abordagem proposta é simples de usar e eficienteFundação de Amparo à Ciência e Tecnologia do Estado de PernambucoporUniversidade Federal de PernambucoAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessAgentes inteligentesAprendizagem por reforçoRoboCupMine-ração de dadosSeleção de atributos e açõesAplicação de mineração de dados para reduzir a dimensão do espaço de características e ações em aprendizagem por reforço: cenário do drible da RoboCupinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILarquivo4030_1.pdf.jpgarquivo4030_1.pdf.jpgGenerated Thumbnailimage/jpeg1493https://repositorio.ufpe.br/bitstream/123456789/2456/4/arquivo4030_1.pdf.jpg8599c27775dccf47483df13d2fe576a7MD54ORIGINALarquivo4030_1.pdfapplication/pdf9256625https://repositorio.ufpe.br/bitstream/123456789/2456/1/arquivo4030_1.pdf7f4c7776d120f9fef113904bc5e3e526MD51LICENSElicense.txttext/plain1748https://repositorio.ufpe.br/bitstream/123456789/2456/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52TEXTarquivo4030_1.pdf.txtarquivo4030_1.pdf.txtExtracted texttext/plain243182https://repositorio.ufpe.br/bitstream/123456789/2456/3/arquivo4030_1.pdf.txt16e6aaff9f48b4e6179291964a263a2dMD53123456789/24562019-10-25 06:09:38.566oai:repositorio.ufpe.br:123456789/2456Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T09:09:38Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
| dc.title.pt_BR.fl_str_mv |
Aplicação de mineração de dados para reduzir a dimensão do espaço de características e ações em aprendizagem por reforço: cenário do drible da RoboCup |
| title |
Aplicação de mineração de dados para reduzir a dimensão do espaço de características e ações em aprendizagem por reforço: cenário do drible da RoboCup |
| spellingShingle |
Aplicação de mineração de dados para reduzir a dimensão do espaço de características e ações em aprendizagem por reforço: cenário do drible da RoboCup VIEIRA, Davi Carnaúba de Lima Agentes inteligentes Aprendizagem por reforço RoboCup Mine-ração de dados Seleção de atributos e ações |
| title_short |
Aplicação de mineração de dados para reduzir a dimensão do espaço de características e ações em aprendizagem por reforço: cenário do drible da RoboCup |
| title_full |
Aplicação de mineração de dados para reduzir a dimensão do espaço de características e ações em aprendizagem por reforço: cenário do drible da RoboCup |
| title_fullStr |
Aplicação de mineração de dados para reduzir a dimensão do espaço de características e ações em aprendizagem por reforço: cenário do drible da RoboCup |
| title_full_unstemmed |
Aplicação de mineração de dados para reduzir a dimensão do espaço de características e ações em aprendizagem por reforço: cenário do drible da RoboCup |
| title_sort |
Aplicação de mineração de dados para reduzir a dimensão do espaço de características e ações em aprendizagem por reforço: cenário do drible da RoboCup |
| author |
VIEIRA, Davi Carnaúba de Lima |
| author_facet |
VIEIRA, Davi Carnaúba de Lima |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
VIEIRA, Davi Carnaúba de Lima |
| dc.contributor.advisor1.fl_str_mv |
ADEODATO, Paulo Jorge Leitão |
| contributor_str_mv |
ADEODATO, Paulo Jorge Leitão |
| dc.subject.por.fl_str_mv |
Agentes inteligentes Aprendizagem por reforço RoboCup Mine-ração de dados Seleção de atributos e ações |
| topic |
Agentes inteligentes Aprendizagem por reforço RoboCup Mine-ração de dados Seleção de atributos e ações |
| description |
A aprendizagem por reforço é usada em cenários nos quais não se dispõe de um resultado associado a cada estado nem a cada ação tomada por um agente inteligente. Essa forma de aprendizagem; portanto, mantém uma forte dependência da exploração dos espaços de estados e de ações que produz uma explosão de dados cujo armazenamento se torna um problema em muitas situações. Por outro lado, tem-se a mineração de dados como uma área da inteligência artificial que busca extrair informações ou padrões de grandes quantidades de dados, ou armazenados em um banco de dados ou trafegando em um fluxo contínuo de dados. A principal contribuição deste trabalho é mostrar como as técnicas de mineração de dados podem ser utilizadas para selecionar as variáveis e ações mais relevantes dos ambientes da aprendizagem por reforço. O objetivo desta seleção é reduzir a complexidade do problema e a quantidade de memória usada pelo agente, que podem acelerar a convergência da aprendizagem. A dificuldade em utilizar as técnicas de mineração de dados em ambientes da aprendizagem por reforço deve-se ao não armazenamento dos dados provenientes da exploração dos espaços de estados e de ações em um banco de dados. Este trabalho também contribui propondo um esquema de armazenamento para os estados visitados e as ações executadas pelo agente. Neste estudo, o método de seleção de atributos e de ações foi validado experimentalmente em um problema no qual a aprendizagem por reforço é a abordagem mais adequada; o drible no futebol de robôs RoboCup-2D. Este problema é composto de 23 variáveis contínuas e 113 ações disponíveis para o agente que consome cerca de 18MB de memória quando utilizado o algoritmo combinado com a técnica de tile-coding. Os resultados dos experimentos mostraram que a quantidade de variáveis do ambiente pode ser reduzida em até 56% e a quantidade de ações em até 85%, com uma redução do uso da memória de 95% e um aumento no desempenho de aproximadamente 10% de acordo com a distribuição da freqüência relativa de sucesso do agente. A abordagem proposta é simples de usar e eficiente |
| publishDate |
2010 |
| dc.date.issued.fl_str_mv |
2010-01-31 |
| dc.date.accessioned.fl_str_mv |
2014-06-12T15:58:23Z |
| dc.date.available.fl_str_mv |
2014-06-12T15:58:23Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
Carnaúba de Lima Vieira, Davi; Jorge Leitão Adeodato, Paulo. Aplicação de mineração de dados para reduzir a dimensão do espaço de características e ações em aprendizagem por reforço: cenário do drible da RoboCup. 2010. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2010. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/2456 |
| identifier_str_mv |
Carnaúba de Lima Vieira, Davi; Jorge Leitão Adeodato, Paulo. Aplicação de mineração de dados para reduzir a dimensão do espaço de características e ações em aprendizagem por reforço: cenário do drible da RoboCup. 2010. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2010. |
| url |
https://repositorio.ufpe.br/handle/123456789/2456 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
| publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
| instname_str |
Universidade Federal de Pernambuco (UFPE) |
| instacron_str |
UFPE |
| institution |
UFPE |
| reponame_str |
Repositório Institucional da UFPE |
| collection |
Repositório Institucional da UFPE |
| bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/2456/4/arquivo4030_1.pdf.jpg https://repositorio.ufpe.br/bitstream/123456789/2456/1/arquivo4030_1.pdf https://repositorio.ufpe.br/bitstream/123456789/2456/2/license.txt https://repositorio.ufpe.br/bitstream/123456789/2456/3/arquivo4030_1.pdf.txt |
| bitstream.checksum.fl_str_mv |
8599c27775dccf47483df13d2fe576a7 7f4c7776d120f9fef113904bc5e3e526 8a4605be74aa9ea9d79846c1fba20a33 16e6aaff9f48b4e6179291964a263a2d |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
| repository.mail.fl_str_mv |
attena@ufpe.br |
| _version_ |
1862741698023522304 |