Q-SVR : aprendizado por reforço via aproximação da função ação-valor por máquinas de vetores suporte

Brasil, Vinícyus Araújo

Q-SVR : aprendizado por reforço via aproximação da função ação-valor por máquinas de vetores suporte

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Brasil, Vinícyus Araújo
Orientador(a):	Ara, Anderson Luiz
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Algorítmos computacionais Aprendizado do computador Análise Numérica
Link de acesso:	https://hdl.handle.net/1884/94678
Resumo:	Orientador: Profº Drº Anderson Luiz Ara Souza

Metadados do item

id	UFPR_c0b924c7ddb2cc0f91c787304e129436
oai_identifier_str	oai:acervodigital.ufpr.br:1884/94678
network_acronym_str	UFPR
network_name_str	Repositório Institucional da UFPR
repository_id_str
spelling	Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Métodos Numéricos em EngenhariaAra, Anderson LuizBrasil, Vinícyus Araújo2025-02-06T19:44:12Z2025-02-06T19:44:12Z2024https://hdl.handle.net/1884/94678Orientador: Profº Drº Anderson Luiz Ara SouzaDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Métodos Numéricos em Engenharia. Defesa : Curitiba, 26/09/2024Inclui referênciasResumo: A busca por novos algoritmos que consigam resolver o problema do aprendizado por reforço, no qual um agente explora um ambiente com estados buscando tomar ações que maximizem sua recompensa, tem crescido nos últimos tempos, principalmente ao combinar com outras técnicas de aproximação de funções já estabelecidas em outras áreas do aprendizado de máquina. Apesar de alguns algoritmos já terem se consolidado da literatura, ainda existem problemas notáveis para explorar, como a dificuldade em lidar com ambientes com um alto número de ações e estados do Q-Learning e o problema da não-convexidade do algoritmo Deep Q-Network. Uma técnica pouco explorada para o problema do aprendizado por reforço é a Máquina de Vetores Suporte, técnica utilizada tanto para classificação e regressão que tem uma grande capacidade de generalização. Essa tem a característica desejável em algoritmos de otimização que é a convexidade no seu problema de otimização. O objetivo deste trabalho é propor um algoritmo de aprendizado por reforço utilizando Máquina de Vetores Suporte, o qual é chamado de Q-SVR. O estudo se limitou à ambientes de problemas de aprendizado por reforço que têm um número discreto e pequeno de estados. Testes foram realizados e mostraram a viabilidade do algoritmo proposto, assim como sua superioridade em relação aos algoritmos Q-Learning e Deep Q-Network em algumas métricas específicas. Uma aplicação no jogo de cartas Blackjack também foi apresentada. Os testes também apontaram possibilidades de melhorias do algoritmo proposto, como o alto tempo computacional e a dificuldade de lidar com problemas com muitos estadosAbstract: The search for new algorithms that can solve the reinforcement learning problem, in which an agent explores an environment with states seeking to take actions that maximize its reward, has grown in recent times, especially when combined with other function approximation techniques already established in other areas of machine learning. Although algorithms have already been consolidated in the literature, there are still notable problems to explore, such as the difficulty in dealing with environments with a high number of actions and states of Q-Learning and the problem of non-convexity of the Deep Q-Network algorithm. A little-explored technique for the reinforcement learning problem is the Support Vector Machine, a technique used for both classification and regression that has a great generalization capacity. This has a desirable characteristic in optimization algorithms, which is convexity in its optimization problem. The objective of this work is to propose a reinforcement learning algorithm using Support Vector Machine, which is called Q-SVR. The study was limited to reinforcement learning problem environments that have a small and discrete number of states. Tests were performed and showed the viability of the proposed algorithm, as well as its superiority over the Q-Learning and Deep Q-Network algorithms in some specific metrics. An application in the card game Blackjack was also presented. The tests also pointed out possibilities for improvements in the proposed algorithm, such as the high computational time and the difficulty of dealing with problems with many states1 recurso online : PDF.application/pdfAlgorítmos computacionaisAprendizado do computadorAnálise NuméricaQ-SVR : aprendizado por reforço via aproximação da função ação-valor por máquinas de vetores suporteinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - VINICYUS ARAUJO BRASIL.pdfapplication/pdf9631559https://acervodigital.ufpr.br/bitstream/1884/94678/1/R%20-%20D%20-%20VINICYUS%20ARAUJO%20BRASIL.pdff3fe83db69d7f34955e10f439450a89fMD51open access1884/946782025-02-06 16:44:12.886open accessoai:acervodigital.ufpr.br:1884/94678Repositório InstitucionalPUBhttp://acervodigital.ufpr.br/oai/requestinformacaodigital@ufpr.bropendoar:3082025-02-06T19:44:12Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv	Q-SVR : aprendizado por reforço via aproximação da função ação-valor por máquinas de vetores suporte
title	Q-SVR : aprendizado por reforço via aproximação da função ação-valor por máquinas de vetores suporte
spellingShingle	Q-SVR : aprendizado por reforço via aproximação da função ação-valor por máquinas de vetores suporte Brasil, Vinícyus Araújo Algorítmos computacionais Aprendizado do computador Análise Numérica
title_short	Q-SVR : aprendizado por reforço via aproximação da função ação-valor por máquinas de vetores suporte
title_full	Q-SVR : aprendizado por reforço via aproximação da função ação-valor por máquinas de vetores suporte
title_fullStr	Q-SVR : aprendizado por reforço via aproximação da função ação-valor por máquinas de vetores suporte
title_full_unstemmed	Q-SVR : aprendizado por reforço via aproximação da função ação-valor por máquinas de vetores suporte
title_sort	Q-SVR : aprendizado por reforço via aproximação da função ação-valor por máquinas de vetores suporte
author	Brasil, Vinícyus Araújo
author_facet	Brasil, Vinícyus Araújo
author_role	author
dc.contributor.other.pt_BR.fl_str_mv	Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Métodos Numéricos em Engenharia
dc.contributor.advisor1.fl_str_mv	Ara, Anderson Luiz
dc.contributor.author.fl_str_mv	Brasil, Vinícyus Araújo
contributor_str_mv	Ara, Anderson Luiz
dc.subject.por.fl_str_mv	Algorítmos computacionais Aprendizado do computador Análise Numérica
topic	Algorítmos computacionais Aprendizado do computador Análise Numérica
description	Orientador: Profº Drº Anderson Luiz Ara Souza
publishDate	2024
dc.date.issued.fl_str_mv	2024
dc.date.accessioned.fl_str_mv	2025-02-06T19:44:12Z
dc.date.available.fl_str_mv	2025-02-06T19:44:12Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://hdl.handle.net/1884/94678
url	https://hdl.handle.net/1884/94678
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	1 recurso online : PDF. application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR
instname_str	Universidade Federal do Paraná (UFPR)
instacron_str	UFPR
institution	UFPR
reponame_str	Repositório Institucional da UFPR
collection	Repositório Institucional da UFPR
bitstream.url.fl_str_mv	https://acervodigital.ufpr.br/bitstream/1884/94678/1/R%20-%20D%20-%20VINICYUS%20ARAUJO%20BRASIL.pdf
bitstream.checksum.fl_str_mv	f3fe83db69d7f34955e10f439450a89f
bitstream.checksumAlgorithm.fl_str_mv	MD5
repository.name.fl_str_mv	Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv	informacaodigital@ufpr.br
_version_	1847526226621628416

Q-SVR : aprendizado por reforço via aproximação da função ação-valor por máquinas de vetores suporte

Registros relacionados