Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution

Petrazzini, Irving Giovani Bronzatti

Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution

Detalhes bibliográficos
Ano de defesa:	2023
Autor(a) principal:	Petrazzini, Irving Giovani Bronzatti
Orientador(a):	Antonelo, Eric Aislan
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Link de acesso:	https://repositorio.ufsc.br/handle/123456789/251825
Resumo:	Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2023.

Metadados do item

id	UFSC_595dd924140da05e089b7f8912eb6bc1
oai_identifier_str	oai:repositorio.ufsc.br:123456789/251825
network_acronym_str	UFSC
network_name_str	Repositório Institucional da UFSC
repository_id_str
spelling	Universidade Federal de Santa CatarinaPetrazzini, Irving Giovani BronzattiAntonelo, Eric Aislan2023-11-07T23:27:01Z2023-11-07T23:27:01Z2023384590https://repositorio.ufsc.br/handle/123456789/251825Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2023.A condução autônoma de veículos é um problema desafiador, pois seu ambiente possui uma natureza aberta com eventos inesperados e críticos que podem ocorrer. Abordagens de Aprendizado por Imitação (IL) contribuíram para a condução autônoma de ponta a ponta, não apenas na academia, mas também em empresas que fornecem serviços de condução autônoma. Nesta abordagem, um especialista gera trajetórias de pares observação-ação, demonstrando o comportamento desejado a um agente aprendiz. A clonagem comportamental é a forma mais simples de IL, onde uma rede neural é treinada ?offline? e apenas uma vez antes de interagir com o ambiente. Outras abordagens são interativas, proporcionando um aprendizado online por tentativa e erro no ambiente. Neste trabalho, exploramos uma dessas abordagens: o Aprendizado por Imitação com Regularização por Desacordo (DRIL), que utiliza um conjunto de políticas treinadas para sobreajustar o conjunto de especialistas por meio da clonagem comportamental. O desacordo no conjunto, que pode ser calculado pela variação das políticas, indica se um certo estado está distante dos estados consultados pelo especialista. Isso pode ser usado para obter um sinal de recompensa, permitindo uma abordagem de treinamento em ciclo fechado. Este trabalho elabora diferentes maneiras de empregar o DRIL, especialmente no cenário de condução de autonomia, caracterizado por espaços de observação de alta dimensão, como imagens, e espaços contínuos de ação. Ao empregar um método analógico de interrupção precoce (?early-stopping?), o DRIL demonstrou um desempenho superior em comparação com os resultados relatados por outras abordagens de aprendizado por imitação em um simulador de carro autônomo de vista superior. Finalmente, experimentos demonstraram que uma política estocástica treinada naquele ambiente apenas com a clonagem comportamental utilizando uma distribuição Beta, em vez da Gaussiana padrão, apresentada oferece uma alternativa competitiva, além de um processo de treinamento mais rápido.Abstract: Autonomous driving is a challenging problem, since its environment has an open-ended nature with unexpected, critical events that can take place. Imitation Learning (IL) approaches have become dominant for end-to-end autonomous driving not only in academia but also in companies which provide autonomous driving services. In this approach, an expert generates trajectories of observation-action pairs, demonstrating the desired behavior to a computational learning agent. Behavior cloning is the simplest form of IL, where a neural network is trained offline and only once before it is deployed in the environment. Other approaches are interactive, providing an online learning through trial and error in the environment. In this work, we explore one of such approaches: the Disagreement- Regularized Imitation Learning (DRIL), which leverages an ensemble of policies trained to overfit the expert set through behavior cloning. The disagreement in the ensemble, which can be calculated by the variance of policies, indicates if a given state is distant from the states seen by the expert. This can be used to derive a reward signal, facilitating a closed-loop training approach. This work elaborates on different ways of employing DRIL, specially in the autonomous driving scenario, characterized by both high-dimensional observation spaces, such as images, and continuous action spaces. By employing a method analogous to early-stopping, DRIL has demonstrated superior performance compared to results reported by other imitation learning methods in a top-down racing environment. Finally, experiments have shown that a policy trained with behavior cloning alone in that environment and modeling a Beta distribution instead of the standard Gaussian one has shown to offer a competitive alternative in addition to a faster training process. Keywords: Imitation Learning. Autonomous Driving. Disagreement-Regularized Imitation Learning. Reinforcement Learning.111 p.\| tabs.engEngenharia de sistemasVeículos autônomosInteligência artificialImitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distributioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINALPEAS0434-D.pdfPEAS0434-D.pdfapplication/pdf13466398https://repositorio.ufsc.br/bitstream/123456789/251825/1/PEAS0434-D.pdfe038856c0acb1d145426887775693af0MD51123456789/2518252023-11-07 20:27:01.546oai:repositorio.ufsc.br:123456789/251825Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestsandra.sobrera@ufsc.bropendoar:23732023-11-07T23:27:01Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv	Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution
title	Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution
spellingShingle	Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution Petrazzini, Irving Giovani Bronzatti Engenharia de sistemas Veículos autônomos Inteligência artificial
title_short	Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution
title_full	Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution
title_fullStr	Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution
title_full_unstemmed	Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution
title_sort	Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution
author	Petrazzini, Irving Giovani Bronzatti
author_facet	Petrazzini, Irving Giovani Bronzatti
author_role	author
dc.contributor.none.fl_str_mv	Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv	Petrazzini, Irving Giovani Bronzatti
dc.contributor.advisor1.fl_str_mv	Antonelo, Eric Aislan
contributor_str_mv	Antonelo, Eric Aislan
dc.subject.classification.none.fl_str_mv	Engenharia de sistemas Veículos autônomos Inteligência artificial
topic	Engenharia de sistemas Veículos autônomos Inteligência artificial
description	Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2023.
publishDate	2023
dc.date.accessioned.fl_str_mv	2023-11-07T23:27:01Z
dc.date.available.fl_str_mv	2023-11-07T23:27:01Z
dc.date.issued.fl_str_mv	2023
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://repositorio.ufsc.br/handle/123456789/251825
dc.identifier.other.none.fl_str_mv	384590
identifier_str_mv	384590
url	https://repositorio.ufsc.br/handle/123456789/251825
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	111 p.\| tabs.
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFSC instname:Universidade Federal de Santa Catarina (UFSC) instacron:UFSC
instname_str	Universidade Federal de Santa Catarina (UFSC)
instacron_str	UFSC
institution	UFSC
reponame_str	Repositório Institucional da UFSC
collection	Repositório Institucional da UFSC
bitstream.url.fl_str_mv	https://repositorio.ufsc.br/bitstream/123456789/251825/1/PEAS0434-D.pdf
bitstream.checksum.fl_str_mv	e038856c0acb1d145426887775693af0
bitstream.checksumAlgorithm.fl_str_mv	MD5
repository.name.fl_str_mv	Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv	sandra.sobrera@ufsc.br
_version_	1851758854239420416

Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution

Registros relacionados