Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Petrazzini, Irving Giovani Bronzatti
Orientador(a): Antonelo, Eric Aislan
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Link de acesso: https://repositorio.ufsc.br/handle/123456789/251825
Resumo: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2023.
id UFSC_595dd924140da05e089b7f8912eb6bc1
oai_identifier_str oai:repositorio.ufsc.br:123456789/251825
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str
spelling Universidade Federal de Santa CatarinaPetrazzini, Irving Giovani BronzattiAntonelo, Eric Aislan2023-11-07T23:27:01Z2023-11-07T23:27:01Z2023384590https://repositorio.ufsc.br/handle/123456789/251825Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2023.A condução autônoma de veículos é um problema desafiador, pois seu ambiente possui uma natureza aberta com eventos inesperados e críticos que podem ocorrer. Abordagens de Aprendizado por Imitação (IL) contribuíram para a condução autônoma de ponta a ponta, não apenas na academia, mas também em empresas que fornecem serviços de condução autônoma. Nesta abordagem, um especialista gera trajetórias de pares observação-ação, demonstrando o comportamento desejado a um agente aprendiz. A clonagem comportamental é a forma mais simples de IL, onde uma rede neural é treinada ?offline? e apenas uma vez antes de interagir com o ambiente. Outras abordagens são interativas, proporcionando um aprendizado online por tentativa e erro no ambiente. Neste trabalho, exploramos uma dessas abordagens: o Aprendizado por Imitação com Regularização por Desacordo (DRIL), que utiliza um conjunto de políticas treinadas para sobreajustar o conjunto de especialistas por meio da clonagem comportamental. O desacordo no conjunto, que pode ser calculado pela variação das políticas, indica se um certo estado está distante dos estados consultados pelo especialista. Isso pode ser usado para obter um sinal de recompensa, permitindo uma abordagem de treinamento em ciclo fechado. Este trabalho elabora diferentes maneiras de empregar o DRIL, especialmente no cenário de condução de autonomia, caracterizado por espaços de observação de alta dimensão, como imagens, e espaços contínuos de ação. Ao empregar um método analógico de interrupção precoce (?early-stopping?), o DRIL demonstrou um desempenho superior em comparação com os resultados relatados por outras abordagens de aprendizado por imitação em um simulador de carro autônomo de vista superior. Finalmente, experimentos demonstraram que uma política estocástica treinada naquele ambiente apenas com a clonagem comportamental utilizando uma distribuição Beta, em vez da Gaussiana padrão, apresentada oferece uma alternativa competitiva, além de um processo de treinamento mais rápido.Abstract: Autonomous driving is a challenging problem, since its environment has an open-ended nature with unexpected, critical events that can take place. Imitation Learning (IL) approaches have become dominant for end-to-end autonomous driving not only in academia but also in companies which provide autonomous driving services. In this approach, an expert generates trajectories of observation-action pairs, demonstrating the desired behavior to a computational learning agent. Behavior cloning is the simplest form of IL, where a neural network is trained offline and only once before it is deployed in the environment. Other approaches are interactive, providing an online learning through trial and error in the environment. In this work, we explore one of such approaches: the Disagreement- Regularized Imitation Learning (DRIL), which leverages an ensemble of policies trained to overfit the expert set through behavior cloning. The disagreement in the ensemble, which can be calculated by the variance of policies, indicates if a given state is distant from the states seen by the expert. This can be used to derive a reward signal, facilitating a closed-loop training approach. This work elaborates on different ways of employing DRIL, specially in the autonomous driving scenario, characterized by both high-dimensional observation spaces, such as images, and continuous action spaces. By employing a method analogous to early-stopping, DRIL has demonstrated superior performance compared to results reported by other imitation learning methods in a top-down racing environment. Finally, experiments have shown that a policy trained with behavior cloning alone in that environment and modeling a Beta distribution instead of the standard Gaussian one has shown to offer a competitive alternative in addition to a faster training process. Keywords: Imitation Learning. Autonomous Driving. Disagreement-Regularized Imitation Learning. Reinforcement Learning.111 p.| tabs.engEngenharia de sistemasVeículos autônomosInteligência artificialImitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distributioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINALPEAS0434-D.pdfPEAS0434-D.pdfapplication/pdf13466398https://repositorio.ufsc.br/bitstream/123456789/251825/1/PEAS0434-D.pdfe038856c0acb1d145426887775693af0MD51123456789/2518252023-11-07 20:27:01.546oai:repositorio.ufsc.br:123456789/251825Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestsandra.sobrera@ufsc.bropendoar:23732023-11-07T23:27:01Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution
title Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution
spellingShingle Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution
Petrazzini, Irving Giovani Bronzatti
Engenharia de sistemas
Veículos autônomos
Inteligência artificial
title_short Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution
title_full Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution
title_fullStr Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution
title_full_unstemmed Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution
title_sort Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution
author Petrazzini, Irving Giovani Bronzatti
author_facet Petrazzini, Irving Giovani Bronzatti
author_role author
dc.contributor.none.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Petrazzini, Irving Giovani Bronzatti
dc.contributor.advisor1.fl_str_mv Antonelo, Eric Aislan
contributor_str_mv Antonelo, Eric Aislan
dc.subject.classification.none.fl_str_mv Engenharia de sistemas
Veículos autônomos
Inteligência artificial
topic Engenharia de sistemas
Veículos autônomos
Inteligência artificial
description Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2023.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-11-07T23:27:01Z
dc.date.available.fl_str_mv 2023-11-07T23:27:01Z
dc.date.issued.fl_str_mv 2023
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/251825
dc.identifier.other.none.fl_str_mv 384590
identifier_str_mv 384590
url https://repositorio.ufsc.br/handle/123456789/251825
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 111 p.| tabs.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/251825/1/PEAS0434-D.pdf
bitstream.checksum.fl_str_mv e038856c0acb1d145426887775693af0
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv sandra.sobrera@ufsc.br
_version_ 1851758854239420416