Object detection and monocular depth estimation with a custom synthetic automotive dataset

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Tabata, Alan Naoto
Orientador(a): Coelho, Leandro dos Santos, 1968-
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/1884/70293
Resumo: Orientador: Prof. Dr. Leandro dos Santos Coelho
id UFPR_316b4e0e627e2075ca15d174a3e1a2d7
oai_identifier_str oai:acervodigital.ufpr.br:1884/70293
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str
spelling Tabata, Alan NaotoZimmer, Alessandro, 1969-Universidade Federal do Paraná. Setor de Tecnologia. Programa de Pós-Graduação em Engenharia ElétricaCoelho, Leandro dos Santos, 1968-2021-05-26T20:39:44Z2021-05-26T20:39:44Z2020https://hdl.handle.net/1884/70293Orientador: Prof. Dr. Leandro dos Santos CoelhoCoorientador: Prof. Dr. Alessandro ZimmerDissertação (mestrado) - Universidade Federal do Paraná, Setor de Tecnologia, Programa de Pós-Graduação em Engenharia Elétrica. Defesa : Curitiba, 30/07/2020Inclui referências: p. 114-123Área de concentração: Sistemas EletrônicosResumo: Na indústria automotiva, o conceito de veículos autônomos vem se aproximando da realidade, com empresas disputando para serem as pioneiras em alcançar pelo menos o nível 3 de direção autônomo. Contudo, antes de implementar veículos autônomos em larga escala, pesquisas e testes devem ser realizados de forma a avaliar a segurança e confiabilidade dos veículos. Como uma das formas pelo qual veículos autônomos percebem seu entorno é por meio de câmeras, então uma abordagem para promover a segurança humana é a pesquisa em técnicas de visão computacional que podem ajudar o veículo a assimilar melhor o contexto em que ele se situa. Logo, nesse trabalho um algoritmo capaz de detectar pedestres e veículos, e a distância deles em relação à câmera será desenvolvido, de forma que trabalhos futuros possam aplicar técnicas de correção de trajetória com antecedência. As principais contribuições são a aplicação e validação de tais técnicas em um contexto diferente daqueles que já foram extensivamente testados na literatura. Nessa dissertação, isso é feito ao criar uma base de dados própria baseada no CARLA e avaliando a capacidade de transferência de conhecimento de algoritmos de visão computacional para outra base de dados real, o Waymo Open. O propósito de uma base de dados sintéticos é possibilitar a geração de grandes quantidades de dados à vontade, um requisito para parametrizar modelos de visão computacional baseados em redes neurais convolucionais profundas. O Faster R-CNN com a ResNet 50 de suporte é avaliada para a tarefa de reconhecimento de objetos, e para a estimativa de profundidade monocular o modelo monodepth2 com a U-Net e ResNet 18 de suporte foram avaliados. Na parte de detecção de objetos, foi notado que a injeção de dados sintéticos não auxiliou na generalização do modelo, com um decréscimo de 12% nas métricas de performance quando comparado com o modelo treinado do zero na base de dados Waymo skip 10. Para a estimativa de profundidade monocular, no entanto, os modelos com melhor desempenho provaram ser a combinação de dados sintéticos e reais, melhorando as métricas de performance em média 5% na base dados do Waymo. No geral, foi notada a importância da diversidade de dados para ambos algoritmos, com a iteração da base de dados sintética atual sendo benéfica para o monodepth2, mas não para o Faster R-CNN, o que sugere que ainda há espaço para melhorias. Essas observações levam a conclusão de que as características que impactam positivamente o modelo para criar uma base de dados diferem de acordo com o propósito do algoritmo, e portanto a criação de uma base de dados de propósito geral provavelmente não é ideal. Palavras-chave: Detecção de pedestres e veículos. Estimativa de profundidade monocular. Redes neurais convolucionais profundas. Veículos autônomos. Base de dados sintética.Abstract: In the automotive industry, the concept of autonomous vehicles is becoming closer to reality, with companies disputing to be the pioneers on reaching at least a level 3 on driving automation. However, before implementing autonomous vehicles on a large scale, research and testing should be performed to assess its safety and reliability. Since one of the ways autonomous vehicles sense its surrounding is through cameras, then one approach to promote human safety is by researching computer vision techniques that may help the vehicle to better understand the context it is in. Therefore, on this work algorithms capable of detecting pedestrians and vehicles, and their distance to the camera are evaluated, in a way that future works can apply corrective trajectory procedures in advance. The main contributions of this work are application and validation of such techniques in a context different from those of which have already been extensively tested on the literature. In this dissertation, this is done by creating a custom CARLA-based synthetic dataset and evaluating its knowledge transfer capability with computer vision algorithms to a real-world dataset, Waymo Open. The purpose of a synthetic dataset is the possibility of generating huge amounts of data at will, a requirement for parametrizing state-of-the-art computer vision models based on deep convolutional neural networks. The Faster R-CNN with a ResNet 50 as backbone was evaluated for the bounding box task, and for monocular depth estimation, the monodepth2 model with a U-Net and ResNet 18 as backbone was evaluated. On the object detection part, it was noted that the injection of synthetic data did not aid in model generalization, with 12% performance decrease when compared to training from scratch on the Waymo skip 10 dataset. For monocular depth estimation, however, the best performing models proved to be different combinations of both synthetic and real-world data, with them improving the performance metrics on average 5% on the Waymo dataset. Overall, it is noted the importance of data variety for both algorithms, with the current synthetic dataset iteration being beneficial for monodepth2 but not Faster R-CNN, which suggests that there is still room for improvement. These observations lead to the conclusion that features which impact positively the model for creating a dataset differ according to the algorithm's purpose, and as such the creation of an all-purpose dataset is probably not ideal. Keywords: Pedestrians and vehicles detection. Monocular depth estimation. Deep convolutional neural networks. Autonomous vehicles. Synthetic dataset123 p. : il. (algumas color.).application/pdfRedes neuraisEngenharia ElétricaObject detection and monocular depth estimation with a custom synthetic automotive datasetinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisengreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - ALAN NAOTO TABATA.pdfapplication/pdf19607159https://acervodigital.ufpr.br/bitstream/1884/70293/1/R%20-%20D%20-%20ALAN%20NAOTO%20TABATA.pdfec60a44ed8b1c3fd93bd8ef107c799d9MD51open access1884/702932021-05-26 17:39:44.275open accessoai:acervodigital.ufpr.br:1884/70293Repositório InstitucionalPUBhttp://acervodigital.ufpr.br/oai/requestinformacaodigital@ufpr.bropendoar:3082021-05-26T20:39:44Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Object detection and monocular depth estimation with a custom synthetic automotive dataset
title Object detection and monocular depth estimation with a custom synthetic automotive dataset
spellingShingle Object detection and monocular depth estimation with a custom synthetic automotive dataset
Tabata, Alan Naoto
Redes neurais
Engenharia Elétrica
title_short Object detection and monocular depth estimation with a custom synthetic automotive dataset
title_full Object detection and monocular depth estimation with a custom synthetic automotive dataset
title_fullStr Object detection and monocular depth estimation with a custom synthetic automotive dataset
title_full_unstemmed Object detection and monocular depth estimation with a custom synthetic automotive dataset
title_sort Object detection and monocular depth estimation with a custom synthetic automotive dataset
author Tabata, Alan Naoto
author_facet Tabata, Alan Naoto
author_role author
dc.contributor.other.pt_BR.fl_str_mv Zimmer, Alessandro, 1969-
Universidade Federal do Paraná. Setor de Tecnologia. Programa de Pós-Graduação em Engenharia Elétrica
dc.contributor.author.fl_str_mv Tabata, Alan Naoto
dc.contributor.advisor1.fl_str_mv Coelho, Leandro dos Santos, 1968-
contributor_str_mv Coelho, Leandro dos Santos, 1968-
dc.subject.por.fl_str_mv Redes neurais
Engenharia Elétrica
topic Redes neurais
Engenharia Elétrica
description Orientador: Prof. Dr. Leandro dos Santos Coelho
publishDate 2020
dc.date.issued.fl_str_mv 2020
dc.date.accessioned.fl_str_mv 2021-05-26T20:39:44Z
dc.date.available.fl_str_mv 2021-05-26T20:39:44Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/70293
url https://hdl.handle.net/1884/70293
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 123 p. : il. (algumas color.).
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/70293/1/R%20-%20D%20-%20ALAN%20NAOTO%20TABATA.pdf
bitstream.checksum.fl_str_mv ec60a44ed8b1c3fd93bd8ef107c799d9
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv informacaodigital@ufpr.br
_version_ 1847526258100928512