Estimativa de mapas de profundidade usando encoder-decoder com módulos de atenção
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de São Carlos
Câmpus São Carlos |
| Programa de Pós-Graduação: |
Programa de Pós-Graduação em Ciência da Computação - PPGCC
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://repositorio.ufscar.br/handle/20.500.14289/21001 |
Resumo: | Camera calibration plays a fundamental role in image acquisition, being an important step in stereo vision systems. This technique allows for precise correspondence between points of interest in images captured by different cameras. With calibration, it is possible to relate real-world coordinates to image coordinates, which is essential for determining disparity (the positional difference of a point in the two images) and, consequently, estimating depth in a scene. However, the configuration of these systems is still a quite complex process. Therefore, the estimation of depth maps from single images has gained increasing traction, as it uses only one camera to capture images. Instead of relying on disparity, monocular techniques use computer vision algorithms, such as structure from motion, feature matching, and deep learning, to infer depth in a scene. Additionally, they are more flexible in terms of hardware, as they utilize only one camera, making them more suitable for applications in mobile devices and embedded systems. With this in mind, the present work proposes a new methodology that employs genetic programming and symbolic regression as an alternative to conventional camera calibration methods. The results obtained with the proposed approach demonstrate superior accuracy compared to some of the most relevant methods in the literature. All experiments conducted with this new approach were evaluated using Wilcoxon statistical tests with a significance level of 5%. For the process of estimating depth maps from monocular images, the work investigates the use of attention modules, proposing new configurations and architectural modifications with the aim of achieving competitive results relative to the state of the art. After ablation studies, it was observed that the configuration with CBAM (Convolutional Block Attention Module) in the encoder and Modified GCNet (Global Context Networks) in the decoder yielded the best results for the problem of depth map estimation using a simple Convolutional Neural Network model. The evaluation of the proposed model indicated, in some scenarios, superior performance compared to the works used for comparison, showing an improvement of 25.22% in Absolute Relative Error and 6.28% in Mean Squared Error. In summary, this work contributes significantly to the advance ment of research in camera calibration and depth estimation, opening new perspectives for the application of convolutional neural networks in resource-limited contexts. The practical implications of the results are vast, suggesting that the ongoing development of deep learning architectures can not only improve accuracy in depth estimation but also make these technologies more accessible and applicable in mobile devices and embedded systems. Future studies could explore the integration of these methodologies in real-world scenarios, enhancing their applicability in areas such as robotics, augmented reality, and autonomous navigation, thus establishing a significant advancement in computer vision research. |
| id |
SCAR_6f774d7fb4327dccf7a20218021176e7 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/21001 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Casado, Ricardo SalvinoPedrino, Emerson Carloshttp://lattes.cnpq.br/6481363465527189http://lattes.cnpq.br/1063332398688574https://orcid.org/0000-0002-1575-4687https://orcid.org/0000-0003-3734-32022024-11-14T19:53:30Z2024-11-14T19:53:30Z2024-10-17CASADO, Ricardo Salvino. Estimativa de mapas de profundidade usando encoder-decoder com módulos de atenção. 2024. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21001.https://repositorio.ufscar.br/handle/20.500.14289/21001Camera calibration plays a fundamental role in image acquisition, being an important step in stereo vision systems. This technique allows for precise correspondence between points of interest in images captured by different cameras. With calibration, it is possible to relate real-world coordinates to image coordinates, which is essential for determining disparity (the positional difference of a point in the two images) and, consequently, estimating depth in a scene. However, the configuration of these systems is still a quite complex process. Therefore, the estimation of depth maps from single images has gained increasing traction, as it uses only one camera to capture images. Instead of relying on disparity, monocular techniques use computer vision algorithms, such as structure from motion, feature matching, and deep learning, to infer depth in a scene. Additionally, they are more flexible in terms of hardware, as they utilize only one camera, making them more suitable for applications in mobile devices and embedded systems. With this in mind, the present work proposes a new methodology that employs genetic programming and symbolic regression as an alternative to conventional camera calibration methods. The results obtained with the proposed approach demonstrate superior accuracy compared to some of the most relevant methods in the literature. All experiments conducted with this new approach were evaluated using Wilcoxon statistical tests with a significance level of 5%. For the process of estimating depth maps from monocular images, the work investigates the use of attention modules, proposing new configurations and architectural modifications with the aim of achieving competitive results relative to the state of the art. After ablation studies, it was observed that the configuration with CBAM (Convolutional Block Attention Module) in the encoder and Modified GCNet (Global Context Networks) in the decoder yielded the best results for the problem of depth map estimation using a simple Convolutional Neural Network model. The evaluation of the proposed model indicated, in some scenarios, superior performance compared to the works used for comparison, showing an improvement of 25.22% in Absolute Relative Error and 6.28% in Mean Squared Error. In summary, this work contributes significantly to the advance ment of research in camera calibration and depth estimation, opening new perspectives for the application of convolutional neural networks in resource-limited contexts. The practical implications of the results are vast, suggesting that the ongoing development of deep learning architectures can not only improve accuracy in depth estimation but also make these technologies more accessible and applicable in mobile devices and embedded systems. Future studies could explore the integration of these methodologies in real-world scenarios, enhancing their applicability in areas such as robotics, augmented reality, and autonomous navigation, thus establishing a significant advancement in computer vision research.A calibração de câmeras desempenha um papel fundamental na aquisição de imagens, sendo uma etapa importante em sistemas de visão estéreo. Essa técnica permite obter uma correspondência precisa entre pontos de interesse nas imagens capturadas por diferentes câmeras. Com a calibração, é possível relacionar as coordenadas no mundo real com as coordenadas nas imagens, o que é essencial para determinar a disparidade (a diferença de posição de um ponto nas duas imagens) e, consequentemente, estimar a profundidade em uma cena. No entanto, a configuração desses sistemas ainda é um processo bastante complexo. Por isso, a estimativa de mapas de profundidade a partir de imagens únicas tem ganhado cada vez mais espaço, pois utiliza apenas uma câmera para capturar as imagens. Em vez de depender da disparidade, as técnicas monoculares utilizam algoritmos de visão computacional, como estrutura de movimento, casamento de características e aprendizado profundo, para inferir a profundidade em uma cena. Além disso, são mais flexíveis em termos de hardware, já que utilizam apenas uma câmera, sendo mais adequadas para aplicações em dispositivos móveis e sistemas embarcados. Com isso em mente, o presente trabalho propõe uma nova metodologia que utiliza programação genética e regressão simbólica como alternativa aos métodos convencionais de calibração de câmeras. Os resultados obtidos com a abordagem proposta demonstram uma precisão superior em comparação a alguns dos métodos mais relevantes da literatura. Todos os experimentos realizados com essa nova abordagem foram avaliados usando testes estatísticos de Wilcoxon com um nível de significância de 5%. Para o processo de estimativa de mapas de profundidade a partir de imagens monoculares, o trabalho investiga a utilização de módulos de atenção, propondo novas configurações e modificações arquiteturais com o intuito de obter resultados competitivos em relação ao estado da arte. Após estudos de ablação, observou-se que a configuração com módulos de atenção CBAM (Convolutional Block Attention Module) no codificador e GCNet Modificado (Global Context Networks) no decodificador foi a que apresentou os melhores resultados para o problema de estimativa de mapas de profundidade usando um simples modelo de Rede Neural Convolucional. Aavaliação do modelo proposto indicou, em alguns cenários, um desempenho superior em comparação aos trabalhos utilizados na comparação, mostrando uma melhoria de 25,22% no Erro Relativo Absoluto e 6,28% no Erro Quadrático Médio. Em suma, este trabalho contribui significativamente para o avanço da pesquisa em calibração de câmeras e estimativa de profundidade, abrindo novas perspectivas para a aplicação de redes neurais convolucionais em contextos de recursos limitados. As implicações práticas dos resultados são vastas, sugerindo que o desenvolvimento contínuo de arquiteturas de aprendizado profundo pode não apenas melhorar a precisão na estimativa de profundidade, mas também tornar essas tecnologias mais acessíveis e aplicáveis em dispositivos móveis e sistemas embarcados. Futuros estudos poderão explorar a integração dessas metodologias em cenários do mundo real, potencializando sua aplicabilidade em áreas como robótica, realidade aumentada e navegação autônoma, estabelecendo, assim, um avanço na pesquisa em visão computacional.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessCalibração de câmerasProgramação genética e regressão simbólicaMapa de profundidadeRedes generativas adversáriasCodificador-decodificadorAprendizado profundoMódulo de atenção por bloco convolucional (CBAM)Redes de contexto global (GCNet)CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOEstimativa de mapas de profundidade usando encoder-decoder com módulos de atençãoDepth map estimation using encoder-decoder with attention modulesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARTEXTTese_Casado.pdf.txtTese_Casado.pdf.txtExtracted texttext/plain1038https://repositorio.ufscar.br/bitstreams/654d28ea-7366-4b8c-ab74-f99bca5c9b12/downloadf84c9e4558095df93731ed89267ad2d7MD55falseAnonymousREADTHUMBNAILTese_Casado.pdf.jpgTese_Casado.pdf.jpgGenerated Thumbnailimage/jpeg4070https://repositorio.ufscar.br/bitstreams/873e005c-7341-4f69-8413-b1e37a782da0/downloadebe2ef38af4246f7012a40cfdaccb241MD56falseAnonymousREADORIGINALTese_Casado.pdfTese_Casado.pdfapplication/pdf65855730https://repositorio.ufscar.br/bitstreams/db5bdc40-479e-43da-871f-104fc35bd226/download2b6b66c3cb14135def03be1daf5f91c2MD53trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstreams/bf1b99a3-8a36-413b-85c1-7c635c7c3341/downloadf337d95da1fce0a22c77480e5e9a7aecMD54falseAnonymousREAD20.500.14289/210012025-02-06 04:03:27.186http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/21001https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T07:03:27Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.por.fl_str_mv |
Estimativa de mapas de profundidade usando encoder-decoder com módulos de atenção |
| dc.title.alternative.eng.fl_str_mv |
Depth map estimation using encoder-decoder with attention modules |
| title |
Estimativa de mapas de profundidade usando encoder-decoder com módulos de atenção |
| spellingShingle |
Estimativa de mapas de profundidade usando encoder-decoder com módulos de atenção Casado, Ricardo Salvino Calibração de câmeras Programação genética e regressão simbólica Mapa de profundidade Redes generativas adversárias Codificador-decodificador Aprendizado profundo Módulo de atenção por bloco convolucional (CBAM) Redes de contexto global (GCNet) CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| title_short |
Estimativa de mapas de profundidade usando encoder-decoder com módulos de atenção |
| title_full |
Estimativa de mapas de profundidade usando encoder-decoder com módulos de atenção |
| title_fullStr |
Estimativa de mapas de profundidade usando encoder-decoder com módulos de atenção |
| title_full_unstemmed |
Estimativa de mapas de profundidade usando encoder-decoder com módulos de atenção |
| title_sort |
Estimativa de mapas de profundidade usando encoder-decoder com módulos de atenção |
| author |
Casado, Ricardo Salvino |
| author_facet |
Casado, Ricardo Salvino |
| author_role |
author |
| dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/1063332398688574 |
| dc.contributor.authororcid.por.fl_str_mv |
https://orcid.org/0000-0002-1575-4687 |
| dc.contributor.advisor1orcid.por.fl_str_mv |
https://orcid.org/0000-0003-3734-3202 |
| dc.contributor.author.fl_str_mv |
Casado, Ricardo Salvino |
| dc.contributor.advisor1.fl_str_mv |
Pedrino, Emerson Carlos |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/6481363465527189 |
| contributor_str_mv |
Pedrino, Emerson Carlos |
| dc.subject.por.fl_str_mv |
Calibração de câmeras Programação genética e regressão simbólica Mapa de profundidade Redes generativas adversárias Codificador-decodificador Aprendizado profundo Módulo de atenção por bloco convolucional (CBAM) Redes de contexto global (GCNet) |
| topic |
Calibração de câmeras Programação genética e regressão simbólica Mapa de profundidade Redes generativas adversárias Codificador-decodificador Aprendizado profundo Módulo de atenção por bloco convolucional (CBAM) Redes de contexto global (GCNet) CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| description |
Camera calibration plays a fundamental role in image acquisition, being an important step in stereo vision systems. This technique allows for precise correspondence between points of interest in images captured by different cameras. With calibration, it is possible to relate real-world coordinates to image coordinates, which is essential for determining disparity (the positional difference of a point in the two images) and, consequently, estimating depth in a scene. However, the configuration of these systems is still a quite complex process. Therefore, the estimation of depth maps from single images has gained increasing traction, as it uses only one camera to capture images. Instead of relying on disparity, monocular techniques use computer vision algorithms, such as structure from motion, feature matching, and deep learning, to infer depth in a scene. Additionally, they are more flexible in terms of hardware, as they utilize only one camera, making them more suitable for applications in mobile devices and embedded systems. With this in mind, the present work proposes a new methodology that employs genetic programming and symbolic regression as an alternative to conventional camera calibration methods. The results obtained with the proposed approach demonstrate superior accuracy compared to some of the most relevant methods in the literature. All experiments conducted with this new approach were evaluated using Wilcoxon statistical tests with a significance level of 5%. For the process of estimating depth maps from monocular images, the work investigates the use of attention modules, proposing new configurations and architectural modifications with the aim of achieving competitive results relative to the state of the art. After ablation studies, it was observed that the configuration with CBAM (Convolutional Block Attention Module) in the encoder and Modified GCNet (Global Context Networks) in the decoder yielded the best results for the problem of depth map estimation using a simple Convolutional Neural Network model. The evaluation of the proposed model indicated, in some scenarios, superior performance compared to the works used for comparison, showing an improvement of 25.22% in Absolute Relative Error and 6.28% in Mean Squared Error. In summary, this work contributes significantly to the advance ment of research in camera calibration and depth estimation, opening new perspectives for the application of convolutional neural networks in resource-limited contexts. The practical implications of the results are vast, suggesting that the ongoing development of deep learning architectures can not only improve accuracy in depth estimation but also make these technologies more accessible and applicable in mobile devices and embedded systems. Future studies could explore the integration of these methodologies in real-world scenarios, enhancing their applicability in areas such as robotics, augmented reality, and autonomous navigation, thus establishing a significant advancement in computer vision research. |
| publishDate |
2024 |
| dc.date.accessioned.fl_str_mv |
2024-11-14T19:53:30Z |
| dc.date.available.fl_str_mv |
2024-11-14T19:53:30Z |
| dc.date.issued.fl_str_mv |
2024-10-17 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
CASADO, Ricardo Salvino. Estimativa de mapas de profundidade usando encoder-decoder com módulos de atenção. 2024. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21001. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/20.500.14289/21001 |
| identifier_str_mv |
CASADO, Ricardo Salvino. Estimativa de mapas de profundidade usando encoder-decoder com módulos de atenção. 2024. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21001. |
| url |
https://repositorio.ufscar.br/handle/20.500.14289/21001 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/654d28ea-7366-4b8c-ab74-f99bca5c9b12/download https://repositorio.ufscar.br/bitstreams/873e005c-7341-4f69-8413-b1e37a782da0/download https://repositorio.ufscar.br/bitstreams/db5bdc40-479e-43da-871f-104fc35bd226/download https://repositorio.ufscar.br/bitstreams/bf1b99a3-8a36-413b-85c1-7c635c7c3341/download |
| bitstream.checksum.fl_str_mv |
f84c9e4558095df93731ed89267ad2d7 ebe2ef38af4246f7012a40cfdaccb241 2b6b66c3cb14135def03be1daf5f91c2 f337d95da1fce0a22c77480e5e9a7aec |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1851688753348739072 |