Utilizando aprendizado profundo na estimativa de profundidade monocular

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Guzzo, Luiz Antonio
Orientador(a): Gazolli, Kelly Assis
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Serra
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ifes.edu.br/handle/123456789/4288
Resumo: RESUMO: A estimativa de profundidade é uma tarefa fundamental e desafiadora na visão computacional, com implicações significativas em uma variedade de aplicações, incluindo a compreensão e reconstrução de cenas. A capacidade de inferir a profundidade de uma cena a partir de uma única imagem é crucial para a compreensão do ambiente 3D e para a interação eficaz com ele. Com o surgimento das redes convolucionais, muitas abordagens foram propostas para melhorar os resultados na estimativa de profundidade. No entanto, muitas dessas técnicas desconsideram os custos computacionais, resultando em redes cada vez maiores para aprender pistas monoculares implicitamente. Neste trabalho é apresentado uma abordagem alternativa que utiliza a arquitetura UNet++, empregando uma rede MobileNetV2 como codificador. Esta abordagem, denominada MobU++, gera uma estrutura mais leve, com um número menor de parâmetros, mantendo a eficácia na estimativa de profundidade. Os experimentos realizados na base NYU Depth V2 demonstraram ser possível alcançar resultados comparáveis ou melhores do que trabalhos anteriores, mantendo uma estrutura mais simples e eficiente. Especificamente, o modelo alcançou 0.517 de RMSE utilizando apenas 4.995 Milhões de Parâmetros. Além disso, foi utilizada uma outra estratégia que envolve a utilização de uma arquitetura UNet gerada por um algoritmo genético já treinado, denomiada GAUnet. Nessa proposta, o gene final produzido pelo algoritmo genético em um modelo treinável foi adaptado para a tarefa de estimativa de profundidade monocular. A intenção é verificar se a capacidade dos algoritmos genéticos de explorar eficientemente o espaço de design da arquitetura da rede e de descobrir arquiteturas que pode contribuir para o aumento da eficiência e a eficácia da estimativa de profundidade. Embora essa arquitetura tenha conseguido reduzir a quantidade de parâmetros em 12,61x (396 mil) em comparação com a MobU++, ela apresentou um RMSE de 0.725, indicando que um menor número de parâmetros não necessariamente leva a um melhor desempenho na estimativa de profundidade.
id IFES-2_697006883fe7f8f44347a2fa2a09bc75
oai_identifier_str oai:repositorio.ifes.edu.br:123456789/4288
network_acronym_str IFES-2
network_name_str Repositório Institucional do IFES
repository_id_str
spelling Guzzo, Luiz AntonioInstituto Federal do Espirito Santo - Campus SerraAndrade, Mariella BergerSeibel, Hilário JúniorGazolli, Kelly Assis2024-01-30T13:00:05Z2024-01-30T13:00:05Z2023GUZZO, Luiz Antonio Roque. Utilizando aprendizado profundo na estimativa de profundidade monocular. 2023. 44 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2023.https://repositorio.ifes.edu.br/handle/123456789/428830004012075P4RESUMO: A estimativa de profundidade é uma tarefa fundamental e desafiadora na visão computacional, com implicações significativas em uma variedade de aplicações, incluindo a compreensão e reconstrução de cenas. A capacidade de inferir a profundidade de uma cena a partir de uma única imagem é crucial para a compreensão do ambiente 3D e para a interação eficaz com ele. Com o surgimento das redes convolucionais, muitas abordagens foram propostas para melhorar os resultados na estimativa de profundidade. No entanto, muitas dessas técnicas desconsideram os custos computacionais, resultando em redes cada vez maiores para aprender pistas monoculares implicitamente. Neste trabalho é apresentado uma abordagem alternativa que utiliza a arquitetura UNet++, empregando uma rede MobileNetV2 como codificador. Esta abordagem, denominada MobU++, gera uma estrutura mais leve, com um número menor de parâmetros, mantendo a eficácia na estimativa de profundidade. Os experimentos realizados na base NYU Depth V2 demonstraram ser possível alcançar resultados comparáveis ou melhores do que trabalhos anteriores, mantendo uma estrutura mais simples e eficiente. Especificamente, o modelo alcançou 0.517 de RMSE utilizando apenas 4.995 Milhões de Parâmetros. Além disso, foi utilizada uma outra estratégia que envolve a utilização de uma arquitetura UNet gerada por um algoritmo genético já treinado, denomiada GAUnet. Nessa proposta, o gene final produzido pelo algoritmo genético em um modelo treinável foi adaptado para a tarefa de estimativa de profundidade monocular. A intenção é verificar se a capacidade dos algoritmos genéticos de explorar eficientemente o espaço de design da arquitetura da rede e de descobrir arquiteturas que pode contribuir para o aumento da eficiência e a eficácia da estimativa de profundidade. Embora essa arquitetura tenha conseguido reduzir a quantidade de parâmetros em 12,61x (396 mil) em comparação com a MobU++, ela apresentou um RMSE de 0.725, indicando que um menor número de parâmetros não necessariamente leva a um melhor desempenho na estimativa de profundidade.ABSTRACT: Depth estimation is a fundamental and challenging task in computer vision, with significant implications in a variety of applications, including scene understanding and reconstruction. The ability to infer the depth of a scene from a single image is crucial for understanding the 3D environment and effectively interacting with it. With the advent of convolutional networks, many approaches have been proposed to improve the results in depth estimation. However, many of these techniques disregard computational costs, resulting in increasingly larger networks to implicitly learn monocular cues. In this work, we present an alternative approach that employs the UNet++ architecture, using a MobileNetV2 network as the encoder. This approach, termed MobU++, generates a lighter structure with fewer parameters while maintaining effectiveness in depth estimation. Experiments conducted on the NYU Depth V2 database demonstrated the feasibility of achieving comparable or better results than previous works while maintaining a simpler and more efficient structure. Specifically, the model achieved an RMSE of 0.517 using only 4.995 million parameters. Additionally, we explored another strategy involving the use of a UNet architecture generated by a pre-trained genetic algorithm, termed GaUnet. In this proposal, the final gene produced by the genetic algorithm in a trainable model was adapted for the task of monocular depth estimation. The intent is to examine whether the capability of genetic algorithms to efficiently explore the design space of network architecture and discover architectures can contribute to increased efficiency and effectiveness in depth estimation. Although this architecture was able to reduce the number of parameters by 12.61x (396K) compared to MobU++, it exhibited an RMSE of 0.725, indicating that fewer parameters do not necessarily lead to better performance in depth estimation.FAPES/CAPES44 f.AlgoritmosRedes neuraisRedes convolucionaisMobileNetUtilizando aprendizado profundo na estimativa de profundidade monocularinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSerrainfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional do IFESinstname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)instacron:IFESCampus SerraMestrado em Computação AplicadaORIGINALDissertação_Luiz.pdfDissertação_Luiz.pdfDissertação principalapplication/pdf6808672https://repositorio.ifes.edu.br/bitstreams/02944114-7e39-4dc1-b5b7-1db3438e43f2/download08ea1b9b8ebf9c0d00360fd911c86a98MD51trueAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-8934https://repositorio.ifes.edu.br/bitstreams/5e80724e-3b7c-4ba5-80d9-80bff505f5b2/downloadac7cb971050ed632be934da23d966924MD52falseAnonymousREADTEXTDissertação_Luiz.pdf.txtDissertação_Luiz.pdf.txtExtracted texttext/plain86695https://repositorio.ifes.edu.br/bitstreams/2d0a6c3b-30e7-4f36-be95-7e2f2ec9d765/download06c095fcb62b220a560fc48bc75510ddMD53falseAnonymousREADTHUMBNAILDissertação_Luiz.pdf.jpgDissertação_Luiz.pdf.jpgGenerated Thumbnailimage/jpeg2059https://repositorio.ifes.edu.br/bitstreams/a0a2936f-4052-4e8e-af26-88305d44d9f0/download78327ab06e3e8c3b126a0c9c3eff9bc1MD54falseAnonymousREAD123456789/42882025-06-11T20:07:06.050Zopen.accessoai:repositorio.ifes.edu.br:123456789/4288https://repositorio.ifes.edu.brRepositório InstitucionalPUBhttps://repositorio.ifes.edu.br/server/oai/requestrepositorio@ifes.edu.bropendoar:2025-06-11T20:07:06Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)falseQXV0b3JlcyBxdWUgc3VibWV0ZW0gYSBlc3RhIGNvbmZlcsOqbmNpYSBjb25jb3JkYW0gY29tIG9zIHNlZ3VpbnRlcyB0ZXJtb3M6CmEpIEF1dG9yZXMgbWFudMOpbSBvcyBkaXJlaXRvcyBhdXRvcmFpcyBzb2JyZSBvIHRyYWJhbGhvLCBwZXJtaXRpbmRvIMOgIGNvbmZlcsOqbmNpYSBjb2xvY8OhLWxvIHNvYiB1bWEgbGljZW7Dp2EgTGljZW7Dp2EgQ3JlYXRpdmUgQ29tbW9ucyBBdHRyaWJ1dGlvbiwgcXVlIHBlcm1pdGUgbGl2cmVtZW50ZSBhIG91dHJvcyBhY2Vzc2FyLCB1c2FyIGUgY29tcGFydGlsaGFyIG8gdHJhYmFsaG8gY29tIG8gY3LDqWRpdG8gZGUgYXV0b3JpYSBlIGFwcmVzZW50YcOnw6NvIGluaWNpYWwgbmVzdGEgY29uZmVyw6puY2lhLgpiKSBBdXRvcmVzIHBvZGVtIGFicmlyIG3Do28gZG9zIHRlcm1vcyBkYSBsaWNlbsOnYSBDQyBlIGRlZmluaXIgY29udHJhdG9zIGFkaWNpb25haXMgcGFyYSBhIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhIGUgc3Vic2Vxw7xlbnRlIHB1YmxpY2HDp8OjbyBkZXN0ZSB0cmFiYWxobyAoZXguOiBwdWJsaWNhciB1bWEgdmVyc8OjbyBhdHVhbGl6YWRhIGVtIHVtIHBlcmnDs2RpY28sIGRpc3BvbmliaWxpemFyIGVtIHJlcG9zaXTDs3JpbyBpbnN0aXR1Y2lvbmFsLCBvdSBwdWJsaWPDoS1sbyBlbSBsaXZybyksIGNvbSBvIGNyw6lkaXRvIGRlIGF1dG9yaWEgZSBhcHJlc2VudGHDp8OjbyBpbmljaWFsIG5lc3RhIGNvbmZlcsOqbmNpYS4KYykgQWzDqW0gZGlzc28sIGF1dG9yZXMgc8OjbyBpbmNlbnRpdmFkb3MgYSBwdWJsaWNhciBlIGNvbXBhcnRpbGhhciBzZXVzIHRyYWJhbGhvcyBvbmxpbmUgKGV4LjogZW0gcmVwb3NpdMOzcmlvIGluc3RpdHVjaW9uYWwgb3UgZW0gc3VhIHDDoWdpbmEgcGVzc29hbCkgYSBxdWFscXVlciBtb21lbnRvIGFudGVzIGUgZGVwb2lzIGRhIGNvbmZlcsOqCg==
dc.title.pt_BR.fl_str_mv Utilizando aprendizado profundo na estimativa de profundidade monocular
title Utilizando aprendizado profundo na estimativa de profundidade monocular
spellingShingle Utilizando aprendizado profundo na estimativa de profundidade monocular
Guzzo, Luiz Antonio
Algoritmos
Redes neurais
Redes convolucionais
MobileNet
title_short Utilizando aprendizado profundo na estimativa de profundidade monocular
title_full Utilizando aprendizado profundo na estimativa de profundidade monocular
title_fullStr Utilizando aprendizado profundo na estimativa de profundidade monocular
title_full_unstemmed Utilizando aprendizado profundo na estimativa de profundidade monocular
title_sort Utilizando aprendizado profundo na estimativa de profundidade monocular
author Guzzo, Luiz Antonio
author_facet Guzzo, Luiz Antonio
author_role author
dc.contributor.institution.pt_BR.fl_str_mv Instituto Federal do Espirito Santo - Campus Serra
dc.contributor.member.none.fl_str_mv Andrade, Mariella Berger
Seibel, Hilário Júnior
dc.contributor.author.fl_str_mv Guzzo, Luiz Antonio
dc.contributor.advisor1.fl_str_mv Gazolli, Kelly Assis
contributor_str_mv Gazolli, Kelly Assis
dc.subject.por.fl_str_mv Algoritmos
Redes neurais
Redes convolucionais
MobileNet
topic Algoritmos
Redes neurais
Redes convolucionais
MobileNet
description RESUMO: A estimativa de profundidade é uma tarefa fundamental e desafiadora na visão computacional, com implicações significativas em uma variedade de aplicações, incluindo a compreensão e reconstrução de cenas. A capacidade de inferir a profundidade de uma cena a partir de uma única imagem é crucial para a compreensão do ambiente 3D e para a interação eficaz com ele. Com o surgimento das redes convolucionais, muitas abordagens foram propostas para melhorar os resultados na estimativa de profundidade. No entanto, muitas dessas técnicas desconsideram os custos computacionais, resultando em redes cada vez maiores para aprender pistas monoculares implicitamente. Neste trabalho é apresentado uma abordagem alternativa que utiliza a arquitetura UNet++, empregando uma rede MobileNetV2 como codificador. Esta abordagem, denominada MobU++, gera uma estrutura mais leve, com um número menor de parâmetros, mantendo a eficácia na estimativa de profundidade. Os experimentos realizados na base NYU Depth V2 demonstraram ser possível alcançar resultados comparáveis ou melhores do que trabalhos anteriores, mantendo uma estrutura mais simples e eficiente. Especificamente, o modelo alcançou 0.517 de RMSE utilizando apenas 4.995 Milhões de Parâmetros. Além disso, foi utilizada uma outra estratégia que envolve a utilização de uma arquitetura UNet gerada por um algoritmo genético já treinado, denomiada GAUnet. Nessa proposta, o gene final produzido pelo algoritmo genético em um modelo treinável foi adaptado para a tarefa de estimativa de profundidade monocular. A intenção é verificar se a capacidade dos algoritmos genéticos de explorar eficientemente o espaço de design da arquitetura da rede e de descobrir arquiteturas que pode contribuir para o aumento da eficiência e a eficácia da estimativa de profundidade. Embora essa arquitetura tenha conseguido reduzir a quantidade de parâmetros em 12,61x (396 mil) em comparação com a MobU++, ela apresentou um RMSE de 0.725, indicando que um menor número de parâmetros não necessariamente leva a um melhor desempenho na estimativa de profundidade.
publishDate 2023
dc.date.issued.fl_str_mv 2023
dc.date.accessioned.fl_str_mv 2024-01-30T13:00:05Z
dc.date.available.fl_str_mv 2024-01-30T13:00:05Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv GUZZO, Luiz Antonio Roque. Utilizando aprendizado profundo na estimativa de profundidade monocular. 2023. 44 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2023.
dc.identifier.uri.fl_str_mv https://repositorio.ifes.edu.br/handle/123456789/4288
dc.identifier.capes.pt_BR.fl_str_mv 30004012075P4
identifier_str_mv GUZZO, Luiz Antonio Roque. Utilizando aprendizado profundo na estimativa de profundidade monocular. 2023. 44 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2023.
30004012075P4
url https://repositorio.ifes.edu.br/handle/123456789/4288
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 44 f.
dc.publisher.none.fl_str_mv Serra
publisher.none.fl_str_mv Serra
dc.source.none.fl_str_mv reponame:Repositório Institucional do IFES
instname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
instacron:IFES
instname_str Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
instacron_str IFES
institution IFES
reponame_str Repositório Institucional do IFES
collection Repositório Institucional do IFES
bitstream.url.fl_str_mv https://repositorio.ifes.edu.br/bitstreams/02944114-7e39-4dc1-b5b7-1db3438e43f2/download
https://repositorio.ifes.edu.br/bitstreams/5e80724e-3b7c-4ba5-80d9-80bff505f5b2/download
https://repositorio.ifes.edu.br/bitstreams/2d0a6c3b-30e7-4f36-be95-7e2f2ec9d765/download
https://repositorio.ifes.edu.br/bitstreams/a0a2936f-4052-4e8e-af26-88305d44d9f0/download
bitstream.checksum.fl_str_mv 08ea1b9b8ebf9c0d00360fd911c86a98
ac7cb971050ed632be934da23d966924
06c095fcb62b220a560fc48bc75510dd
78327ab06e3e8c3b126a0c9c3eff9bc1
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
repository.mail.fl_str_mv repositorio@ifes.edu.br
_version_ 1864451020101255168