Utilizando aprendizado profundo na estimativa de profundidade monocular

Guzzo, Luiz Antonio

Utilizando aprendizado profundo na estimativa de profundidade monocular

Detalhes bibliográficos
Ano de defesa:	2023
Autor(a) principal:	Guzzo, Luiz Antonio
Orientador(a):	Gazolli, Kelly Assis
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Serra
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Algoritmos Redes neurais Redes convolucionais MobileNet
Link de acesso:	https://repositorio.ifes.edu.br/handle/123456789/4288
Resumo:	RESUMO: A estimativa de profundidade é uma tarefa fundamental e desafiadora na visão computacional, com implicações significativas em uma variedade de aplicações, incluindo a compreensão e reconstrução de cenas. A capacidade de inferir a profundidade de uma cena a partir de uma única imagem é crucial para a compreensão do ambiente 3D e para a interação eficaz com ele. Com o surgimento das redes convolucionais, muitas abordagens foram propostas para melhorar os resultados na estimativa de profundidade. No entanto, muitas dessas técnicas desconsideram os custos computacionais, resultando em redes cada vez maiores para aprender pistas monoculares implicitamente. Neste trabalho é apresentado uma abordagem alternativa que utiliza a arquitetura UNet++, empregando uma rede MobileNetV2 como codificador. Esta abordagem, denominada MobU++, gera uma estrutura mais leve, com um número menor de parâmetros, mantendo a eficácia na estimativa de profundidade. Os experimentos realizados na base NYU Depth V2 demonstraram ser possível alcançar resultados comparáveis ou melhores do que trabalhos anteriores, mantendo uma estrutura mais simples e eficiente. Especificamente, o modelo alcançou 0.517 de RMSE utilizando apenas 4.995 Milhões de Parâmetros. Além disso, foi utilizada uma outra estratégia que envolve a utilização de uma arquitetura UNet gerada por um algoritmo genético já treinado, denomiada GAUnet. Nessa proposta, o gene final produzido pelo algoritmo genético em um modelo treinável foi adaptado para a tarefa de estimativa de profundidade monocular. A intenção é verificar se a capacidade dos algoritmos genéticos de explorar eficientemente o espaço de design da arquitetura da rede e de descobrir arquiteturas que pode contribuir para o aumento da eficiência e a eficácia da estimativa de profundidade. Embora essa arquitetura tenha conseguido reduzir a quantidade de parâmetros em 12,61x (396 mil) em comparação com a MobU++, ela apresentou um RMSE de 0.725, indicando que um menor número de parâmetros não necessariamente leva a um melhor desempenho na estimativa de profundidade.

Metadados do item

id	IFES-2_697006883fe7f8f44347a2fa2a09bc75
oai_identifier_str	oai:repositorio.ifes.edu.br:123456789/4288
network_acronym_str	IFES-2
network_name_str	Repositório Institucional do IFES
repository_id_str
spelling	Guzzo, Luiz AntonioInstituto Federal do Espirito Santo - Campus SerraAndrade, Mariella BergerSeibel, Hilário JúniorGazolli, Kelly Assis2024-01-30T13:00:05Z2024-01-30T13:00:05Z2023GUZZO, Luiz Antonio Roque. Utilizando aprendizado profundo na estimativa de profundidade monocular. 2023. 44 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2023.https://repositorio.ifes.edu.br/handle/123456789/428830004012075P4RESUMO: A estimativa de profundidade é uma tarefa fundamental e desafiadora na visão computacional, com implicações significativas em uma variedade de aplicações, incluindo a compreensão e reconstrução de cenas. A capacidade de inferir a profundidade de uma cena a partir de uma única imagem é crucial para a compreensão do ambiente 3D e para a interação eficaz com ele. Com o surgimento das redes convolucionais, muitas abordagens foram propostas para melhorar os resultados na estimativa de profundidade. No entanto, muitas dessas técnicas desconsideram os custos computacionais, resultando em redes cada vez maiores para aprender pistas monoculares implicitamente. Neste trabalho é apresentado uma abordagem alternativa que utiliza a arquitetura UNet++, empregando uma rede MobileNetV2 como codificador. Esta abordagem, denominada MobU++, gera uma estrutura mais leve, com um número menor de parâmetros, mantendo a eficácia na estimativa de profundidade. Os experimentos realizados na base NYU Depth V2 demonstraram ser possível alcançar resultados comparáveis ou melhores do que trabalhos anteriores, mantendo uma estrutura mais simples e eficiente. Especificamente, o modelo alcançou 0.517 de RMSE utilizando apenas 4.995 Milhões de Parâmetros. Além disso, foi utilizada uma outra estratégia que envolve a utilização de uma arquitetura UNet gerada por um algoritmo genético já treinado, denomiada GAUnet. Nessa proposta, o gene final produzido pelo algoritmo genético em um modelo treinável foi adaptado para a tarefa de estimativa de profundidade monocular. A intenção é verificar se a capacidade dos algoritmos genéticos de explorar eficientemente o espaço de design da arquitetura da rede e de descobrir arquiteturas que pode contribuir para o aumento da eficiência e a eficácia da estimativa de profundidade. Embora essa arquitetura tenha conseguido reduzir a quantidade de parâmetros em 12,61x (396 mil) em comparação com a MobU++, ela apresentou um RMSE de 0.725, indicando que um menor número de parâmetros não necessariamente leva a um melhor desempenho na estimativa de profundidade.ABSTRACT: Depth estimation is a fundamental and challenging task in computer vision, with significant implications in a variety of applications, including scene understanding and reconstruction. The ability to infer the depth of a scene from a single image is crucial for understanding the 3D environment and effectively interacting with it. With the advent of convolutional networks, many approaches have been proposed to improve the results in depth estimation. However, many of these techniques disregard computational costs, resulting in increasingly larger networks to implicitly learn monocular cues. In this work, we present an alternative approach that employs the UNet++ architecture, using a MobileNetV2 network as the encoder. This approach, termed MobU++, generates a lighter structure with fewer parameters while maintaining effectiveness in depth estimation. Experiments conducted on the NYU Depth V2 database demonstrated the feasibility of achieving comparable or better results than previous works while maintaining a simpler and more efficient structure. Specifically, the model achieved an RMSE of 0.517 using only 4.995 million parameters. Additionally, we explored another strategy involving the use of a UNet architecture generated by a pre-trained genetic algorithm, termed GaUnet. In this proposal, the final gene produced by the genetic algorithm in a trainable model was adapted for the task of monocular depth estimation. The intent is to examine whether the capability of genetic algorithms to efficiently explore the design space of network architecture and discover architectures can contribute to increased efficiency and effectiveness in depth estimation. Although this architecture was able to reduce the number of parameters by 12.61x (396K) compared to MobU++, it exhibited an RMSE of 0.725, indicating that fewer parameters do not necessarily lead to better performance in depth estimation.FAPES/CAPES44 f.AlgoritmosRedes neuraisRedes convolucionaisMobileNetUtilizando aprendizado profundo na estimativa de profundidade monocularinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSerrainfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional do IFESinstname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)instacron:IFESCampus SerraMestrado em Computação AplicadaORIGINALDissertação_Luiz.pdfDissertação_Luiz.pdfDissertação principalapplication/pdf6808672https://repositorio.ifes.edu.br/bitstreams/02944114-7e39-4dc1-b5b7-1db3438e43f2/download08ea1b9b8ebf9c0d00360fd911c86a98MD51trueAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-8934https://repositorio.ifes.edu.br/bitstreams/5e80724e-3b7c-4ba5-80d9-80bff505f5b2/downloadac7cb971050ed632be934da23d966924MD52falseAnonymousREADTEXTDissertação_Luiz.pdf.txtDissertação_Luiz.pdf.txtExtracted texttext/plain86695https://repositorio.ifes.edu.br/bitstreams/2d0a6c3b-30e7-4f36-be95-7e2f2ec9d765/download06c095fcb62b220a560fc48bc75510ddMD53falseAnonymousREADTHUMBNAILDissertação_Luiz.pdf.jpgDissertação_Luiz.pdf.jpgGenerated Thumbnailimage/jpeg2059https://repositorio.ifes.edu.br/bitstreams/a0a2936f-4052-4e8e-af26-88305d44d9f0/download78327ab06e3e8c3b126a0c9c3eff9bc1MD54falseAnonymousREAD123456789/42882025-06-11T20:07:06.050Zopen.accessoai:repositorio.ifes.edu.br:123456789/4288https://repositorio.ifes.edu.brRepositório InstitucionalPUBhttps://repositorio.ifes.edu.br/server/oai/requestrepositorio@ifes.edu.bropendoar:2025-06-11T20:07:06Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)falseQXV0b3JlcyBxdWUgc3VibWV0ZW0gYSBlc3RhIGNvbmZlcsOqbmNpYSBjb25jb3JkYW0gY29tIG9zIHNlZ3VpbnRlcyB0ZXJtb3M6CmEpIEF1dG9yZXMgbWFudMOpbSBvcyBkaXJlaXRvcyBhdXRvcmFpcyBzb2JyZSBvIHRyYWJhbGhvLCBwZXJtaXRpbmRvIMOgIGNvbmZlcsOqbmNpYSBjb2xvY8OhLWxvIHNvYiB1bWEgbGljZW7Dp2EgTGljZW7Dp2EgQ3JlYXRpdmUgQ29tbW9ucyBBdHRyaWJ1dGlvbiwgcXVlIHBlcm1pdGUgbGl2cmVtZW50ZSBhIG91dHJvcyBhY2Vzc2FyLCB1c2FyIGUgY29tcGFydGlsaGFyIG8gdHJhYmFsaG8gY29tIG8gY3LDqWRpdG8gZGUgYXV0b3JpYSBlIGFwcmVzZW50YcOnw6NvIGluaWNpYWwgbmVzdGEgY29uZmVyw6puY2lhLgpiKSBBdXRvcmVzIHBvZGVtIGFicmlyIG3Do28gZG9zIHRlcm1vcyBkYSBsaWNlbsOnYSBDQyBlIGRlZmluaXIgY29udHJhdG9zIGFkaWNpb25haXMgcGFyYSBhIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhIGUgc3Vic2Vxw7xlbnRlIHB1YmxpY2HDp8OjbyBkZXN0ZSB0cmFiYWxobyAoZXguOiBwdWJsaWNhciB1bWEgdmVyc8OjbyBhdHVhbGl6YWRhIGVtIHVtIHBlcmnDs2RpY28sIGRpc3BvbmliaWxpemFyIGVtIHJlcG9zaXTDs3JpbyBpbnN0aXR1Y2lvbmFsLCBvdSBwdWJsaWPDoS1sbyBlbSBsaXZybyksIGNvbSBvIGNyw6lkaXRvIGRlIGF1dG9yaWEgZSBhcHJlc2VudGHDp8OjbyBpbmljaWFsIG5lc3RhIGNvbmZlcsOqbmNpYS4KYykgQWzDqW0gZGlzc28sIGF1dG9yZXMgc8OjbyBpbmNlbnRpdmFkb3MgYSBwdWJsaWNhciBlIGNvbXBhcnRpbGhhciBzZXVzIHRyYWJhbGhvcyBvbmxpbmUgKGV4LjogZW0gcmVwb3NpdMOzcmlvIGluc3RpdHVjaW9uYWwgb3UgZW0gc3VhIHDDoWdpbmEgcGVzc29hbCkgYSBxdWFscXVlciBtb21lbnRvIGFudGVzIGUgZGVwb2lzIGRhIGNvbmZlcsOqCg==
dc.title.pt_BR.fl_str_mv	Utilizando aprendizado profundo na estimativa de profundidade monocular
title	Utilizando aprendizado profundo na estimativa de profundidade monocular
spellingShingle	Utilizando aprendizado profundo na estimativa de profundidade monocular Guzzo, Luiz Antonio Algoritmos Redes neurais Redes convolucionais MobileNet
title_short	Utilizando aprendizado profundo na estimativa de profundidade monocular
title_full	Utilizando aprendizado profundo na estimativa de profundidade monocular
title_fullStr	Utilizando aprendizado profundo na estimativa de profundidade monocular
title_full_unstemmed	Utilizando aprendizado profundo na estimativa de profundidade monocular
title_sort	Utilizando aprendizado profundo na estimativa de profundidade monocular
author	Guzzo, Luiz Antonio
author_facet	Guzzo, Luiz Antonio
author_role	author
dc.contributor.institution.pt_BR.fl_str_mv	Instituto Federal do Espirito Santo - Campus Serra
dc.contributor.member.none.fl_str_mv	Andrade, Mariella Berger Seibel, Hilário Júnior
dc.contributor.author.fl_str_mv	Guzzo, Luiz Antonio
dc.contributor.advisor1.fl_str_mv	Gazolli, Kelly Assis
contributor_str_mv	Gazolli, Kelly Assis
dc.subject.por.fl_str_mv	Algoritmos Redes neurais Redes convolucionais MobileNet
topic	Algoritmos Redes neurais Redes convolucionais MobileNet
description	RESUMO: A estimativa de profundidade é uma tarefa fundamental e desafiadora na visão computacional, com implicações significativas em uma variedade de aplicações, incluindo a compreensão e reconstrução de cenas. A capacidade de inferir a profundidade de uma cena a partir de uma única imagem é crucial para a compreensão do ambiente 3D e para a interação eficaz com ele. Com o surgimento das redes convolucionais, muitas abordagens foram propostas para melhorar os resultados na estimativa de profundidade. No entanto, muitas dessas técnicas desconsideram os custos computacionais, resultando em redes cada vez maiores para aprender pistas monoculares implicitamente. Neste trabalho é apresentado uma abordagem alternativa que utiliza a arquitetura UNet++, empregando uma rede MobileNetV2 como codificador. Esta abordagem, denominada MobU++, gera uma estrutura mais leve, com um número menor de parâmetros, mantendo a eficácia na estimativa de profundidade. Os experimentos realizados na base NYU Depth V2 demonstraram ser possível alcançar resultados comparáveis ou melhores do que trabalhos anteriores, mantendo uma estrutura mais simples e eficiente. Especificamente, o modelo alcançou 0.517 de RMSE utilizando apenas 4.995 Milhões de Parâmetros. Além disso, foi utilizada uma outra estratégia que envolve a utilização de uma arquitetura UNet gerada por um algoritmo genético já treinado, denomiada GAUnet. Nessa proposta, o gene final produzido pelo algoritmo genético em um modelo treinável foi adaptado para a tarefa de estimativa de profundidade monocular. A intenção é verificar se a capacidade dos algoritmos genéticos de explorar eficientemente o espaço de design da arquitetura da rede e de descobrir arquiteturas que pode contribuir para o aumento da eficiência e a eficácia da estimativa de profundidade. Embora essa arquitetura tenha conseguido reduzir a quantidade de parâmetros em 12,61x (396 mil) em comparação com a MobU++, ela apresentou um RMSE de 0.725, indicando que um menor número de parâmetros não necessariamente leva a um melhor desempenho na estimativa de profundidade.
publishDate	2023
dc.date.issued.fl_str_mv	2023
dc.date.accessioned.fl_str_mv	2024-01-30T13:00:05Z
dc.date.available.fl_str_mv	2024-01-30T13:00:05Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	GUZZO, Luiz Antonio Roque. Utilizando aprendizado profundo na estimativa de profundidade monocular. 2023. 44 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2023.
dc.identifier.uri.fl_str_mv	https://repositorio.ifes.edu.br/handle/123456789/4288
dc.identifier.capes.pt_BR.fl_str_mv	30004012075P4
identifier_str_mv	GUZZO, Luiz Antonio Roque. Utilizando aprendizado profundo na estimativa de profundidade monocular. 2023. 44 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2023. 30004012075P4
url	https://repositorio.ifes.edu.br/handle/123456789/4288
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	44 f.
dc.publisher.none.fl_str_mv	Serra
publisher.none.fl_str_mv	Serra
dc.source.none.fl_str_mv	reponame:Repositório Institucional do IFES instname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES) instacron:IFES
instname_str	Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
instacron_str	IFES
institution	IFES
reponame_str	Repositório Institucional do IFES
collection	Repositório Institucional do IFES
bitstream.url.fl_str_mv	https://repositorio.ifes.edu.br/bitstreams/02944114-7e39-4dc1-b5b7-1db3438e43f2/download https://repositorio.ifes.edu.br/bitstreams/5e80724e-3b7c-4ba5-80d9-80bff505f5b2/download https://repositorio.ifes.edu.br/bitstreams/2d0a6c3b-30e7-4f36-be95-7e2f2ec9d765/download https://repositorio.ifes.edu.br/bitstreams/a0a2936f-4052-4e8e-af26-88305d44d9f0/download
bitstream.checksum.fl_str_mv	08ea1b9b8ebf9c0d00360fd911c86a98 ac7cb971050ed632be934da23d966924 06c095fcb62b220a560fc48bc75510dd 78327ab06e3e8c3b126a0c9c3eff9bc1
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
repository.mail.fl_str_mv	repositorio@ifes.edu.br
_version_	1864451020101255168

Utilizando aprendizado profundo na estimativa de profundidade monocular

Registros relacionados