Utilizando aprendizado profundo na estimativa de profundidade monocular
| Ano de defesa: | 2023 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Serra
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://repositorio.ifes.edu.br/handle/123456789/4288 |
Resumo: | RESUMO: A estimativa de profundidade é uma tarefa fundamental e desafiadora na visão computacional, com implicações significativas em uma variedade de aplicações, incluindo a compreensão e reconstrução de cenas. A capacidade de inferir a profundidade de uma cena a partir de uma única imagem é crucial para a compreensão do ambiente 3D e para a interação eficaz com ele. Com o surgimento das redes convolucionais, muitas abordagens foram propostas para melhorar os resultados na estimativa de profundidade. No entanto, muitas dessas técnicas desconsideram os custos computacionais, resultando em redes cada vez maiores para aprender pistas monoculares implicitamente. Neste trabalho é apresentado uma abordagem alternativa que utiliza a arquitetura UNet++, empregando uma rede MobileNetV2 como codificador. Esta abordagem, denominada MobU++, gera uma estrutura mais leve, com um número menor de parâmetros, mantendo a eficácia na estimativa de profundidade. Os experimentos realizados na base NYU Depth V2 demonstraram ser possível alcançar resultados comparáveis ou melhores do que trabalhos anteriores, mantendo uma estrutura mais simples e eficiente. Especificamente, o modelo alcançou 0.517 de RMSE utilizando apenas 4.995 Milhões de Parâmetros. Além disso, foi utilizada uma outra estratégia que envolve a utilização de uma arquitetura UNet gerada por um algoritmo genético já treinado, denomiada GAUnet. Nessa proposta, o gene final produzido pelo algoritmo genético em um modelo treinável foi adaptado para a tarefa de estimativa de profundidade monocular. A intenção é verificar se a capacidade dos algoritmos genéticos de explorar eficientemente o espaço de design da arquitetura da rede e de descobrir arquiteturas que pode contribuir para o aumento da eficiência e a eficácia da estimativa de profundidade. Embora essa arquitetura tenha conseguido reduzir a quantidade de parâmetros em 12,61x (396 mil) em comparação com a MobU++, ela apresentou um RMSE de 0.725, indicando que um menor número de parâmetros não necessariamente leva a um melhor desempenho na estimativa de profundidade. |
| id |
IFES-2_697006883fe7f8f44347a2fa2a09bc75 |
|---|---|
| oai_identifier_str |
oai:repositorio.ifes.edu.br:123456789/4288 |
| network_acronym_str |
IFES-2 |
| network_name_str |
Repositório Institucional do IFES |
| repository_id_str |
|
| spelling |
Guzzo, Luiz AntonioInstituto Federal do Espirito Santo - Campus SerraAndrade, Mariella BergerSeibel, Hilário JúniorGazolli, Kelly Assis2024-01-30T13:00:05Z2024-01-30T13:00:05Z2023GUZZO, Luiz Antonio Roque. Utilizando aprendizado profundo na estimativa de profundidade monocular. 2023. 44 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2023.https://repositorio.ifes.edu.br/handle/123456789/428830004012075P4RESUMO: A estimativa de profundidade é uma tarefa fundamental e desafiadora na visão computacional, com implicações significativas em uma variedade de aplicações, incluindo a compreensão e reconstrução de cenas. A capacidade de inferir a profundidade de uma cena a partir de uma única imagem é crucial para a compreensão do ambiente 3D e para a interação eficaz com ele. Com o surgimento das redes convolucionais, muitas abordagens foram propostas para melhorar os resultados na estimativa de profundidade. No entanto, muitas dessas técnicas desconsideram os custos computacionais, resultando em redes cada vez maiores para aprender pistas monoculares implicitamente. Neste trabalho é apresentado uma abordagem alternativa que utiliza a arquitetura UNet++, empregando uma rede MobileNetV2 como codificador. Esta abordagem, denominada MobU++, gera uma estrutura mais leve, com um número menor de parâmetros, mantendo a eficácia na estimativa de profundidade. Os experimentos realizados na base NYU Depth V2 demonstraram ser possível alcançar resultados comparáveis ou melhores do que trabalhos anteriores, mantendo uma estrutura mais simples e eficiente. Especificamente, o modelo alcançou 0.517 de RMSE utilizando apenas 4.995 Milhões de Parâmetros. Além disso, foi utilizada uma outra estratégia que envolve a utilização de uma arquitetura UNet gerada por um algoritmo genético já treinado, denomiada GAUnet. Nessa proposta, o gene final produzido pelo algoritmo genético em um modelo treinável foi adaptado para a tarefa de estimativa de profundidade monocular. A intenção é verificar se a capacidade dos algoritmos genéticos de explorar eficientemente o espaço de design da arquitetura da rede e de descobrir arquiteturas que pode contribuir para o aumento da eficiência e a eficácia da estimativa de profundidade. Embora essa arquitetura tenha conseguido reduzir a quantidade de parâmetros em 12,61x (396 mil) em comparação com a MobU++, ela apresentou um RMSE de 0.725, indicando que um menor número de parâmetros não necessariamente leva a um melhor desempenho na estimativa de profundidade.ABSTRACT: Depth estimation is a fundamental and challenging task in computer vision, with significant implications in a variety of applications, including scene understanding and reconstruction. The ability to infer the depth of a scene from a single image is crucial for understanding the 3D environment and effectively interacting with it. With the advent of convolutional networks, many approaches have been proposed to improve the results in depth estimation. However, many of these techniques disregard computational costs, resulting in increasingly larger networks to implicitly learn monocular cues. In this work, we present an alternative approach that employs the UNet++ architecture, using a MobileNetV2 network as the encoder. This approach, termed MobU++, generates a lighter structure with fewer parameters while maintaining effectiveness in depth estimation. Experiments conducted on the NYU Depth V2 database demonstrated the feasibility of achieving comparable or better results than previous works while maintaining a simpler and more efficient structure. Specifically, the model achieved an RMSE of 0.517 using only 4.995 million parameters. Additionally, we explored another strategy involving the use of a UNet architecture generated by a pre-trained genetic algorithm, termed GaUnet. In this proposal, the final gene produced by the genetic algorithm in a trainable model was adapted for the task of monocular depth estimation. The intent is to examine whether the capability of genetic algorithms to efficiently explore the design space of network architecture and discover architectures can contribute to increased efficiency and effectiveness in depth estimation. Although this architecture was able to reduce the number of parameters by 12.61x (396K) compared to MobU++, it exhibited an RMSE of 0.725, indicating that fewer parameters do not necessarily lead to better performance in depth estimation.FAPES/CAPES44 f.AlgoritmosRedes neuraisRedes convolucionaisMobileNetUtilizando aprendizado profundo na estimativa de profundidade monocularinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSerrainfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional do IFESinstname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)instacron:IFESCampus SerraMestrado em Computação AplicadaORIGINALDissertação_Luiz.pdfDissertação_Luiz.pdfDissertação principalapplication/pdf6808672https://repositorio.ifes.edu.br/bitstreams/02944114-7e39-4dc1-b5b7-1db3438e43f2/download08ea1b9b8ebf9c0d00360fd911c86a98MD51trueAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-8934https://repositorio.ifes.edu.br/bitstreams/5e80724e-3b7c-4ba5-80d9-80bff505f5b2/downloadac7cb971050ed632be934da23d966924MD52falseAnonymousREADTEXTDissertação_Luiz.pdf.txtDissertação_Luiz.pdf.txtExtracted texttext/plain86695https://repositorio.ifes.edu.br/bitstreams/2d0a6c3b-30e7-4f36-be95-7e2f2ec9d765/download06c095fcb62b220a560fc48bc75510ddMD53falseAnonymousREADTHUMBNAILDissertação_Luiz.pdf.jpgDissertação_Luiz.pdf.jpgGenerated Thumbnailimage/jpeg2059https://repositorio.ifes.edu.br/bitstreams/a0a2936f-4052-4e8e-af26-88305d44d9f0/download78327ab06e3e8c3b126a0c9c3eff9bc1MD54falseAnonymousREAD123456789/42882025-06-11T20:07:06.050Zopen.accessoai:repositorio.ifes.edu.br:123456789/4288https://repositorio.ifes.edu.brRepositório InstitucionalPUBhttps://repositorio.ifes.edu.br/server/oai/requestrepositorio@ifes.edu.bropendoar:2025-06-11T20:07:06Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)falseQXV0b3JlcyBxdWUgc3VibWV0ZW0gYSBlc3RhIGNvbmZlcsOqbmNpYSBjb25jb3JkYW0gY29tIG9zIHNlZ3VpbnRlcyB0ZXJtb3M6CmEpIEF1dG9yZXMgbWFudMOpbSBvcyBkaXJlaXRvcyBhdXRvcmFpcyBzb2JyZSBvIHRyYWJhbGhvLCBwZXJtaXRpbmRvIMOgIGNvbmZlcsOqbmNpYSBjb2xvY8OhLWxvIHNvYiB1bWEgbGljZW7Dp2EgTGljZW7Dp2EgQ3JlYXRpdmUgQ29tbW9ucyBBdHRyaWJ1dGlvbiwgcXVlIHBlcm1pdGUgbGl2cmVtZW50ZSBhIG91dHJvcyBhY2Vzc2FyLCB1c2FyIGUgY29tcGFydGlsaGFyIG8gdHJhYmFsaG8gY29tIG8gY3LDqWRpdG8gZGUgYXV0b3JpYSBlIGFwcmVzZW50YcOnw6NvIGluaWNpYWwgbmVzdGEgY29uZmVyw6puY2lhLgpiKSBBdXRvcmVzIHBvZGVtIGFicmlyIG3Do28gZG9zIHRlcm1vcyBkYSBsaWNlbsOnYSBDQyBlIGRlZmluaXIgY29udHJhdG9zIGFkaWNpb25haXMgcGFyYSBhIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhIGUgc3Vic2Vxw7xlbnRlIHB1YmxpY2HDp8OjbyBkZXN0ZSB0cmFiYWxobyAoZXguOiBwdWJsaWNhciB1bWEgdmVyc8OjbyBhdHVhbGl6YWRhIGVtIHVtIHBlcmnDs2RpY28sIGRpc3BvbmliaWxpemFyIGVtIHJlcG9zaXTDs3JpbyBpbnN0aXR1Y2lvbmFsLCBvdSBwdWJsaWPDoS1sbyBlbSBsaXZybyksIGNvbSBvIGNyw6lkaXRvIGRlIGF1dG9yaWEgZSBhcHJlc2VudGHDp8OjbyBpbmljaWFsIG5lc3RhIGNvbmZlcsOqbmNpYS4KYykgQWzDqW0gZGlzc28sIGF1dG9yZXMgc8OjbyBpbmNlbnRpdmFkb3MgYSBwdWJsaWNhciBlIGNvbXBhcnRpbGhhciBzZXVzIHRyYWJhbGhvcyBvbmxpbmUgKGV4LjogZW0gcmVwb3NpdMOzcmlvIGluc3RpdHVjaW9uYWwgb3UgZW0gc3VhIHDDoWdpbmEgcGVzc29hbCkgYSBxdWFscXVlciBtb21lbnRvIGFudGVzIGUgZGVwb2lzIGRhIGNvbmZlcsOqCg== |
| dc.title.pt_BR.fl_str_mv |
Utilizando aprendizado profundo na estimativa de profundidade monocular |
| title |
Utilizando aprendizado profundo na estimativa de profundidade monocular |
| spellingShingle |
Utilizando aprendizado profundo na estimativa de profundidade monocular Guzzo, Luiz Antonio Algoritmos Redes neurais Redes convolucionais MobileNet |
| title_short |
Utilizando aprendizado profundo na estimativa de profundidade monocular |
| title_full |
Utilizando aprendizado profundo na estimativa de profundidade monocular |
| title_fullStr |
Utilizando aprendizado profundo na estimativa de profundidade monocular |
| title_full_unstemmed |
Utilizando aprendizado profundo na estimativa de profundidade monocular |
| title_sort |
Utilizando aprendizado profundo na estimativa de profundidade monocular |
| author |
Guzzo, Luiz Antonio |
| author_facet |
Guzzo, Luiz Antonio |
| author_role |
author |
| dc.contributor.institution.pt_BR.fl_str_mv |
Instituto Federal do Espirito Santo - Campus Serra |
| dc.contributor.member.none.fl_str_mv |
Andrade, Mariella Berger Seibel, Hilário Júnior |
| dc.contributor.author.fl_str_mv |
Guzzo, Luiz Antonio |
| dc.contributor.advisor1.fl_str_mv |
Gazolli, Kelly Assis |
| contributor_str_mv |
Gazolli, Kelly Assis |
| dc.subject.por.fl_str_mv |
Algoritmos Redes neurais Redes convolucionais MobileNet |
| topic |
Algoritmos Redes neurais Redes convolucionais MobileNet |
| description |
RESUMO: A estimativa de profundidade é uma tarefa fundamental e desafiadora na visão computacional, com implicações significativas em uma variedade de aplicações, incluindo a compreensão e reconstrução de cenas. A capacidade de inferir a profundidade de uma cena a partir de uma única imagem é crucial para a compreensão do ambiente 3D e para a interação eficaz com ele. Com o surgimento das redes convolucionais, muitas abordagens foram propostas para melhorar os resultados na estimativa de profundidade. No entanto, muitas dessas técnicas desconsideram os custos computacionais, resultando em redes cada vez maiores para aprender pistas monoculares implicitamente. Neste trabalho é apresentado uma abordagem alternativa que utiliza a arquitetura UNet++, empregando uma rede MobileNetV2 como codificador. Esta abordagem, denominada MobU++, gera uma estrutura mais leve, com um número menor de parâmetros, mantendo a eficácia na estimativa de profundidade. Os experimentos realizados na base NYU Depth V2 demonstraram ser possível alcançar resultados comparáveis ou melhores do que trabalhos anteriores, mantendo uma estrutura mais simples e eficiente. Especificamente, o modelo alcançou 0.517 de RMSE utilizando apenas 4.995 Milhões de Parâmetros. Além disso, foi utilizada uma outra estratégia que envolve a utilização de uma arquitetura UNet gerada por um algoritmo genético já treinado, denomiada GAUnet. Nessa proposta, o gene final produzido pelo algoritmo genético em um modelo treinável foi adaptado para a tarefa de estimativa de profundidade monocular. A intenção é verificar se a capacidade dos algoritmos genéticos de explorar eficientemente o espaço de design da arquitetura da rede e de descobrir arquiteturas que pode contribuir para o aumento da eficiência e a eficácia da estimativa de profundidade. Embora essa arquitetura tenha conseguido reduzir a quantidade de parâmetros em 12,61x (396 mil) em comparação com a MobU++, ela apresentou um RMSE de 0.725, indicando que um menor número de parâmetros não necessariamente leva a um melhor desempenho na estimativa de profundidade. |
| publishDate |
2023 |
| dc.date.issued.fl_str_mv |
2023 |
| dc.date.accessioned.fl_str_mv |
2024-01-30T13:00:05Z |
| dc.date.available.fl_str_mv |
2024-01-30T13:00:05Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
GUZZO, Luiz Antonio Roque. Utilizando aprendizado profundo na estimativa de profundidade monocular. 2023. 44 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2023. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ifes.edu.br/handle/123456789/4288 |
| dc.identifier.capes.pt_BR.fl_str_mv |
30004012075P4 |
| identifier_str_mv |
GUZZO, Luiz Antonio Roque. Utilizando aprendizado profundo na estimativa de profundidade monocular. 2023. 44 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2023. 30004012075P4 |
| url |
https://repositorio.ifes.edu.br/handle/123456789/4288 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
44 f. |
| dc.publisher.none.fl_str_mv |
Serra |
| publisher.none.fl_str_mv |
Serra |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional do IFES instname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES) instacron:IFES |
| instname_str |
Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES) |
| instacron_str |
IFES |
| institution |
IFES |
| reponame_str |
Repositório Institucional do IFES |
| collection |
Repositório Institucional do IFES |
| bitstream.url.fl_str_mv |
https://repositorio.ifes.edu.br/bitstreams/02944114-7e39-4dc1-b5b7-1db3438e43f2/download https://repositorio.ifes.edu.br/bitstreams/5e80724e-3b7c-4ba5-80d9-80bff505f5b2/download https://repositorio.ifes.edu.br/bitstreams/2d0a6c3b-30e7-4f36-be95-7e2f2ec9d765/download https://repositorio.ifes.edu.br/bitstreams/a0a2936f-4052-4e8e-af26-88305d44d9f0/download |
| bitstream.checksum.fl_str_mv |
08ea1b9b8ebf9c0d00360fd911c86a98 ac7cb971050ed632be934da23d966924 06c095fcb62b220a560fc48bc75510dd 78327ab06e3e8c3b126a0c9c3eff9bc1 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES) |
| repository.mail.fl_str_mv |
repositorio@ifes.edu.br |
| _version_ |
1864451020101255168 |