3-dimensional (3D) urban mapping: a study of detection and reconstruction of building's facade through Structure-from-Motion (SfM) and Convolutional Neural Network (CNN)

Rodolfo Georjute Lotte

3-dimensional (3D) urban mapping: a study of detection and reconstruction of building's facade through Structure-from-Motion (SfM) and Convolutional Neural Network (CNN)

Detalhes bibliográficos
Ano de defesa:	2018
Autor(a) principal:	Rodolfo Georjute Lotte
Orientador(a):	Luiz Eduardo Oliveira e Cruz de Aragão, Yosio Edemir Shimabukuro
Banca de defesa:	Fabien Hubert Wagner, Edson Aparecido Mitishita, Norbert Haala, Antônio Maria Garcia Tommaselli
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Instituto Nacional de Pesquisas Espaciais (INPE)
Programa de Pós-Graduação:	Programa de Pós-Graduação do INPE em Sensoriamento Remoto
Departamento:	Não Informado pela instituição
País:	BR
Resumo em Inglês:	Urban environments are regions in which spectral and spatial variability are extremely high, with a huge range of shapes and sizes, they also demand high resolution images for applications involving their study. These environments can grow over time, applications related to their large-scale monitoring tend to rely on autonomous intelligent systems that, along with high-resolution images, can help and even predict everyday situations. In addition to the detection of these features, 3D representations of these environments have also been object of study to assist in the investigation of the environmental quality of very dense areas, occupational socioeconomic patterns, the construction of urban landscape models, building demolitions or flood simulations for evacuation plans and strategic delimitation, among countless others. The main objective of this study was to explore the advantages of such technologies, in order to present an automatic methodology for the detection and reconstruction of urban elements, and also to understand the difficulties that still surround the automatic mapping of these environments. Specifically we aimed: (i) To develop a routine of automatic classification of facade features in 2D domain, using a Convolutional Neural Network (CNN); (ii) Using the same images, obtain the facade geometry using Structure-from-Motion (SfM) and Multi-View Stereo (MVS) techniques; (iii) Evaluate the performance of the CNN for different urban scenarios and architectural styles; (iv) Evaluate the performance of the CNN in a real application in Brazil, whose architecture differs from the datasets used in the neural model training; and (v) Classify the 3D model of the extracted facade using images segmented in 2D domain by the Ray-Tracing (RT) technique. In order to atempt that, the methodology was splited into 2D analysis (detection) and 3D (reconstruction). So in the first, a supervised CNN is used to segment terrestrial optical images of facades into six classes: roof, window, wall, door, balcony and shops. At the same time, the facade is reconstructed using the SfM/MVS technique, obtaining the geometry of the scene. Finally, the results of segmentation in both domains, 2D and 3D, are then merged by the Ray-Tracing technique, finally obtaining the 3D model classified. It is demonstrated that the proposed methodology is robust toward complex scenarios. The inferences made with the CNN reached up to 93% accuracy, and 90% F1-score for most of the datasets used. For scenarios not used for training, the neural model reached lower accuracy indexes, justified by the high differentiation of architectural styles. However, the use of deep neural models gives chances for new configurations and use with other deep architectures to improve results, especially for unsupervised models. Finally, the work demonstrated the autonomous capacity of a CNN against the complexity of urban environments, in order to diversify between different styles of facades. Although there are improvements to be made regarding 3D classification, the methodology is consistent and allowed to combine state-of-the-art methods in the detection and reconstruction of urban elements, as well as providing support for new studies and projections on even more distinct scenarios.
Link de acesso:	http://urlib.net/sid.inpe.br/mtc-m21c/2018/08.13.13.05
Resumo:	Ambientes urbanos são regiões cuja variabilidade espectral e espacial é extremamente alta, com uma enorme variedade de formas e tamanhos que remetem igualmente ao sensoriamento remoto de alta resolução em aplicações envolvendo seus estudos. Devido ao fato de que esses ambientes podem crescer ainda mais, as aplicações relacionadas ao seu monitoramento em larga escala tendem a recorrer a sistemas autônomos que, juntamente com imagens de alta resolução, podem ajudar e até predizer situações cotidianas. Aliado à detecção inteligente dessas feições, representações 3D desses ambientes têm sido também objeto de estudo ao auxiliar na investigação da qualidade ambiental de áreas muito densas, padrões socioeconômicos de ocupação, na construção de modelos de paisagem urbanos, avaliação de efeitos de ilhas de calor, demolições de edifícios ou simulações de inundações para planos de evacuação e delimitação estratégica, entre inúmeros outros. Por estes aspectos, o objetivo desta pesquisa de doutorado foi explorar as vantagens de tais tecnologias, de forma a apresentar não só uma metodologia automática para detecção e reconstrução de elementos urbanos, como também compreender as dificuldades que ainda cercam o mapeamento automático desses ambientes. Como objetivos específicos: (i) Desenvolver uma rotina de classificação automática de feições de fachadas no domínio 2D, utilizando-se de uma Rede Neural Convolutiva (CNN). (ii) Com as mesmas imagens, obter a geometria da fachada pelas técnicas de Estrutura por Movimento (em inglês, Structure-from-Motion (SfM)) e Estéreo por Multi-Visadas (em inglês, Multi-View Stereo (MVS)). (iii) Avaliar o desempenho do modelo neural para diferentes cenários urbanos e estilos arquitetônicos. (iv) Avaliar o desempenho do modelo neural em uma aplicação real no Brasil, cuja arquitetura diferencia-se dos dados utilizados no treinamento do modelo neural. (v) Classificar o modelo 3D da fachada extraída utilizando-se das imagens segmentadas no domínio 2D pela técnica de Ray-Tracing (RT). Para tanto, a metodologia do trabalho foi dividida em análise 2D (detecção) e 3D (reconstrução). De forma que no primeiro, uma CNN supervisionada é utilizada para segmentar imagens ópticas terrestres de fachadas em seis classes: telhado, janela, parede, porta, sacada e lojas. Simultaneamente, a fachada é reconstruída pelo uso do pipeline SfM/MVS, obtendo-se a geometria da cena. Por fim, os resultados da segmentação no domínio 2D, juntamente com 3D, são então vinculados pela técnica de RT, obtendo-se finalmente o modelo 3D classificado. É demonstrado que a metodologia proposta é robusta em relação a cenários complexos. As inferências realizadas com o modelo neural CNN alcançou até 93% de acurácia, e 90% de F1-score para maioria dos conjuntos de dados utilizados. Para cenários desconhecidos, o modelo neural atingiu índices de acurácia inferiores, justificado pela elevada diferenciação de estilos arquitetônicos. Contudo, a utilização de modelos neurais deep, dão margem à novas configurações e uso conjunto com outras arquiteturas deep para a melhoria dos resultados, sobretudo, aos modelos não-supervisionados. Por fim, o trabalho demonstrou a capacidade autônoma de uma Rede Neural Convolutiva frente a complexidade dos ambientes urbanos, de modo a diversificar entre diferentes estilos de fachadas. Embora haja melhorias a serem realizadas quanto à classificação 3D, a metodologia é consistente e permitiu aliar métodos de última geração na detecção e reconstrução de fachadas, além de fornecer suporte à novos estudos e projeções sobre cenários ainda mais distintos.

Metadados do item

id	INPE_799a79725c0aebc8677b2e336a2c71c9
oai_identifier_str	oai:urlib.net:sid.inpe.br/mtc-m21c/2018/08.13.13.05.25-0
network_acronym_str	INPE
network_name_str	Biblioteca Digital de Teses e Dissertações do INPE
spelling	info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis3-dimensional (3D) urban mapping: a study of detection and reconstruction of building's facade through Structure-from-Motion (SfM) and Convolutional Neural Network (CNN)Mapeamento urbano tridimensional (3D): um estudo sobre detecção e reconstrução de fachadas de edificações por Estrutura-por-Movimento (SfM) e Redes Neurais Convolutivas (CNN)2018-08-24Luiz Eduardo Oliveira e Cruz de AragãoYosio Edemir ShimabukuroFabien Hubert WagnerEdson Aparecido MitishitaNorbert HaalaAntônio Maria Garcia TommaselliRodolfo Georjute LotteInstituto Nacional de Pesquisas Espaciais (INPE)Programa de Pós-Graduação do INPE em Sensoriamento RemotoINPEBR3D urban mappingfacade featuresdeep-learningconvolutional neural networkstructure-from-motionmapeamento 3D urbanofeições de fachadasredes neurais convolutivasAmbientes urbanos são regiões cuja variabilidade espectral e espacial é extremamente alta, com uma enorme variedade de formas e tamanhos que remetem igualmente ao sensoriamento remoto de alta resolução em aplicações envolvendo seus estudos. Devido ao fato de que esses ambientes podem crescer ainda mais, as aplicações relacionadas ao seu monitoramento em larga escala tendem a recorrer a sistemas autônomos que, juntamente com imagens de alta resolução, podem ajudar e até predizer situações cotidianas. Aliado à detecção inteligente dessas feições, representações 3D desses ambientes têm sido também objeto de estudo ao auxiliar na investigação da qualidade ambiental de áreas muito densas, padrões socioeconômicos de ocupação, na construção de modelos de paisagem urbanos, avaliação de efeitos de ilhas de calor, demolições de edifícios ou simulações de inundações para planos de evacuação e delimitação estratégica, entre inúmeros outros. Por estes aspectos, o objetivo desta pesquisa de doutorado foi explorar as vantagens de tais tecnologias, de forma a apresentar não só uma metodologia automática para detecção e reconstrução de elementos urbanos, como também compreender as dificuldades que ainda cercam o mapeamento automático desses ambientes. Como objetivos específicos: (i) Desenvolver uma rotina de classificação automática de feições de fachadas no domínio 2D, utilizando-se de uma Rede Neural Convolutiva (CNN). (ii) Com as mesmas imagens, obter a geometria da fachada pelas técnicas de Estrutura por Movimento (em inglês, Structure-from-Motion (SfM)) e Estéreo por Multi-Visadas (em inglês, Multi-View Stereo (MVS)). (iii) Avaliar o desempenho do modelo neural para diferentes cenários urbanos e estilos arquitetônicos. (iv) Avaliar o desempenho do modelo neural em uma aplicação real no Brasil, cuja arquitetura diferencia-se dos dados utilizados no treinamento do modelo neural. (v) Classificar o modelo 3D da fachada extraída utilizando-se das imagens segmentadas no domínio 2D pela técnica de Ray-Tracing (RT). Para tanto, a metodologia do trabalho foi dividida em análise 2D (detecção) e 3D (reconstrução). De forma que no primeiro, uma CNN supervisionada é utilizada para segmentar imagens ópticas terrestres de fachadas em seis classes: telhado, janela, parede, porta, sacada e lojas. Simultaneamente, a fachada é reconstruída pelo uso do pipeline SfM/MVS, obtendo-se a geometria da cena. Por fim, os resultados da segmentação no domínio 2D, juntamente com 3D, são então vinculados pela técnica de RT, obtendo-se finalmente o modelo 3D classificado. É demonstrado que a metodologia proposta é robusta em relação a cenários complexos. As inferências realizadas com o modelo neural CNN alcançou até 93% de acurácia, e 90% de F1-score para maioria dos conjuntos de dados utilizados. Para cenários desconhecidos, o modelo neural atingiu índices de acurácia inferiores, justificado pela elevada diferenciação de estilos arquitetônicos. Contudo, a utilização de modelos neurais deep, dão margem à novas configurações e uso conjunto com outras arquiteturas deep para a melhoria dos resultados, sobretudo, aos modelos não-supervisionados. Por fim, o trabalho demonstrou a capacidade autônoma de uma Rede Neural Convolutiva frente a complexidade dos ambientes urbanos, de modo a diversificar entre diferentes estilos de fachadas. Embora haja melhorias a serem realizadas quanto à classificação 3D, a metodologia é consistente e permitiu aliar métodos de última geração na detecção e reconstrução de fachadas, além de fornecer suporte à novos estudos e projeções sobre cenários ainda mais distintos.Urban environments are regions in which spectral and spatial variability are extremely high, with a huge range of shapes and sizes, they also demand high resolution images for applications involving their study. These environments can grow over time, applications related to their large-scale monitoring tend to rely on autonomous intelligent systems that, along with high-resolution images, can help and even predict everyday situations. In addition to the detection of these features, 3D representations of these environments have also been object of study to assist in the investigation of the environmental quality of very dense areas, occupational socioeconomic patterns, the construction of urban landscape models, building demolitions or flood simulations for evacuation plans and strategic delimitation, among countless others. The main objective of this study was to explore the advantages of such technologies, in order to present an automatic methodology for the detection and reconstruction of urban elements, and also to understand the difficulties that still surround the automatic mapping of these environments. Specifically we aimed: (i) To develop a routine of automatic classification of facade features in 2D domain, using a Convolutional Neural Network (CNN); (ii) Using the same images, obtain the facade geometry using Structure-from-Motion (SfM) and Multi-View Stereo (MVS) techniques; (iii) Evaluate the performance of the CNN for different urban scenarios and architectural styles; (iv) Evaluate the performance of the CNN in a real application in Brazil, whose architecture differs from the datasets used in the neural model training; and (v) Classify the 3D model of the extracted facade using images segmented in 2D domain by the Ray-Tracing (RT) technique. In order to atempt that, the methodology was splited into 2D analysis (detection) and 3D (reconstruction). So in the first, a supervised CNN is used to segment terrestrial optical images of facades into six classes: roof, window, wall, door, balcony and shops. At the same time, the facade is reconstructed using the SfM/MVS technique, obtaining the geometry of the scene. Finally, the results of segmentation in both domains, 2D and 3D, are then merged by the Ray-Tracing technique, finally obtaining the 3D model classified. It is demonstrated that the proposed methodology is robust toward complex scenarios. The inferences made with the CNN reached up to 93% accuracy, and 90% F1-score for most of the datasets used. For scenarios not used for training, the neural model reached lower accuracy indexes, justified by the high differentiation of architectural styles. However, the use of deep neural models gives chances for new configurations and use with other deep architectures to improve results, especially for unsupervised models. Finally, the work demonstrated the autonomous capacity of a CNN against the complexity of urban environments, in order to diversify between different styles of facades. Although there are improvements to be made regarding 3D classification, the methodology is consistent and allowed to combine state-of-the-art methods in the detection and reconstruction of urban elements, as well as providing support for new studies and projections on even more distinct scenarios.http://urlib.net/sid.inpe.br/mtc-m21c/2018/08.13.13.05info:eu-repo/semantics/openAccessengreponame:Biblioteca Digital de Teses e Dissertações do INPEinstname:Instituto Nacional de Pesquisas Espaciais (INPE)instacron:INPE2021-07-31T06:55:52Zoai:urlib.net:sid.inpe.br/mtc-m21c/2018/08.13.13.05.25-0Biblioteca Digital de Teses e Dissertaçõeshttp://bibdigital.sid.inpe.br/PUBhttp://bibdigital.sid.inpe.br/col/iconet.com.br/banon/2003/11.21.21.08/doc/oai.cgiopendoar:32772021-07-31 06:55:52.998Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)false
dc.title.en.fl_str_mv	3-dimensional (3D) urban mapping: a study of detection and reconstruction of building's facade through Structure-from-Motion (SfM) and Convolutional Neural Network (CNN)
dc.title.alternative.pt.fl_str_mv	Mapeamento urbano tridimensional (3D): um estudo sobre detecção e reconstrução de fachadas de edificações por Estrutura-por-Movimento (SfM) e Redes Neurais Convolutivas (CNN)
title	3-dimensional (3D) urban mapping: a study of detection and reconstruction of building's facade through Structure-from-Motion (SfM) and Convolutional Neural Network (CNN)
spellingShingle	3-dimensional (3D) urban mapping: a study of detection and reconstruction of building's facade through Structure-from-Motion (SfM) and Convolutional Neural Network (CNN) Rodolfo Georjute Lotte
title_short	3-dimensional (3D) urban mapping: a study of detection and reconstruction of building's facade through Structure-from-Motion (SfM) and Convolutional Neural Network (CNN)
title_full	3-dimensional (3D) urban mapping: a study of detection and reconstruction of building's facade through Structure-from-Motion (SfM) and Convolutional Neural Network (CNN)
title_fullStr	3-dimensional (3D) urban mapping: a study of detection and reconstruction of building's facade through Structure-from-Motion (SfM) and Convolutional Neural Network (CNN)
title_full_unstemmed	3-dimensional (3D) urban mapping: a study of detection and reconstruction of building's facade through Structure-from-Motion (SfM) and Convolutional Neural Network (CNN)
title_sort	3-dimensional (3D) urban mapping: a study of detection and reconstruction of building's facade through Structure-from-Motion (SfM) and Convolutional Neural Network (CNN)
author	Rodolfo Georjute Lotte
author_facet	Rodolfo Georjute Lotte
author_role	author
dc.contributor.advisor1.fl_str_mv	Luiz Eduardo Oliveira e Cruz de Aragão
dc.contributor.advisor2.fl_str_mv	Yosio Edemir Shimabukuro
dc.contributor.referee1.fl_str_mv	Fabien Hubert Wagner
dc.contributor.referee2.fl_str_mv	Edson Aparecido Mitishita
dc.contributor.referee3.fl_str_mv	Norbert Haala
dc.contributor.referee4.fl_str_mv	Antônio Maria Garcia Tommaselli
dc.contributor.author.fl_str_mv	Rodolfo Georjute Lotte
contributor_str_mv	Luiz Eduardo Oliveira e Cruz de Aragão Yosio Edemir Shimabukuro Fabien Hubert Wagner Edson Aparecido Mitishita Norbert Haala Antônio Maria Garcia Tommaselli
dc.description.abstract.por.fl_txt_mv	Ambientes urbanos são regiões cuja variabilidade espectral e espacial é extremamente alta, com uma enorme variedade de formas e tamanhos que remetem igualmente ao sensoriamento remoto de alta resolução em aplicações envolvendo seus estudos. Devido ao fato de que esses ambientes podem crescer ainda mais, as aplicações relacionadas ao seu monitoramento em larga escala tendem a recorrer a sistemas autônomos que, juntamente com imagens de alta resolução, podem ajudar e até predizer situações cotidianas. Aliado à detecção inteligente dessas feições, representações 3D desses ambientes têm sido também objeto de estudo ao auxiliar na investigação da qualidade ambiental de áreas muito densas, padrões socioeconômicos de ocupação, na construção de modelos de paisagem urbanos, avaliação de efeitos de ilhas de calor, demolições de edifícios ou simulações de inundações para planos de evacuação e delimitação estratégica, entre inúmeros outros. Por estes aspectos, o objetivo desta pesquisa de doutorado foi explorar as vantagens de tais tecnologias, de forma a apresentar não só uma metodologia automática para detecção e reconstrução de elementos urbanos, como também compreender as dificuldades que ainda cercam o mapeamento automático desses ambientes. Como objetivos específicos: (i) Desenvolver uma rotina de classificação automática de feições de fachadas no domínio 2D, utilizando-se de uma Rede Neural Convolutiva (CNN). (ii) Com as mesmas imagens, obter a geometria da fachada pelas técnicas de Estrutura por Movimento (em inglês, Structure-from-Motion (SfM)) e Estéreo por Multi-Visadas (em inglês, Multi-View Stereo (MVS)). (iii) Avaliar o desempenho do modelo neural para diferentes cenários urbanos e estilos arquitetônicos. (iv) Avaliar o desempenho do modelo neural em uma aplicação real no Brasil, cuja arquitetura diferencia-se dos dados utilizados no treinamento do modelo neural. (v) Classificar o modelo 3D da fachada extraída utilizando-se das imagens segmentadas no domínio 2D pela técnica de Ray-Tracing (RT). Para tanto, a metodologia do trabalho foi dividida em análise 2D (detecção) e 3D (reconstrução). De forma que no primeiro, uma CNN supervisionada é utilizada para segmentar imagens ópticas terrestres de fachadas em seis classes: telhado, janela, parede, porta, sacada e lojas. Simultaneamente, a fachada é reconstruída pelo uso do pipeline SfM/MVS, obtendo-se a geometria da cena. Por fim, os resultados da segmentação no domínio 2D, juntamente com 3D, são então vinculados pela técnica de RT, obtendo-se finalmente o modelo 3D classificado. É demonstrado que a metodologia proposta é robusta em relação a cenários complexos. As inferências realizadas com o modelo neural CNN alcançou até 93% de acurácia, e 90% de F1-score para maioria dos conjuntos de dados utilizados. Para cenários desconhecidos, o modelo neural atingiu índices de acurácia inferiores, justificado pela elevada diferenciação de estilos arquitetônicos. Contudo, a utilização de modelos neurais deep, dão margem à novas configurações e uso conjunto com outras arquiteturas deep para a melhoria dos resultados, sobretudo, aos modelos não-supervisionados. Por fim, o trabalho demonstrou a capacidade autônoma de uma Rede Neural Convolutiva frente a complexidade dos ambientes urbanos, de modo a diversificar entre diferentes estilos de fachadas. Embora haja melhorias a serem realizadas quanto à classificação 3D, a metodologia é consistente e permitiu aliar métodos de última geração na detecção e reconstrução de fachadas, além de fornecer suporte à novos estudos e projeções sobre cenários ainda mais distintos.
dc.description.abstract.eng.fl_txt_mv	Urban environments are regions in which spectral and spatial variability are extremely high, with a huge range of shapes and sizes, they also demand high resolution images for applications involving their study. These environments can grow over time, applications related to their large-scale monitoring tend to rely on autonomous intelligent systems that, along with high-resolution images, can help and even predict everyday situations. In addition to the detection of these features, 3D representations of these environments have also been object of study to assist in the investigation of the environmental quality of very dense areas, occupational socioeconomic patterns, the construction of urban landscape models, building demolitions or flood simulations for evacuation plans and strategic delimitation, among countless others. The main objective of this study was to explore the advantages of such technologies, in order to present an automatic methodology for the detection and reconstruction of urban elements, and also to understand the difficulties that still surround the automatic mapping of these environments. Specifically we aimed: (i) To develop a routine of automatic classification of facade features in 2D domain, using a Convolutional Neural Network (CNN); (ii) Using the same images, obtain the facade geometry using Structure-from-Motion (SfM) and Multi-View Stereo (MVS) techniques; (iii) Evaluate the performance of the CNN for different urban scenarios and architectural styles; (iv) Evaluate the performance of the CNN in a real application in Brazil, whose architecture differs from the datasets used in the neural model training; and (v) Classify the 3D model of the extracted facade using images segmented in 2D domain by the Ray-Tracing (RT) technique. In order to atempt that, the methodology was splited into 2D analysis (detection) and 3D (reconstruction). So in the first, a supervised CNN is used to segment terrestrial optical images of facades into six classes: roof, window, wall, door, balcony and shops. At the same time, the facade is reconstructed using the SfM/MVS technique, obtaining the geometry of the scene. Finally, the results of segmentation in both domains, 2D and 3D, are then merged by the Ray-Tracing technique, finally obtaining the 3D model classified. It is demonstrated that the proposed methodology is robust toward complex scenarios. The inferences made with the CNN reached up to 93% accuracy, and 90% F1-score for most of the datasets used. For scenarios not used for training, the neural model reached lower accuracy indexes, justified by the high differentiation of architectural styles. However, the use of deep neural models gives chances for new configurations and use with other deep architectures to improve results, especially for unsupervised models. Finally, the work demonstrated the autonomous capacity of a CNN against the complexity of urban environments, in order to diversify between different styles of facades. Although there are improvements to be made regarding 3D classification, the methodology is consistent and allowed to combine state-of-the-art methods in the detection and reconstruction of urban elements, as well as providing support for new studies and projections on even more distinct scenarios.
description	Ambientes urbanos são regiões cuja variabilidade espectral e espacial é extremamente alta, com uma enorme variedade de formas e tamanhos que remetem igualmente ao sensoriamento remoto de alta resolução em aplicações envolvendo seus estudos. Devido ao fato de que esses ambientes podem crescer ainda mais, as aplicações relacionadas ao seu monitoramento em larga escala tendem a recorrer a sistemas autônomos que, juntamente com imagens de alta resolução, podem ajudar e até predizer situações cotidianas. Aliado à detecção inteligente dessas feições, representações 3D desses ambientes têm sido também objeto de estudo ao auxiliar na investigação da qualidade ambiental de áreas muito densas, padrões socioeconômicos de ocupação, na construção de modelos de paisagem urbanos, avaliação de efeitos de ilhas de calor, demolições de edifícios ou simulações de inundações para planos de evacuação e delimitação estratégica, entre inúmeros outros. Por estes aspectos, o objetivo desta pesquisa de doutorado foi explorar as vantagens de tais tecnologias, de forma a apresentar não só uma metodologia automática para detecção e reconstrução de elementos urbanos, como também compreender as dificuldades que ainda cercam o mapeamento automático desses ambientes. Como objetivos específicos: (i) Desenvolver uma rotina de classificação automática de feições de fachadas no domínio 2D, utilizando-se de uma Rede Neural Convolutiva (CNN). (ii) Com as mesmas imagens, obter a geometria da fachada pelas técnicas de Estrutura por Movimento (em inglês, Structure-from-Motion (SfM)) e Estéreo por Multi-Visadas (em inglês, Multi-View Stereo (MVS)). (iii) Avaliar o desempenho do modelo neural para diferentes cenários urbanos e estilos arquitetônicos. (iv) Avaliar o desempenho do modelo neural em uma aplicação real no Brasil, cuja arquitetura diferencia-se dos dados utilizados no treinamento do modelo neural. (v) Classificar o modelo 3D da fachada extraída utilizando-se das imagens segmentadas no domínio 2D pela técnica de Ray-Tracing (RT). Para tanto, a metodologia do trabalho foi dividida em análise 2D (detecção) e 3D (reconstrução). De forma que no primeiro, uma CNN supervisionada é utilizada para segmentar imagens ópticas terrestres de fachadas em seis classes: telhado, janela, parede, porta, sacada e lojas. Simultaneamente, a fachada é reconstruída pelo uso do pipeline SfM/MVS, obtendo-se a geometria da cena. Por fim, os resultados da segmentação no domínio 2D, juntamente com 3D, são então vinculados pela técnica de RT, obtendo-se finalmente o modelo 3D classificado. É demonstrado que a metodologia proposta é robusta em relação a cenários complexos. As inferências realizadas com o modelo neural CNN alcançou até 93% de acurácia, e 90% de F1-score para maioria dos conjuntos de dados utilizados. Para cenários desconhecidos, o modelo neural atingiu índices de acurácia inferiores, justificado pela elevada diferenciação de estilos arquitetônicos. Contudo, a utilização de modelos neurais deep, dão margem à novas configurações e uso conjunto com outras arquiteturas deep para a melhoria dos resultados, sobretudo, aos modelos não-supervisionados. Por fim, o trabalho demonstrou a capacidade autônoma de uma Rede Neural Convolutiva frente a complexidade dos ambientes urbanos, de modo a diversificar entre diferentes estilos de fachadas. Embora haja melhorias a serem realizadas quanto à classificação 3D, a metodologia é consistente e permitiu aliar métodos de última geração na detecção e reconstrução de fachadas, além de fornecer suporte à novos estudos e projeções sobre cenários ainda mais distintos.
publishDate	2018
dc.date.issued.fl_str_mv	2018-08-24
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
status_str	publishedVersion
format	doctoralThesis
dc.identifier.uri.fl_str_mv	http://urlib.net/sid.inpe.br/mtc-m21c/2018/08.13.13.05
url	http://urlib.net/sid.inpe.br/mtc-m21c/2018/08.13.13.05
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Instituto Nacional de Pesquisas Espaciais (INPE)
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação do INPE em Sensoriamento Remoto
dc.publisher.initials.fl_str_mv	INPE
dc.publisher.country.fl_str_mv	BR
publisher.none.fl_str_mv	Instituto Nacional de Pesquisas Espaciais (INPE)
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações do INPE instname:Instituto Nacional de Pesquisas Espaciais (INPE) instacron:INPE
reponame_str	Biblioteca Digital de Teses e Dissertações do INPE
collection	Biblioteca Digital de Teses e Dissertações do INPE
instname_str	Instituto Nacional de Pesquisas Espaciais (INPE)
instacron_str	INPE
institution	INPE
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)
repository.mail.fl_str_mv
publisher_program_txtF_mv	Programa de Pós-Graduação do INPE em Sensoriamento Remoto
contributor_advisor1_txtF_mv	Luiz Eduardo Oliveira e Cruz de Aragão
_version_	1706805042416189440

3-dimensional (3D) urban mapping: a study of detection and reconstruction of building's facade through Structure-from-Motion (SfM) and Convolutional Neural Network (CNN)

Registros relacionados