Scene classification using a combination of aerial and ground images
| Ano de defesa: | 2021 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Universidade Federal de Minas Gerais
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://hdl.handle.net/1843/38082 |
Resumo: | É inegável que imagens aéreas e orbitais fornecem uma grande variedade de informações para muitos tipos de aplicações, tais como logística humanitária para desastres naturais e planejamento urbano. Porém, devido ao fato dessas imagens sempre terem a mesma perspectiva, algumas aplicações podem ter grandes benefícios, caso sejam complementadas com fotos de outros ângulos, como por exemplo, imagens tomadas ao nível do solo. Apesar do grande número de repositórios de imagens públicos que permitem a aquisição de fotos e imagens aéreas georreferenciadas (tais como Google Maps e Google Street View), existe uma falta de datasets públicos com imagens pareadas de múltiplas visões. Devido a essa escassez, nesta dissertação foram produzidos dois novos datasets. O primeiro deles foi nomeado AiRound, e para cada amostra possui triplas de imagens de uma mesma coordenada geográfica. Cada tripla do AiRound contém uma imagem aérea, uma foto a nível do solo e uma imagem multi-espectral do satélite Sentinel-2. O segundo dataset foi nomeado CV-BrCT (Cross-View Brazilian Construction Types). Este é composto por pares de imagens (nível aéreo e nível do solo) coletados do Sudeste do Brasil. Para esta dissertação, conduzimos uma série de experimentos envolvendo ambos os datasets e visando os seguintes objetivos: (i) explorar a complementariedade de informação que imagens aéreas e a nível de solo possuem, usando modelos de aprendizado de máquina multimodais, (ii) comparar diferentes técnicas de fusão de características aplicadas em arquiteturas de redes neurais convolucionais, e (iii) investigar formas de lidar com atributos ausentes em um cenário multi-modal, no qual sempre existirá falta de dados em um determinado domínio. Experimentos demonstram que se comparados a modelos treinados/avaliados em um único domínio, algoritmos de fusão de informação atingem ganhos de até 0.15 e 0.20 no F1-Score para os datasets AiRound e CV-BrCT, respectivamente. Como nem sempre é possível obter imagens pareadas (em níveis aéreo e de solo) do mesmo local, projetamos um framework para lidar com cenários que utilizam algoritmos multimodais, e que nem sempre exigem pares de imagens para todas as amostras. Comparando resultados de classificações usando imagens de um único domínio com o uso do nosso framework integrado a um modelo multimodal, atingimos um ganho de 0.03 no F1-Score para ambos os datasets. Portanto, demonstramos que utilizar o nosso framework é mais eficaz do que apenas classificar usando dados e classificadores de um único domínio. |
| id |
UFMG_c0f2f3a10be39bd852423f09d2e04c2b |
|---|---|
| oai_identifier_str |
oai:repositorio.ufmg.br:1843/38082 |
| network_acronym_str |
UFMG |
| network_name_str |
Repositório Institucional da UFMG |
| repository_id_str |
|
| spelling |
Scene classification using a combination of aerial and ground imagesCombinando múltiplas perspectivas para classificação de cenasComputação – Teses.Sensoriamento remoto – Teses.Classificação de imagens – Teses.Aprendizado de máquina – Teses.Remote sensingSensoriamento remotoImage classificationClassificação de imagensMultimodal machine learningAprendizado de máquinaÉ inegável que imagens aéreas e orbitais fornecem uma grande variedade de informações para muitos tipos de aplicações, tais como logística humanitária para desastres naturais e planejamento urbano. Porém, devido ao fato dessas imagens sempre terem a mesma perspectiva, algumas aplicações podem ter grandes benefícios, caso sejam complementadas com fotos de outros ângulos, como por exemplo, imagens tomadas ao nível do solo. Apesar do grande número de repositórios de imagens públicos que permitem a aquisição de fotos e imagens aéreas georreferenciadas (tais como Google Maps e Google Street View), existe uma falta de datasets públicos com imagens pareadas de múltiplas visões. Devido a essa escassez, nesta dissertação foram produzidos dois novos datasets. O primeiro deles foi nomeado AiRound, e para cada amostra possui triplas de imagens de uma mesma coordenada geográfica. Cada tripla do AiRound contém uma imagem aérea, uma foto a nível do solo e uma imagem multi-espectral do satélite Sentinel-2. O segundo dataset foi nomeado CV-BrCT (Cross-View Brazilian Construction Types). Este é composto por pares de imagens (nível aéreo e nível do solo) coletados do Sudeste do Brasil. Para esta dissertação, conduzimos uma série de experimentos envolvendo ambos os datasets e visando os seguintes objetivos: (i) explorar a complementariedade de informação que imagens aéreas e a nível de solo possuem, usando modelos de aprendizado de máquina multimodais, (ii) comparar diferentes técnicas de fusão de características aplicadas em arquiteturas de redes neurais convolucionais, e (iii) investigar formas de lidar com atributos ausentes em um cenário multi-modal, no qual sempre existirá falta de dados em um determinado domínio. Experimentos demonstram que se comparados a modelos treinados/avaliados em um único domínio, algoritmos de fusão de informação atingem ganhos de até 0.15 e 0.20 no F1-Score para os datasets AiRound e CV-BrCT, respectivamente. Como nem sempre é possível obter imagens pareadas (em níveis aéreo e de solo) do mesmo local, projetamos um framework para lidar com cenários que utilizam algoritmos multimodais, e que nem sempre exigem pares de imagens para todas as amostras. Comparando resultados de classificações usando imagens de um único domínio com o uso do nosso framework integrado a um modelo multimodal, atingimos um ganho de 0.03 no F1-Score para ambos os datasets. Portanto, demonstramos que utilizar o nosso framework é mais eficaz do que apenas classificar usando dados e classificadores de um único domínio.CNPq - Conselho Nacional de Desenvolvimento Científico e TecnológicoFAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas GeraisCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade Federal de Minas Gerais2021-09-19T23:36:25Z2025-09-08T23:48:24Z2021-09-19T23:36:25Z2021-03-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1843/38082engGabriel Lucas Silva Machadoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMG2025-09-08T23:48:24Zoai:repositorio.ufmg.br:1843/38082Repositório InstitucionalPUBhttps://repositorio.ufmg.br/oairepositorio@ufmg.bropendoar:2025-09-08T23:48:24Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
| dc.title.none.fl_str_mv |
Scene classification using a combination of aerial and ground images Combinando múltiplas perspectivas para classificação de cenas |
| title |
Scene classification using a combination of aerial and ground images |
| spellingShingle |
Scene classification using a combination of aerial and ground images Gabriel Lucas Silva Machado Computação – Teses. Sensoriamento remoto – Teses. Classificação de imagens – Teses. Aprendizado de máquina – Teses. Remote sensing Sensoriamento remoto Image classification Classificação de imagens Multimodal machine learning Aprendizado de máquina |
| title_short |
Scene classification using a combination of aerial and ground images |
| title_full |
Scene classification using a combination of aerial and ground images |
| title_fullStr |
Scene classification using a combination of aerial and ground images |
| title_full_unstemmed |
Scene classification using a combination of aerial and ground images |
| title_sort |
Scene classification using a combination of aerial and ground images |
| author |
Gabriel Lucas Silva Machado |
| author_facet |
Gabriel Lucas Silva Machado |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Gabriel Lucas Silva Machado |
| dc.subject.por.fl_str_mv |
Computação – Teses. Sensoriamento remoto – Teses. Classificação de imagens – Teses. Aprendizado de máquina – Teses. Remote sensing Sensoriamento remoto Image classification Classificação de imagens Multimodal machine learning Aprendizado de máquina |
| topic |
Computação – Teses. Sensoriamento remoto – Teses. Classificação de imagens – Teses. Aprendizado de máquina – Teses. Remote sensing Sensoriamento remoto Image classification Classificação de imagens Multimodal machine learning Aprendizado de máquina |
| description |
É inegável que imagens aéreas e orbitais fornecem uma grande variedade de informações para muitos tipos de aplicações, tais como logística humanitária para desastres naturais e planejamento urbano. Porém, devido ao fato dessas imagens sempre terem a mesma perspectiva, algumas aplicações podem ter grandes benefícios, caso sejam complementadas com fotos de outros ângulos, como por exemplo, imagens tomadas ao nível do solo. Apesar do grande número de repositórios de imagens públicos que permitem a aquisição de fotos e imagens aéreas georreferenciadas (tais como Google Maps e Google Street View), existe uma falta de datasets públicos com imagens pareadas de múltiplas visões. Devido a essa escassez, nesta dissertação foram produzidos dois novos datasets. O primeiro deles foi nomeado AiRound, e para cada amostra possui triplas de imagens de uma mesma coordenada geográfica. Cada tripla do AiRound contém uma imagem aérea, uma foto a nível do solo e uma imagem multi-espectral do satélite Sentinel-2. O segundo dataset foi nomeado CV-BrCT (Cross-View Brazilian Construction Types). Este é composto por pares de imagens (nível aéreo e nível do solo) coletados do Sudeste do Brasil. Para esta dissertação, conduzimos uma série de experimentos envolvendo ambos os datasets e visando os seguintes objetivos: (i) explorar a complementariedade de informação que imagens aéreas e a nível de solo possuem, usando modelos de aprendizado de máquina multimodais, (ii) comparar diferentes técnicas de fusão de características aplicadas em arquiteturas de redes neurais convolucionais, e (iii) investigar formas de lidar com atributos ausentes em um cenário multi-modal, no qual sempre existirá falta de dados em um determinado domínio. Experimentos demonstram que se comparados a modelos treinados/avaliados em um único domínio, algoritmos de fusão de informação atingem ganhos de até 0.15 e 0.20 no F1-Score para os datasets AiRound e CV-BrCT, respectivamente. Como nem sempre é possível obter imagens pareadas (em níveis aéreo e de solo) do mesmo local, projetamos um framework para lidar com cenários que utilizam algoritmos multimodais, e que nem sempre exigem pares de imagens para todas as amostras. Comparando resultados de classificações usando imagens de um único domínio com o uso do nosso framework integrado a um modelo multimodal, atingimos um ganho de 0.03 no F1-Score para ambos os datasets. Portanto, demonstramos que utilizar o nosso framework é mais eficaz do que apenas classificar usando dados e classificadores de um único domínio. |
| publishDate |
2021 |
| dc.date.none.fl_str_mv |
2021-09-19T23:36:25Z 2021-09-19T23:36:25Z 2021-03-31 2025-09-08T23:48:24Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1843/38082 |
| url |
https://hdl.handle.net/1843/38082 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
| publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
| instname_str |
Universidade Federal de Minas Gerais (UFMG) |
| instacron_str |
UFMG |
| institution |
UFMG |
| reponame_str |
Repositório Institucional da UFMG |
| collection |
Repositório Institucional da UFMG |
| repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
| repository.mail.fl_str_mv |
repositorio@ufmg.br |
| _version_ |
1856414037337702400 |