An image classification approach based on graph convolutional networks and patch-based multiscale feature graphs

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Todescato, Matheus Vinícius
Orientador(a): Carbonera, Joel Luis
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/281672
Resumo: As arquiteturas de aprendizado profundo demonstraram excelentes resultados na classificação de imagens nos últimos anos. No entanto, a aplicação de arquiteturas de redes neurais sofisticadas em pequenos conjuntos de dados continua sendo um desafio. Nesse contexto, a aprendizagem por transferência é uma abordagem promissora para lidar com esse cenário. Geralmente, as arquiteturas pré-treinadas disponíveis adotam uma entrada fixa padrão, o que geralmente implica em redimensionar e recortar as imagens de entrada na fase de pré-processamento, causando perda de informações. Além disso, no mundo real, as imagens apresentam características visuais em diferentes escalas, e as aborda gens mais comuns não consideram esse fato. Neste trabalho, propomos uma abordagem que aplica transferência de conhecimento para lidar com pequenos conjuntos de dados e aproveita características visuais extraídas por modelos pré-treinados de diferentes escalas. Baseamos nossa abordagem em redes convolucionais de grafos (GCN) que recebem como entrada grafos que representam as imagens em diferentes escalas e cujos nós são caracterizados por características extraídas por modelos pré-treinados de partes regulares de imagens em diferentes escalas. Como o GCN pode lidar com grafos com diferentes números de nós, nossa abordagem pode lidar naturalmente com imagens de tamanhos he terogêneos sem descartar informações relevantes. Avaliamos nossa abordagem em dois conjuntos de dados: um conjunto de imagens geológicas e um conjunto de dados dis poníveis publicamente, ambos apresentando características que desafiam as abordagens tradicionais. Testamos nossa abordagem adotando três modelos pré-treinados diferentes como extratores de características: dois modelos eficientes de CNN pré-treinados (Den seNet e ResNeXt) e um Vision Transformer (CLIP). Comparamos nossa abordagem com duas abordagens convencionais para lidar com a classificação de imagens. Os experi mentos mostram que nossa abordagem alcança melhores resultados do que as abordagens convencionais para esta tarefa.
id URGS_26623c86cfb94554f0a1a932f81e5c86
oai_identifier_str oai:www.lume.ufrgs.br:10183/281672
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Todescato, Matheus ViníciusCarbonera, Joel Luis2024-11-29T06:54:08Z2023http://hdl.handle.net/10183/281672001174162As arquiteturas de aprendizado profundo demonstraram excelentes resultados na classificação de imagens nos últimos anos. No entanto, a aplicação de arquiteturas de redes neurais sofisticadas em pequenos conjuntos de dados continua sendo um desafio. Nesse contexto, a aprendizagem por transferência é uma abordagem promissora para lidar com esse cenário. Geralmente, as arquiteturas pré-treinadas disponíveis adotam uma entrada fixa padrão, o que geralmente implica em redimensionar e recortar as imagens de entrada na fase de pré-processamento, causando perda de informações. Além disso, no mundo real, as imagens apresentam características visuais em diferentes escalas, e as aborda gens mais comuns não consideram esse fato. Neste trabalho, propomos uma abordagem que aplica transferência de conhecimento para lidar com pequenos conjuntos de dados e aproveita características visuais extraídas por modelos pré-treinados de diferentes escalas. Baseamos nossa abordagem em redes convolucionais de grafos (GCN) que recebem como entrada grafos que representam as imagens em diferentes escalas e cujos nós são caracterizados por características extraídas por modelos pré-treinados de partes regulares de imagens em diferentes escalas. Como o GCN pode lidar com grafos com diferentes números de nós, nossa abordagem pode lidar naturalmente com imagens de tamanhos he terogêneos sem descartar informações relevantes. Avaliamos nossa abordagem em dois conjuntos de dados: um conjunto de imagens geológicas e um conjunto de dados dis poníveis publicamente, ambos apresentando características que desafiam as abordagens tradicionais. Testamos nossa abordagem adotando três modelos pré-treinados diferentes como extratores de características: dois modelos eficientes de CNN pré-treinados (Den seNet e ResNeXt) e um Vision Transformer (CLIP). Comparamos nossa abordagem com duas abordagens convencionais para lidar com a classificação de imagens. Os experi mentos mostram que nossa abordagem alcança melhores resultados do que as abordagens convencionais para esta tarefa.Deep learning architectures have demonstrated impressive results in image classification in the last few years. However, applying sophisticated neural network architectures in small datasets remains challenging. In this context, transfer learning is a promising ap proach for dealing with this scenario. Generally, the available pre-trained architectures adopt a standard fixed input, which usually implies resizing and cropping the input im ages in the preprocessing phase, causing information loss. Besides, images present visual features in different scales in real-world scenarios, and most common approaches do not consider this fact. In this work, we propose an approach that applies transfer learning for dealing with small datasets and leverages visual features extracted by pre-trained models from different scales. We based our approach on graph convolutional networks (GCN) that take graphs representing the images in different scales as input and whose nodes are characterized by features extracted by pre-trained models from regular image patches of different scales. Since GCN can deal with graphs with different numbers of nodes, our approach can deal naturally with images of heterogeneous sizes without discarding relevant information. We evaluated our approach in two datasets: a set of geological im ages and a publicly available dataset, presenting characteristics that challenge traditional approaches. We tested our approach by adopting three different pre-trained models as feature extractors: two efficient pre-trained CNN models (DenseNet and ResNeXt) and one Vision Transformer (CLIP). We compared our approach with two conventional ap proaches for dealing with image classification. The experiments show that our approach achieves better results than the conventional approaches for this task.application/pdfengAprendizado profundoImagemRedes neuraisRedes convolucionais de grafosImage classificationTransfer learningFeature extractionMultiscaleAn image classification approach based on graph convolutional networks and patch-based multiscale feature graphsUma abordagem para classificação de imagens baseada em redes convolucionais de grafos e grafos de características multiescala baseados em patches info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2023mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001174162.pdf.txt001174162.pdf.txtExtracted Texttext/plain168648http://www.lume.ufrgs.br/bitstream/10183/281672/2/001174162.pdf.txt0828f4abacdac6ea04f958cf0cd0d9fbMD52ORIGINAL001174162.pdfTexto completo (inglês)application/pdf5487703http://www.lume.ufrgs.br/bitstream/10183/281672/1/001174162.pdffd7089623eedf27ad93d6d29ee402abaMD5110183/2816722024-11-30 07:50:40.618241oai:www.lume.ufrgs.br:10183/281672Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532024-11-30T09:50:40Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv An image classification approach based on graph convolutional networks and patch-based multiscale feature graphs
dc.title.alternative.pt.fl_str_mv Uma abordagem para classificação de imagens baseada em redes convolucionais de grafos e grafos de características multiescala baseados em patches
title An image classification approach based on graph convolutional networks and patch-based multiscale feature graphs
spellingShingle An image classification approach based on graph convolutional networks and patch-based multiscale feature graphs
Todescato, Matheus Vinícius
Aprendizado profundo
Imagem
Redes neurais
Redes convolucionais de grafos
Image classification
Transfer learning
Feature extraction
Multiscale
title_short An image classification approach based on graph convolutional networks and patch-based multiscale feature graphs
title_full An image classification approach based on graph convolutional networks and patch-based multiscale feature graphs
title_fullStr An image classification approach based on graph convolutional networks and patch-based multiscale feature graphs
title_full_unstemmed An image classification approach based on graph convolutional networks and patch-based multiscale feature graphs
title_sort An image classification approach based on graph convolutional networks and patch-based multiscale feature graphs
author Todescato, Matheus Vinícius
author_facet Todescato, Matheus Vinícius
author_role author
dc.contributor.author.fl_str_mv Todescato, Matheus Vinícius
dc.contributor.advisor1.fl_str_mv Carbonera, Joel Luis
contributor_str_mv Carbonera, Joel Luis
dc.subject.por.fl_str_mv Aprendizado profundo
Imagem
Redes neurais
Redes convolucionais de grafos
topic Aprendizado profundo
Imagem
Redes neurais
Redes convolucionais de grafos
Image classification
Transfer learning
Feature extraction
Multiscale
dc.subject.eng.fl_str_mv Image classification
Transfer learning
Feature extraction
Multiscale
description As arquiteturas de aprendizado profundo demonstraram excelentes resultados na classificação de imagens nos últimos anos. No entanto, a aplicação de arquiteturas de redes neurais sofisticadas em pequenos conjuntos de dados continua sendo um desafio. Nesse contexto, a aprendizagem por transferência é uma abordagem promissora para lidar com esse cenário. Geralmente, as arquiteturas pré-treinadas disponíveis adotam uma entrada fixa padrão, o que geralmente implica em redimensionar e recortar as imagens de entrada na fase de pré-processamento, causando perda de informações. Além disso, no mundo real, as imagens apresentam características visuais em diferentes escalas, e as aborda gens mais comuns não consideram esse fato. Neste trabalho, propomos uma abordagem que aplica transferência de conhecimento para lidar com pequenos conjuntos de dados e aproveita características visuais extraídas por modelos pré-treinados de diferentes escalas. Baseamos nossa abordagem em redes convolucionais de grafos (GCN) que recebem como entrada grafos que representam as imagens em diferentes escalas e cujos nós são caracterizados por características extraídas por modelos pré-treinados de partes regulares de imagens em diferentes escalas. Como o GCN pode lidar com grafos com diferentes números de nós, nossa abordagem pode lidar naturalmente com imagens de tamanhos he terogêneos sem descartar informações relevantes. Avaliamos nossa abordagem em dois conjuntos de dados: um conjunto de imagens geológicas e um conjunto de dados dis poníveis publicamente, ambos apresentando características que desafiam as abordagens tradicionais. Testamos nossa abordagem adotando três modelos pré-treinados diferentes como extratores de características: dois modelos eficientes de CNN pré-treinados (Den seNet e ResNeXt) e um Vision Transformer (CLIP). Comparamos nossa abordagem com duas abordagens convencionais para lidar com a classificação de imagens. Os experi mentos mostram que nossa abordagem alcança melhores resultados do que as abordagens convencionais para esta tarefa.
publishDate 2023
dc.date.issued.fl_str_mv 2023
dc.date.accessioned.fl_str_mv 2024-11-29T06:54:08Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/281672
dc.identifier.nrb.pt_BR.fl_str_mv 001174162
url http://hdl.handle.net/10183/281672
identifier_str_mv 001174162
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/281672/2/001174162.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/281672/1/001174162.pdf
bitstream.checksum.fl_str_mv 0828f4abacdac6ea04f958cf0cd0d9fb
fd7089623eedf27ad93d6d29ee402aba
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1831316190010540032