Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Almeida, Pedro Henrique Barbosa de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/
Resumo: Convolution-based models iteratively process local regions of an image, demonstrating a high capacity for extracting short-range spatial features. In contrast, models based on attention mechanisms perform global operations, capable of encoding long-range relationships between input elements. In this context, architectures derived from Vision Transformers (ViTs) have demonstrated superior performance on higher-dimensional images. However, such models have a large number of parameters, which implies higher computational costs in terms of training time and memory usage. This work investigates optimization strategies for training the SwinUNet architecture, based on ViTs, considering the effects of pre-training, the amount of available data, and model dimensionality reduction. Structural modifications to the network were evaluated, as well as the introduction of the Spatial Reduction Attention mechanism, aimed at reducing the number of operations required for inference. The combination of these optimizations resulted in a lighter version of the architecture, characterized by fewer parameters, shorter inference time, and performance comparable to the original model, which, in turn, outperforms strictly convolutional architectures.
id USP_d095de2b18ceb186a2e4c257ee347737
oai_identifier_str oai:teses.usp.br:tde-09022026-231446
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Efficiently segmenting images with Vision Transformers: a case study on Swin-UNetSegmentando imagens eficientemente com Transformers de visão: um estudo de caso sobre a Swin-UNetAtenção com redução espacialSegmentaçãoSegmentationSpatial Reduction AttentionTransformers de visãoVision TransformersConvolution-based models iteratively process local regions of an image, demonstrating a high capacity for extracting short-range spatial features. In contrast, models based on attention mechanisms perform global operations, capable of encoding long-range relationships between input elements. In this context, architectures derived from Vision Transformers (ViTs) have demonstrated superior performance on higher-dimensional images. However, such models have a large number of parameters, which implies higher computational costs in terms of training time and memory usage. This work investigates optimization strategies for training the SwinUNet architecture, based on ViTs, considering the effects of pre-training, the amount of available data, and model dimensionality reduction. Structural modifications to the network were evaluated, as well as the introduction of the Spatial Reduction Attention mechanism, aimed at reducing the number of operations required for inference. The combination of these optimizations resulted in a lighter version of the architecture, characterized by fewer parameters, shorter inference time, and performance comparable to the original model, which, in turn, outperforms strictly convolutional architectures.Modelos baseados em convolução processam regiões locais de uma imagem de forma iterativa, apresentando elevada capacidade de extração de características espaciais de curta distância. Em contrapartida, modelos baseados em mecanismos de atenção realizam operações de natureza global, sendo capazes de codificar relações de longo alcance entre os elementos da entrada. Nesse contexto, arquiteturas derivadas de Vision Transformers (ViT) têm demonstrado desempenho superior em imagens de maior dimensão. Contudo, tais modelos apresentam elevado número de parâmetros, o que implica maior custo computacional em termos de tempo de treinamento e uso de memória. Este trabalho investiga estratégias de otimização para o treinamento da arquitetura SwinUNet, baseada em ViTs, considerando os efeitos do pré-treinamento, da quantidade de dados disponíveis e da redução da dimensionalidade do modelo. Foram avaliadas modificações estruturais na rede, bem como a introdução do mecanismo Spatial Reduction Attention, voltado à diminuição do número de operações necessárias por inferência. A combinação dessas otimizações resultou em uma versão mais leve da arquitetura, caracterizada por menor número de parâmetros, menor tempo de inferência e desempenho comparável ao modelo original, o qual, por sua vez, supera arquiteturas estritamente convolucionais.Biblioteca Digitais de Teses e Dissertações da USPHirata, Nina Sumiko TomitaAlmeida, Pedro Henrique Barbosa de2025-12-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2026-02-11T09:03:02Zoai:teses.usp.br:tde-09022026-231446Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212026-02-11T09:03:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet
Segmentando imagens eficientemente com Transformers de visão: um estudo de caso sobre a Swin-UNet
title Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet
spellingShingle Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet
Almeida, Pedro Henrique Barbosa de
Atenção com redução espacial
Segmentação
Segmentation
Spatial Reduction Attention
Transformers de visão
Vision Transformers
title_short Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet
title_full Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet
title_fullStr Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet
title_full_unstemmed Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet
title_sort Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet
author Almeida, Pedro Henrique Barbosa de
author_facet Almeida, Pedro Henrique Barbosa de
author_role author
dc.contributor.none.fl_str_mv Hirata, Nina Sumiko Tomita
dc.contributor.author.fl_str_mv Almeida, Pedro Henrique Barbosa de
dc.subject.por.fl_str_mv Atenção com redução espacial
Segmentação
Segmentation
Spatial Reduction Attention
Transformers de visão
Vision Transformers
topic Atenção com redução espacial
Segmentação
Segmentation
Spatial Reduction Attention
Transformers de visão
Vision Transformers
description Convolution-based models iteratively process local regions of an image, demonstrating a high capacity for extracting short-range spatial features. In contrast, models based on attention mechanisms perform global operations, capable of encoding long-range relationships between input elements. In this context, architectures derived from Vision Transformers (ViTs) have demonstrated superior performance on higher-dimensional images. However, such models have a large number of parameters, which implies higher computational costs in terms of training time and memory usage. This work investigates optimization strategies for training the SwinUNet architecture, based on ViTs, considering the effects of pre-training, the amount of available data, and model dimensionality reduction. Structural modifications to the network were evaluated, as well as the introduction of the Spatial Reduction Attention mechanism, aimed at reducing the number of operations required for inference. The combination of these optimizations resulted in a lighter version of the architecture, characterized by fewer parameters, shorter inference time, and performance comparable to the original model, which, in turn, outperforms strictly convolutional architectures.
publishDate 2025
dc.date.none.fl_str_mv 2025-12-12
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/
url https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1857669976870092800