Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/ |
Resumo: | Convolution-based models iteratively process local regions of an image, demonstrating a high capacity for extracting short-range spatial features. In contrast, models based on attention mechanisms perform global operations, capable of encoding long-range relationships between input elements. In this context, architectures derived from Vision Transformers (ViTs) have demonstrated superior performance on higher-dimensional images. However, such models have a large number of parameters, which implies higher computational costs in terms of training time and memory usage. This work investigates optimization strategies for training the SwinUNet architecture, based on ViTs, considering the effects of pre-training, the amount of available data, and model dimensionality reduction. Structural modifications to the network were evaluated, as well as the introduction of the Spatial Reduction Attention mechanism, aimed at reducing the number of operations required for inference. The combination of these optimizations resulted in a lighter version of the architecture, characterized by fewer parameters, shorter inference time, and performance comparable to the original model, which, in turn, outperforms strictly convolutional architectures. |
| id |
USP_d095de2b18ceb186a2e4c257ee347737 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-09022026-231446 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Efficiently segmenting images with Vision Transformers: a case study on Swin-UNetSegmentando imagens eficientemente com Transformers de visão: um estudo de caso sobre a Swin-UNetAtenção com redução espacialSegmentaçãoSegmentationSpatial Reduction AttentionTransformers de visãoVision TransformersConvolution-based models iteratively process local regions of an image, demonstrating a high capacity for extracting short-range spatial features. In contrast, models based on attention mechanisms perform global operations, capable of encoding long-range relationships between input elements. In this context, architectures derived from Vision Transformers (ViTs) have demonstrated superior performance on higher-dimensional images. However, such models have a large number of parameters, which implies higher computational costs in terms of training time and memory usage. This work investigates optimization strategies for training the SwinUNet architecture, based on ViTs, considering the effects of pre-training, the amount of available data, and model dimensionality reduction. Structural modifications to the network were evaluated, as well as the introduction of the Spatial Reduction Attention mechanism, aimed at reducing the number of operations required for inference. The combination of these optimizations resulted in a lighter version of the architecture, characterized by fewer parameters, shorter inference time, and performance comparable to the original model, which, in turn, outperforms strictly convolutional architectures.Modelos baseados em convolução processam regiões locais de uma imagem de forma iterativa, apresentando elevada capacidade de extração de características espaciais de curta distância. Em contrapartida, modelos baseados em mecanismos de atenção realizam operações de natureza global, sendo capazes de codificar relações de longo alcance entre os elementos da entrada. Nesse contexto, arquiteturas derivadas de Vision Transformers (ViT) têm demonstrado desempenho superior em imagens de maior dimensão. Contudo, tais modelos apresentam elevado número de parâmetros, o que implica maior custo computacional em termos de tempo de treinamento e uso de memória. Este trabalho investiga estratégias de otimização para o treinamento da arquitetura SwinUNet, baseada em ViTs, considerando os efeitos do pré-treinamento, da quantidade de dados disponíveis e da redução da dimensionalidade do modelo. Foram avaliadas modificações estruturais na rede, bem como a introdução do mecanismo Spatial Reduction Attention, voltado à diminuição do número de operações necessárias por inferência. A combinação dessas otimizações resultou em uma versão mais leve da arquitetura, caracterizada por menor número de parâmetros, menor tempo de inferência e desempenho comparável ao modelo original, o qual, por sua vez, supera arquiteturas estritamente convolucionais.Biblioteca Digitais de Teses e Dissertações da USPHirata, Nina Sumiko TomitaAlmeida, Pedro Henrique Barbosa de2025-12-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2026-02-11T09:03:02Zoai:teses.usp.br:tde-09022026-231446Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212026-02-11T09:03:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet Segmentando imagens eficientemente com Transformers de visão: um estudo de caso sobre a Swin-UNet |
| title |
Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet |
| spellingShingle |
Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet Almeida, Pedro Henrique Barbosa de Atenção com redução espacial Segmentação Segmentation Spatial Reduction Attention Transformers de visão Vision Transformers |
| title_short |
Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet |
| title_full |
Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet |
| title_fullStr |
Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet |
| title_full_unstemmed |
Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet |
| title_sort |
Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet |
| author |
Almeida, Pedro Henrique Barbosa de |
| author_facet |
Almeida, Pedro Henrique Barbosa de |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Hirata, Nina Sumiko Tomita |
| dc.contributor.author.fl_str_mv |
Almeida, Pedro Henrique Barbosa de |
| dc.subject.por.fl_str_mv |
Atenção com redução espacial Segmentação Segmentation Spatial Reduction Attention Transformers de visão Vision Transformers |
| topic |
Atenção com redução espacial Segmentação Segmentation Spatial Reduction Attention Transformers de visão Vision Transformers |
| description |
Convolution-based models iteratively process local regions of an image, demonstrating a high capacity for extracting short-range spatial features. In contrast, models based on attention mechanisms perform global operations, capable of encoding long-range relationships between input elements. In this context, architectures derived from Vision Transformers (ViTs) have demonstrated superior performance on higher-dimensional images. However, such models have a large number of parameters, which implies higher computational costs in terms of training time and memory usage. This work investigates optimization strategies for training the SwinUNet architecture, based on ViTs, considering the effects of pre-training, the amount of available data, and model dimensionality reduction. Structural modifications to the network were evaluated, as well as the introduction of the Spatial Reduction Attention mechanism, aimed at reducing the number of operations required for inference. The combination of these optimizations resulted in a lighter version of the architecture, characterized by fewer parameters, shorter inference time, and performance comparable to the original model, which, in turn, outperforms strictly convolutional architectures. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-12-12 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/ |
| url |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-09022026-231446/ |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1857669976870092800 |