Segmentação semântica de imagens com BPCAPooling: uma abordagem baseada em aprendizado profundo

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Silva, Lucas de Brito
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/11449/254787
Resumo: A visão computacional, especialmente no âmbito de segmentação de imagens, tem promovido contribuições significativas para análises médicas avançadas, compreensão de cenas complexas, design de sistemas autônomos, entre outros domínios de possíveis aplicações. A emergência de técnicas de aprendizado profundo tem possibilitado o avanço de arquiteturas e modelos com vistas a alcançar primeiramente o estado-da-arte na segmentação de imagens. No entanto, ainda há obstáculos significativos a serem superados, particularmente a preservação simultânea da espacialidade e a manutenção de uma visão global do mapa de atributos durante o procedimento de redução de dimensionalidade inerente às camadas de pooling das redes convolucionais. Frente a esse desafio, este trabalho propõe a investigação e o desenvolvimento do método Block-based Principal Component Analysis Pooling (BPCAPooling). Diferente do método convencional Max Pooling, o BPCAPooling é um método de pooling baseado no PCA que busca não apenas preservar localmente a informação espacial das amostras, mas também manter uma visão global dos mapas de atributos enquanto reduz a dimensionalidade. Para avaliar a eficácia deste método, foi aplicado primeiramente na arquitetura de redes neurais convolucionais como a Visual Geometry Group (VGG) com 16 camadas de peso, e posteriormente estendido a arquiteturas mais complexas com o desafio de segmentação de imagens, nomeadamente as U-Nets e suas variantes. Os experimentos mostraram que, embora a aplicação do BPCAPooling em modelos de classificação não tenha superado os métodos tradicionais em termos de métricas como acurácia e loss, observaram-se diferenças visuais na comparação com os métodos de pooling convencionais. Além disso, na tarefa de segmentação semântica, o método mostrou-se como uma alternativa viável, atingindo uma pontuação de 0,3333 em Mean Intersection over Union (mIoU), acurácia de 86,77% e loss de 0,6659.
id UNSP_fd42d45682d956ff9b3bd13787fac48e
oai_identifier_str oai:repositorio.unesp.br:11449/254787
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str
spelling Segmentação semântica de imagens com BPCAPooling: uma abordagem baseada em aprendizado profundoSemantic image segmentation with BPCAPooling: a deep learning-based approachVisão computacionalSegmentação de imagensRedes neurais convolucionaisPreservação de espacialidadeBlock-based Principal Component Analysis Pooling (BPCAPooling)Computer visionImage segmentationConvolutional neural networksPreservation of spatialityA visão computacional, especialmente no âmbito de segmentação de imagens, tem promovido contribuições significativas para análises médicas avançadas, compreensão de cenas complexas, design de sistemas autônomos, entre outros domínios de possíveis aplicações. A emergência de técnicas de aprendizado profundo tem possibilitado o avanço de arquiteturas e modelos com vistas a alcançar primeiramente o estado-da-arte na segmentação de imagens. No entanto, ainda há obstáculos significativos a serem superados, particularmente a preservação simultânea da espacialidade e a manutenção de uma visão global do mapa de atributos durante o procedimento de redução de dimensionalidade inerente às camadas de pooling das redes convolucionais. Frente a esse desafio, este trabalho propõe a investigação e o desenvolvimento do método Block-based Principal Component Analysis Pooling (BPCAPooling). Diferente do método convencional Max Pooling, o BPCAPooling é um método de pooling baseado no PCA que busca não apenas preservar localmente a informação espacial das amostras, mas também manter uma visão global dos mapas de atributos enquanto reduz a dimensionalidade. Para avaliar a eficácia deste método, foi aplicado primeiramente na arquitetura de redes neurais convolucionais como a Visual Geometry Group (VGG) com 16 camadas de peso, e posteriormente estendido a arquiteturas mais complexas com o desafio de segmentação de imagens, nomeadamente as U-Nets e suas variantes. Os experimentos mostraram que, embora a aplicação do BPCAPooling em modelos de classificação não tenha superado os métodos tradicionais em termos de métricas como acurácia e loss, observaram-se diferenças visuais na comparação com os métodos de pooling convencionais. Além disso, na tarefa de segmentação semântica, o método mostrou-se como uma alternativa viável, atingindo uma pontuação de 0,3333 em Mean Intersection over Union (mIoU), acurácia de 86,77% e loss de 0,6659.Computer vision, especially in the field of image segmentation, has made significant contributions to advanced medical analysis, understanding complex scenes, design of autonomous systems, among other areas of possible applications. The emergence of deep learning techniques has enabled the advancement of architectures and models with a view to achieving the state-of-the-art in image segmentation. However, there are still significant obstacles to be overcome, particularly the simultaneous preservation of spatiality and maintaining a global view of the attribute map during the dimensionality reduction procedure inherent in the pooling layers of convolutional networks. Faced with this challenge, this work proposes the investigation and development of the Block-based Principal Component Analysis Pooling (BPCAPooling) method. Different from the conventional Max Pooling method, BPCAPooling is a PCA-based pooling method that seeks not only to locally preserve the spatial information of samples, but also to maintain a global view of attribute maps while reducing dimensionality. To evaluate the effectiveness of this method, it was first applied to the architecture of convolutional neural networks such as the Visual Geometry Group (VGG) with 16 weight layers, and later extended to more complex architectures with the challenge of image segmentation, namely U-Nets and its variants. The experiments showed that, although the application of BPCAPooling in classification models did not outperform traditional methods in terms of metrics such as accuracy and loss, visual differences were observed when compared with conventional pooling methods. Furthermore, in the semantic segmentation task, the method proved to be a viable alternative, reaching a score of 0.3333 in Mean Intersection over Union (mIoU), accuracy of 86.77% and loss of 0.6659.Não recebi financiamentoUniversidade Estadual Paulista (Unesp)Salvadeo, Denis Henrique Pinheiro [UNESP]Silva, Lucas de Brito2024-03-27T15:32:10Z2024-03-27T15:32:10Z2024-02-05info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/11449/25478756917168770532470000-0001-6748-5100porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-12-10T14:59:05Zoai:repositorio.unesp.br:11449/254787Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462024-12-10T14:59:05Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Segmentação semântica de imagens com BPCAPooling: uma abordagem baseada em aprendizado profundo
Semantic image segmentation with BPCAPooling: a deep learning-based approach
title Segmentação semântica de imagens com BPCAPooling: uma abordagem baseada em aprendizado profundo
spellingShingle Segmentação semântica de imagens com BPCAPooling: uma abordagem baseada em aprendizado profundo
Silva, Lucas de Brito
Visão computacional
Segmentação de imagens
Redes neurais convolucionais
Preservação de espacialidade
Block-based Principal Component Analysis Pooling (BPCAPooling)
Computer vision
Image segmentation
Convolutional neural networks
Preservation of spatiality
title_short Segmentação semântica de imagens com BPCAPooling: uma abordagem baseada em aprendizado profundo
title_full Segmentação semântica de imagens com BPCAPooling: uma abordagem baseada em aprendizado profundo
title_fullStr Segmentação semântica de imagens com BPCAPooling: uma abordagem baseada em aprendizado profundo
title_full_unstemmed Segmentação semântica de imagens com BPCAPooling: uma abordagem baseada em aprendizado profundo
title_sort Segmentação semântica de imagens com BPCAPooling: uma abordagem baseada em aprendizado profundo
author Silva, Lucas de Brito
author_facet Silva, Lucas de Brito
author_role author
dc.contributor.none.fl_str_mv Salvadeo, Denis Henrique Pinheiro [UNESP]
dc.contributor.author.fl_str_mv Silva, Lucas de Brito
dc.subject.por.fl_str_mv Visão computacional
Segmentação de imagens
Redes neurais convolucionais
Preservação de espacialidade
Block-based Principal Component Analysis Pooling (BPCAPooling)
Computer vision
Image segmentation
Convolutional neural networks
Preservation of spatiality
topic Visão computacional
Segmentação de imagens
Redes neurais convolucionais
Preservação de espacialidade
Block-based Principal Component Analysis Pooling (BPCAPooling)
Computer vision
Image segmentation
Convolutional neural networks
Preservation of spatiality
description A visão computacional, especialmente no âmbito de segmentação de imagens, tem promovido contribuições significativas para análises médicas avançadas, compreensão de cenas complexas, design de sistemas autônomos, entre outros domínios de possíveis aplicações. A emergência de técnicas de aprendizado profundo tem possibilitado o avanço de arquiteturas e modelos com vistas a alcançar primeiramente o estado-da-arte na segmentação de imagens. No entanto, ainda há obstáculos significativos a serem superados, particularmente a preservação simultânea da espacialidade e a manutenção de uma visão global do mapa de atributos durante o procedimento de redução de dimensionalidade inerente às camadas de pooling das redes convolucionais. Frente a esse desafio, este trabalho propõe a investigação e o desenvolvimento do método Block-based Principal Component Analysis Pooling (BPCAPooling). Diferente do método convencional Max Pooling, o BPCAPooling é um método de pooling baseado no PCA que busca não apenas preservar localmente a informação espacial das amostras, mas também manter uma visão global dos mapas de atributos enquanto reduz a dimensionalidade. Para avaliar a eficácia deste método, foi aplicado primeiramente na arquitetura de redes neurais convolucionais como a Visual Geometry Group (VGG) com 16 camadas de peso, e posteriormente estendido a arquiteturas mais complexas com o desafio de segmentação de imagens, nomeadamente as U-Nets e suas variantes. Os experimentos mostraram que, embora a aplicação do BPCAPooling em modelos de classificação não tenha superado os métodos tradicionais em termos de métricas como acurácia e loss, observaram-se diferenças visuais na comparação com os métodos de pooling convencionais. Além disso, na tarefa de segmentação semântica, o método mostrou-se como uma alternativa viável, atingindo uma pontuação de 0,3333 em Mean Intersection over Union (mIoU), acurácia de 86,77% e loss de 0,6659.
publishDate 2024
dc.date.none.fl_str_mv 2024-03-27T15:32:10Z
2024-03-27T15:32:10Z
2024-02-05
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/11449/254787
5691716877053247
0000-0001-6748-5100
url https://hdl.handle.net/11449/254787
identifier_str_mv 5691716877053247
0000-0001-6748-5100
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv repositoriounesp@unesp.br
_version_ 1854954464918634496