Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures

Detalhes bibliográficos
Ano de defesa: 2026
Autor(a) principal: Araújo, Thiago da Silva
Orientador(a): Navaux, Philippe Olivier Alexandre
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/303761
Resumo: O aprendizado profundo (DL) eficiente e escalável é essencial para o desenvolvimento de aplicações práticas e sustentáveis em imagem médica. Este estudo investiga a seleção, otimização e escalabilidade de redes neurais convolucionais (CNNs) para a classificação de retinopatia diabética (RD) em sistemas baseados em ARM, com foco em desempenho, consumo de energia e eficiência no treinamento distribuído. Foram avaliadas 38 arquiteturas de CNN para identificar o modelo que melhor equilibrasse acurácia preditiva, custo computacional e eficiência energética. O modelo MobileNet apresentou os melhores resultados, consumindo 77% menos energia, treinando 83% mais rápido e gerando um modelo 85% menor que o InceptionV3 de referência, além de alcançar um AUC 3% superior. A otimização de hiperparâmetros mostrou que o uso da função de ativação sigmoid, da resolução de entrada de 300×300 e do otimizador SGD oferece a configuração mais eficiente. Os experimentos de escalabilidade realizados na arquitetura ARM Grace Superchip demonstraram desempenho quase linear até 36 núcleos por nó, com eficiência energética ideal entre 18 e 36 núcleos, antes da saturação da largura de banda de memória. O treinamento distribuído em duas Grace Superchips, utilizando a estratégia MultiWorkerMirroredStrategy do TensorFlow, obteve um speedup de 1,93× e eficiência de escalonamento de 96,5%, reduzindo o tempo de treinamento pela metade com aumento inferior a 1% no consumo total de energia e mantendo a acurácia do modelo (AUC 0,936). Os resultados indicam que a arquitetura Grace mantém cargas de trabalho de DL eficientes e escaláveis com baixo custo energético, confirmando sua adequação para aplicações de IA sensíveis a desempenho e consumo de energia em imagem médica.
id URGS_c424a999db934ea13726f4d4a08477e2
oai_identifier_str oai:www.lume.ufrgs.br:10183/303761
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Araújo, Thiago da SilvaNavaux, Philippe Olivier Alexandre2026-04-23T07:55:43Z2026http://hdl.handle.net/10183/303761001304585O aprendizado profundo (DL) eficiente e escalável é essencial para o desenvolvimento de aplicações práticas e sustentáveis em imagem médica. Este estudo investiga a seleção, otimização e escalabilidade de redes neurais convolucionais (CNNs) para a classificação de retinopatia diabética (RD) em sistemas baseados em ARM, com foco em desempenho, consumo de energia e eficiência no treinamento distribuído. Foram avaliadas 38 arquiteturas de CNN para identificar o modelo que melhor equilibrasse acurácia preditiva, custo computacional e eficiência energética. O modelo MobileNet apresentou os melhores resultados, consumindo 77% menos energia, treinando 83% mais rápido e gerando um modelo 85% menor que o InceptionV3 de referência, além de alcançar um AUC 3% superior. A otimização de hiperparâmetros mostrou que o uso da função de ativação sigmoid, da resolução de entrada de 300×300 e do otimizador SGD oferece a configuração mais eficiente. Os experimentos de escalabilidade realizados na arquitetura ARM Grace Superchip demonstraram desempenho quase linear até 36 núcleos por nó, com eficiência energética ideal entre 18 e 36 núcleos, antes da saturação da largura de banda de memória. O treinamento distribuído em duas Grace Superchips, utilizando a estratégia MultiWorkerMirroredStrategy do TensorFlow, obteve um speedup de 1,93× e eficiência de escalonamento de 96,5%, reduzindo o tempo de treinamento pela metade com aumento inferior a 1% no consumo total de energia e mantendo a acurácia do modelo (AUC 0,936). Os resultados indicam que a arquitetura Grace mantém cargas de trabalho de DL eficientes e escaláveis com baixo custo energético, confirmando sua adequação para aplicações de IA sensíveis a desempenho e consumo de energia em imagem médica.Efficient and scalable deep learning (DL) is critical for practical and sustainable analysis of medical imaging. This study investigates model selection, optimization, and scalability of convolutional neural networks (CNNs) for diabetic retinopathy (DR) classification on ARM-based systems, focusing on performance, energy consumption, and distributed training efficiency. We evaluated 38 CNN architectures to identify a model that balances predictive accuracy with computational and energy efficiency. MobileNet achieved the best results, consuming 77% less energy, training 83% faster, and producing an 85% smaller model than the InceptionV3 baseline, while improving the AUC by 3%. Hyperparameter optimization showed that using a sigmoid activation function, a 300×300 input resolution, and the SGD optimizer provides the most efficient configuration. Scalability experiments on ARM Grace Superchip architecture demonstrated near-linear performance up to 36 cores per node, with optimal energy efficiency between 18 and 36 cores before memory bandwidth saturation. Distributed training on two Grace Superchips with TensorFlow’s MultiWorkerMirroredStrategy achieved a 1.93× speedup and 96.5% scaling efficiency, halving training time with less than a 1% rise in total energy use while maintaining model accuracy (AUC 0.936). The results show that the Grace architecture sustains efficient, scalable DL workloads with minimal energy overhead, confirming its sustainability for energy-aware and performance-sensitive AI applications in medical imaging.application/pdfengAprendizado profundoRedes neurais convolucionaisClassificação de imagens médicasEficiência energéticaRetinopatia diabéticaHigh performance computingScalabilityScalable and efficient deep learning for diabetic retinopathy classification on ARM-based architecturesAprendizado profundo escalável e eficiente para a classificação de retinopatia diabética em arquiteturas ARM info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2026mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001304585.pdf.txt001304585.pdf.txtExtracted Texttext/plain148331http://www.lume.ufrgs.br/bitstream/10183/303761/2/001304585.pdf.txtda61d25b240e2151e4f5d40bb9c32a42MD52ORIGINAL001304585.pdfTexto completo (inglês)application/pdf990328http://www.lume.ufrgs.br/bitstream/10183/303761/1/001304585.pdfefffd2507e149d2575a38a987d2b9234MD5110183/3037612026-04-24 08:02:24.97434oai:www.lume.ufrgs.br:10183/303761Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br || lume@ufrgs.bropendoar:18532026-04-24T11:02:24Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures
dc.title.alternative.pt.fl_str_mv Aprendizado profundo escalável e eficiente para a classificação de retinopatia diabética em arquiteturas ARM
title Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures
spellingShingle Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures
Araújo, Thiago da Silva
Aprendizado profundo
Redes neurais convolucionais
Classificação de imagens médicas
Eficiência energética
Retinopatia diabética
High performance computing
Scalability
title_short Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures
title_full Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures
title_fullStr Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures
title_full_unstemmed Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures
title_sort Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures
author Araújo, Thiago da Silva
author_facet Araújo, Thiago da Silva
author_role author
dc.contributor.author.fl_str_mv Araújo, Thiago da Silva
dc.contributor.advisor1.fl_str_mv Navaux, Philippe Olivier Alexandre
contributor_str_mv Navaux, Philippe Olivier Alexandre
dc.subject.por.fl_str_mv Aprendizado profundo
Redes neurais convolucionais
Classificação de imagens médicas
Eficiência energética
Retinopatia diabética
topic Aprendizado profundo
Redes neurais convolucionais
Classificação de imagens médicas
Eficiência energética
Retinopatia diabética
High performance computing
Scalability
dc.subject.eng.fl_str_mv High performance computing
Scalability
description O aprendizado profundo (DL) eficiente e escalável é essencial para o desenvolvimento de aplicações práticas e sustentáveis em imagem médica. Este estudo investiga a seleção, otimização e escalabilidade de redes neurais convolucionais (CNNs) para a classificação de retinopatia diabética (RD) em sistemas baseados em ARM, com foco em desempenho, consumo de energia e eficiência no treinamento distribuído. Foram avaliadas 38 arquiteturas de CNN para identificar o modelo que melhor equilibrasse acurácia preditiva, custo computacional e eficiência energética. O modelo MobileNet apresentou os melhores resultados, consumindo 77% menos energia, treinando 83% mais rápido e gerando um modelo 85% menor que o InceptionV3 de referência, além de alcançar um AUC 3% superior. A otimização de hiperparâmetros mostrou que o uso da função de ativação sigmoid, da resolução de entrada de 300×300 e do otimizador SGD oferece a configuração mais eficiente. Os experimentos de escalabilidade realizados na arquitetura ARM Grace Superchip demonstraram desempenho quase linear até 36 núcleos por nó, com eficiência energética ideal entre 18 e 36 núcleos, antes da saturação da largura de banda de memória. O treinamento distribuído em duas Grace Superchips, utilizando a estratégia MultiWorkerMirroredStrategy do TensorFlow, obteve um speedup de 1,93× e eficiência de escalonamento de 96,5%, reduzindo o tempo de treinamento pela metade com aumento inferior a 1% no consumo total de energia e mantendo a acurácia do modelo (AUC 0,936). Os resultados indicam que a arquitetura Grace mantém cargas de trabalho de DL eficientes e escaláveis com baixo custo energético, confirmando sua adequação para aplicações de IA sensíveis a desempenho e consumo de energia em imagem médica.
publishDate 2026
dc.date.accessioned.fl_str_mv 2026-04-23T07:55:43Z
dc.date.issued.fl_str_mv 2026
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/303761
dc.identifier.nrb.pt_BR.fl_str_mv 001304585
url http://hdl.handle.net/10183/303761
identifier_str_mv 001304585
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/303761/2/001304585.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/303761/1/001304585.pdf
bitstream.checksum.fl_str_mv da61d25b240e2151e4f5d40bb9c32a42
efffd2507e149d2575a38a987d2b9234
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br || lume@ufrgs.br
_version_ 1863671996905160704