Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures

Araújo, Thiago da Silva

Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures

Detalhes bibliográficos
Ano de defesa:	2026
Autor(a) principal:	Araújo, Thiago da Silva
Orientador(a):	Navaux, Philippe Olivier Alexandre
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Aprendizado profundo Redes neurais convolucionais Classificação de imagens médicas Eficiência energética Retinopatia diabética
Palavras-chave em Inglês:	High performance computing Scalability
Link de acesso:	http://hdl.handle.net/10183/303761
Resumo:	O aprendizado profundo (DL) eficiente e escalável é essencial para o desenvolvimento de aplicações práticas e sustentáveis em imagem médica. Este estudo investiga a seleção, otimização e escalabilidade de redes neurais convolucionais (CNNs) para a classificação de retinopatia diabética (RD) em sistemas baseados em ARM, com foco em desempenho, consumo de energia e eficiência no treinamento distribuído. Foram avaliadas 38 arquiteturas de CNN para identificar o modelo que melhor equilibrasse acurácia preditiva, custo computacional e eficiência energética. O modelo MobileNet apresentou os melhores resultados, consumindo 77% menos energia, treinando 83% mais rápido e gerando um modelo 85% menor que o InceptionV3 de referência, além de alcançar um AUC 3% superior. A otimização de hiperparâmetros mostrou que o uso da função de ativação sigmoid, da resolução de entrada de 300×300 e do otimizador SGD oferece a configuração mais eficiente. Os experimentos de escalabilidade realizados na arquitetura ARM Grace Superchip demonstraram desempenho quase linear até 36 núcleos por nó, com eficiência energética ideal entre 18 e 36 núcleos, antes da saturação da largura de banda de memória. O treinamento distribuído em duas Grace Superchips, utilizando a estratégia MultiWorkerMirroredStrategy do TensorFlow, obteve um speedup de 1,93× e eficiência de escalonamento de 96,5%, reduzindo o tempo de treinamento pela metade com aumento inferior a 1% no consumo total de energia e mantendo a acurácia do modelo (AUC 0,936). Os resultados indicam que a arquitetura Grace mantém cargas de trabalho de DL eficientes e escaláveis com baixo custo energético, confirmando sua adequação para aplicações de IA sensíveis a desempenho e consumo de energia em imagem médica.

Metadados do item

id	URGS_c424a999db934ea13726f4d4a08477e2
oai_identifier_str	oai:www.lume.ufrgs.br:10183/303761
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling	Araújo, Thiago da SilvaNavaux, Philippe Olivier Alexandre2026-04-23T07:55:43Z2026http://hdl.handle.net/10183/303761001304585O aprendizado profundo (DL) eficiente e escalável é essencial para o desenvolvimento de aplicações práticas e sustentáveis em imagem médica. Este estudo investiga a seleção, otimização e escalabilidade de redes neurais convolucionais (CNNs) para a classificação de retinopatia diabética (RD) em sistemas baseados em ARM, com foco em desempenho, consumo de energia e eficiência no treinamento distribuído. Foram avaliadas 38 arquiteturas de CNN para identificar o modelo que melhor equilibrasse acurácia preditiva, custo computacional e eficiência energética. O modelo MobileNet apresentou os melhores resultados, consumindo 77% menos energia, treinando 83% mais rápido e gerando um modelo 85% menor que o InceptionV3 de referência, além de alcançar um AUC 3% superior. A otimização de hiperparâmetros mostrou que o uso da função de ativação sigmoid, da resolução de entrada de 300×300 e do otimizador SGD oferece a configuração mais eficiente. Os experimentos de escalabilidade realizados na arquitetura ARM Grace Superchip demonstraram desempenho quase linear até 36 núcleos por nó, com eficiência energética ideal entre 18 e 36 núcleos, antes da saturação da largura de banda de memória. O treinamento distribuído em duas Grace Superchips, utilizando a estratégia MultiWorkerMirroredStrategy do TensorFlow, obteve um speedup de 1,93× e eficiência de escalonamento de 96,5%, reduzindo o tempo de treinamento pela metade com aumento inferior a 1% no consumo total de energia e mantendo a acurácia do modelo (AUC 0,936). Os resultados indicam que a arquitetura Grace mantém cargas de trabalho de DL eficientes e escaláveis com baixo custo energético, confirmando sua adequação para aplicações de IA sensíveis a desempenho e consumo de energia em imagem médica.Efficient and scalable deep learning (DL) is critical for practical and sustainable analysis of medical imaging. This study investigates model selection, optimization, and scalability of convolutional neural networks (CNNs) for diabetic retinopathy (DR) classification on ARM-based systems, focusing on performance, energy consumption, and distributed training efficiency. We evaluated 38 CNN architectures to identify a model that balances predictive accuracy with computational and energy efficiency. MobileNet achieved the best results, consuming 77% less energy, training 83% faster, and producing an 85% smaller model than the InceptionV3 baseline, while improving the AUC by 3%. Hyperparameter optimization showed that using a sigmoid activation function, a 300×300 input resolution, and the SGD optimizer provides the most efficient configuration. Scalability experiments on ARM Grace Superchip architecture demonstrated near-linear performance up to 36 cores per node, with optimal energy efficiency between 18 and 36 cores before memory bandwidth saturation. Distributed training on two Grace Superchips with TensorFlow’s MultiWorkerMirroredStrategy achieved a 1.93× speedup and 96.5% scaling efficiency, halving training time with less than a 1% rise in total energy use while maintaining model accuracy (AUC 0.936). The results show that the Grace architecture sustains efficient, scalable DL workloads with minimal energy overhead, confirming its sustainability for energy-aware and performance-sensitive AI applications in medical imaging.application/pdfengAprendizado profundoRedes neurais convolucionaisClassificação de imagens médicasEficiência energéticaRetinopatia diabéticaHigh performance computingScalabilityScalable and efficient deep learning for diabetic retinopathy classification on ARM-based architecturesAprendizado profundo escalável e eficiente para a classificação de retinopatia diabética em arquiteturas ARM info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2026mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001304585.pdf.txt001304585.pdf.txtExtracted Texttext/plain148331http://www.lume.ufrgs.br/bitstream/10183/303761/2/001304585.pdf.txtda61d25b240e2151e4f5d40bb9c32a42MD52ORIGINAL001304585.pdfTexto completo (inglês)application/pdf990328http://www.lume.ufrgs.br/bitstream/10183/303761/1/001304585.pdfefffd2507e149d2575a38a987d2b9234MD5110183/3037612026-04-24 08:02:24.97434oai:www.lume.ufrgs.br:10183/303761Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br \|\| lume@ufrgs.bropendoar:18532026-04-24T11:02:24Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures
dc.title.alternative.pt.fl_str_mv	Aprendizado profundo escalável e eficiente para a classificação de retinopatia diabética em arquiteturas ARM
title	Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures
spellingShingle	Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures Araújo, Thiago da Silva Aprendizado profundo Redes neurais convolucionais Classificação de imagens médicas Eficiência energética Retinopatia diabética High performance computing Scalability
title_short	Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures
title_full	Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures
title_fullStr	Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures
title_full_unstemmed	Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures
title_sort	Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures
author	Araújo, Thiago da Silva
author_facet	Araújo, Thiago da Silva
author_role	author
dc.contributor.author.fl_str_mv	Araújo, Thiago da Silva
dc.contributor.advisor1.fl_str_mv	Navaux, Philippe Olivier Alexandre
contributor_str_mv	Navaux, Philippe Olivier Alexandre
dc.subject.por.fl_str_mv	Aprendizado profundo Redes neurais convolucionais Classificação de imagens médicas Eficiência energética Retinopatia diabética
topic	Aprendizado profundo Redes neurais convolucionais Classificação de imagens médicas Eficiência energética Retinopatia diabética High performance computing Scalability
dc.subject.eng.fl_str_mv	High performance computing Scalability
description	O aprendizado profundo (DL) eficiente e escalável é essencial para o desenvolvimento de aplicações práticas e sustentáveis em imagem médica. Este estudo investiga a seleção, otimização e escalabilidade de redes neurais convolucionais (CNNs) para a classificação de retinopatia diabética (RD) em sistemas baseados em ARM, com foco em desempenho, consumo de energia e eficiência no treinamento distribuído. Foram avaliadas 38 arquiteturas de CNN para identificar o modelo que melhor equilibrasse acurácia preditiva, custo computacional e eficiência energética. O modelo MobileNet apresentou os melhores resultados, consumindo 77% menos energia, treinando 83% mais rápido e gerando um modelo 85% menor que o InceptionV3 de referência, além de alcançar um AUC 3% superior. A otimização de hiperparâmetros mostrou que o uso da função de ativação sigmoid, da resolução de entrada de 300×300 e do otimizador SGD oferece a configuração mais eficiente. Os experimentos de escalabilidade realizados na arquitetura ARM Grace Superchip demonstraram desempenho quase linear até 36 núcleos por nó, com eficiência energética ideal entre 18 e 36 núcleos, antes da saturação da largura de banda de memória. O treinamento distribuído em duas Grace Superchips, utilizando a estratégia MultiWorkerMirroredStrategy do TensorFlow, obteve um speedup de 1,93× e eficiência de escalonamento de 96,5%, reduzindo o tempo de treinamento pela metade com aumento inferior a 1% no consumo total de energia e mantendo a acurácia do modelo (AUC 0,936). Os resultados indicam que a arquitetura Grace mantém cargas de trabalho de DL eficientes e escaláveis com baixo custo energético, confirmando sua adequação para aplicações de IA sensíveis a desempenho e consumo de energia em imagem médica.
publishDate	2026
dc.date.accessioned.fl_str_mv	2026-04-23T07:55:43Z
dc.date.issued.fl_str_mv	2026
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/303761
dc.identifier.nrb.pt_BR.fl_str_mv	001304585
url	http://hdl.handle.net/10183/303761
identifier_str_mv	001304585
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/303761/2/001304585.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/303761/1/001304585.pdf
bitstream.checksum.fl_str_mv	da61d25b240e2151e4f5d40bb9c32a42 efffd2507e149d2575a38a987d2b9234
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br \|\| lume@ufrgs.br
_version_	1863671996905160704

Scalable and efficient deep learning for diabetic retinopathy classification on ARM-based architectures

Registros relacionados