A practical evaluation of parallel and distributed deep learning frameworks
| Ano de defesa: | 2022 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Link de acesso: | http://hdl.handle.net/10183/237483 |
Resumo: | O aumento do poder computacional e de dados disponíveis nos últimos anos contribuiu para que pesquisadores em Aprendizado Profundo atualizassem seus modelos para usar treinamento distribuído. Aprendizado Profundo Distribuído (APD) é essencial para re solver problemas de grande escala mais rapidamente e de forma precisa usando múltiplos dispositivos para treinarem em paralelo. Esta estratégia traz desafios em otimizar o de sempenho do treino sem perder a acurácia e sem gerar sobrecarga com comunicações entre servidor e dispositivos. Frameworks para APD se tornaram uma alternativa para treinar redes neurais, executando sobre bibliotecas de Aprendizado de Máquina (AM). Esses frameworks são vantajosos para usuários finais, pois requerem algumas novas li nhas de código no script não-distribuído. No entanto, da perspectiva the Computação de Alto Desempenho (CAD), a avaliação do treinamento distribuído é um desafio, pois os frameworks escondem detalhes de suas implementações. O uso de metodologias aplica das em análise de desempenho e ferramentas para visualização comuns à área de CAD podem beneficiar usuários dos frameworks a escolherem o melhor para seu modelo, e também desenvolvedores dos frameworks a identificarem indicativos de como otimizá-los. Este trabalho apresenta uma avaliação de desempenho e comparação entre dois mo dernos frameworks para APD: Horovod, um dos mais populares usado mundialmente, e Tarantella, mais recente com a mesma estratégia de paralelização que o Horovod, mas com diferentes algoritmos e padrões para comunicação em sistemas distribuídos. Os re sultados mostram que combinar ferramentas de CAD e de AM para avaliar o desempenho de frameworks para APD enriquecem a análise de desempenho e ajudam a identificar gar galos nos frameworks. Horovod apresentou a maior eficiência escalando de quatro à oito GPUs, com uma diferença de quase 50% em relação ao Tarantella. Embora o algoritmo do Horovod treine mais rápido do que o do Tarantella, este apresentou maior acurácia do modelo. Usando agregação temporal, pode-se identificar o tempo gasto com com putação e com comunicação, o que pode beneficiar desenvolvedores a melhorarem seus frameworks. Nossa abordagem pode ser usada para análise de desempenho de diversos modelos de redes neurais artificiais, pois foi implementada a nível dos frameworks. |
| id |
URGS_ae4096a936f5251f7fc4c03c7db523b4 |
|---|---|
| oai_identifier_str |
oai:www.lume.ufrgs.br:10183/237483 |
| network_acronym_str |
URGS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| repository_id_str |
|
| spelling |
Solórzano, Ana Luisa VeronezeSchnorr, Lucas Mello2022-04-19T04:39:35Z2022http://hdl.handle.net/10183/237483001139698O aumento do poder computacional e de dados disponíveis nos últimos anos contribuiu para que pesquisadores em Aprendizado Profundo atualizassem seus modelos para usar treinamento distribuído. Aprendizado Profundo Distribuído (APD) é essencial para re solver problemas de grande escala mais rapidamente e de forma precisa usando múltiplos dispositivos para treinarem em paralelo. Esta estratégia traz desafios em otimizar o de sempenho do treino sem perder a acurácia e sem gerar sobrecarga com comunicações entre servidor e dispositivos. Frameworks para APD se tornaram uma alternativa para treinar redes neurais, executando sobre bibliotecas de Aprendizado de Máquina (AM). Esses frameworks são vantajosos para usuários finais, pois requerem algumas novas li nhas de código no script não-distribuído. No entanto, da perspectiva the Computação de Alto Desempenho (CAD), a avaliação do treinamento distribuído é um desafio, pois os frameworks escondem detalhes de suas implementações. O uso de metodologias aplica das em análise de desempenho e ferramentas para visualização comuns à área de CAD podem beneficiar usuários dos frameworks a escolherem o melhor para seu modelo, e também desenvolvedores dos frameworks a identificarem indicativos de como otimizá-los. Este trabalho apresenta uma avaliação de desempenho e comparação entre dois mo dernos frameworks para APD: Horovod, um dos mais populares usado mundialmente, e Tarantella, mais recente com a mesma estratégia de paralelização que o Horovod, mas com diferentes algoritmos e padrões para comunicação em sistemas distribuídos. Os re sultados mostram que combinar ferramentas de CAD e de AM para avaliar o desempenho de frameworks para APD enriquecem a análise de desempenho e ajudam a identificar gar galos nos frameworks. Horovod apresentou a maior eficiência escalando de quatro à oito GPUs, com uma diferença de quase 50% em relação ao Tarantella. Embora o algoritmo do Horovod treine mais rápido do que o do Tarantella, este apresentou maior acurácia do modelo. Usando agregação temporal, pode-se identificar o tempo gasto com com putação e com comunicação, o que pode beneficiar desenvolvedores a melhorarem seus frameworks. Nossa abordagem pode ser usada para análise de desempenho de diversos modelos de redes neurais artificiais, pois foi implementada a nível dos frameworks.The computational power growth in the last years and the increase of data to be processed contributed to researchers in deep learning update their models to use distributed train ing. Distributed Deep Learning (DDL) is essential for solving large-scale problems faster and accurately using multiple devices to run the model in parallel. This strategy brings challenges to improving the training performance without losing accuracy and without increasing the overhead of exchanging data between host and devices. Frameworks for DDL have become popular alternatives in the last years for training using multiple de vices, running on top of usual machine learning libraries. They are advantageous for final users since they require only a few extra lines of code to a single-node model script. However, from a High-Performance Computing (HPC) perspective, it is challenging to evaluate distributed training performance since the frameworks hide the implementation’s details. The use of performance analysis methodologies and visualization tools common to the HPC field can benefit DDL frameworks’ users to choose the best framework for their model and can benefit DDL frameworks’ developers by providing insights on how to optimize their applications. This work presents a performance analysis and compari son of two modern frameworks: Horovod, one of the most popular DDL frameworks used worldwide, and Tarantella, a recent framework with the same parallel strategy as Horovod but with a different all-reduce algorithm and distributed library. Our results showed that combining HPC and Machine Learning tools to evaluate the performance of DDL can enrich the findings and identify bottlenecks in the frameworks. Horovod presented higher scaling efficiency than Tarantella, with a difference of almost 50% in their efficiency scal ing from four to twelve GPUs. Although Horovod all-reduce algorithm trains faster than Tarantella, the last presented higher model accuracy. Using a temporal aggregation, we also identified the exact time spent computing and communicating during training, which can benefit developers in improving the frameworks. Since our approach is implemented at the DDL framework level, it can also be used to analyze the performance of other neu ral network models.application/pdfengAprendizado profundo distribuídoAnálise de desempenhoDistributed Deep LearningPerformance AnalysisHPCDDL FrameworksA practical evaluation of parallel and distributed deep learning frameworksAvaliação prática de frameworks para deep learning paralelo e distribuído info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2022mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001139698.pdf.txt001139698.pdf.txtExtracted Texttext/plain169685http://www.lume.ufrgs.br/bitstream/10183/237483/2/001139698.pdf.txt3780add771aea4e639124576378e5bfcMD52ORIGINAL001139698.pdfTexto completo (inglês)application/pdf2760249http://www.lume.ufrgs.br/bitstream/10183/237483/1/001139698.pdf61f495af206efc091998d237423a1a40MD5110183/2374832022-04-28 04:44:11.748864oai:www.lume.ufrgs.br:10183/237483Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532022-04-28T07:44:11Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
| dc.title.pt_BR.fl_str_mv |
A practical evaluation of parallel and distributed deep learning frameworks |
| dc.title.alternative.pt.fl_str_mv |
Avaliação prática de frameworks para deep learning paralelo e distribuído |
| title |
A practical evaluation of parallel and distributed deep learning frameworks |
| spellingShingle |
A practical evaluation of parallel and distributed deep learning frameworks Solórzano, Ana Luisa Veroneze Aprendizado profundo distribuído Análise de desempenho Distributed Deep Learning Performance Analysis HPC DDL Frameworks |
| title_short |
A practical evaluation of parallel and distributed deep learning frameworks |
| title_full |
A practical evaluation of parallel and distributed deep learning frameworks |
| title_fullStr |
A practical evaluation of parallel and distributed deep learning frameworks |
| title_full_unstemmed |
A practical evaluation of parallel and distributed deep learning frameworks |
| title_sort |
A practical evaluation of parallel and distributed deep learning frameworks |
| author |
Solórzano, Ana Luisa Veroneze |
| author_facet |
Solórzano, Ana Luisa Veroneze |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Solórzano, Ana Luisa Veroneze |
| dc.contributor.advisor1.fl_str_mv |
Schnorr, Lucas Mello |
| contributor_str_mv |
Schnorr, Lucas Mello |
| dc.subject.por.fl_str_mv |
Aprendizado profundo distribuído Análise de desempenho |
| topic |
Aprendizado profundo distribuído Análise de desempenho Distributed Deep Learning Performance Analysis HPC DDL Frameworks |
| dc.subject.eng.fl_str_mv |
Distributed Deep Learning Performance Analysis HPC DDL Frameworks |
| description |
O aumento do poder computacional e de dados disponíveis nos últimos anos contribuiu para que pesquisadores em Aprendizado Profundo atualizassem seus modelos para usar treinamento distribuído. Aprendizado Profundo Distribuído (APD) é essencial para re solver problemas de grande escala mais rapidamente e de forma precisa usando múltiplos dispositivos para treinarem em paralelo. Esta estratégia traz desafios em otimizar o de sempenho do treino sem perder a acurácia e sem gerar sobrecarga com comunicações entre servidor e dispositivos. Frameworks para APD se tornaram uma alternativa para treinar redes neurais, executando sobre bibliotecas de Aprendizado de Máquina (AM). Esses frameworks são vantajosos para usuários finais, pois requerem algumas novas li nhas de código no script não-distribuído. No entanto, da perspectiva the Computação de Alto Desempenho (CAD), a avaliação do treinamento distribuído é um desafio, pois os frameworks escondem detalhes de suas implementações. O uso de metodologias aplica das em análise de desempenho e ferramentas para visualização comuns à área de CAD podem beneficiar usuários dos frameworks a escolherem o melhor para seu modelo, e também desenvolvedores dos frameworks a identificarem indicativos de como otimizá-los. Este trabalho apresenta uma avaliação de desempenho e comparação entre dois mo dernos frameworks para APD: Horovod, um dos mais populares usado mundialmente, e Tarantella, mais recente com a mesma estratégia de paralelização que o Horovod, mas com diferentes algoritmos e padrões para comunicação em sistemas distribuídos. Os re sultados mostram que combinar ferramentas de CAD e de AM para avaliar o desempenho de frameworks para APD enriquecem a análise de desempenho e ajudam a identificar gar galos nos frameworks. Horovod apresentou a maior eficiência escalando de quatro à oito GPUs, com uma diferença de quase 50% em relação ao Tarantella. Embora o algoritmo do Horovod treine mais rápido do que o do Tarantella, este apresentou maior acurácia do modelo. Usando agregação temporal, pode-se identificar o tempo gasto com com putação e com comunicação, o que pode beneficiar desenvolvedores a melhorarem seus frameworks. Nossa abordagem pode ser usada para análise de desempenho de diversos modelos de redes neurais artificiais, pois foi implementada a nível dos frameworks. |
| publishDate |
2022 |
| dc.date.accessioned.fl_str_mv |
2022-04-19T04:39:35Z |
| dc.date.issued.fl_str_mv |
2022 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/237483 |
| dc.identifier.nrb.pt_BR.fl_str_mv |
001139698 |
| url |
http://hdl.handle.net/10183/237483 |
| identifier_str_mv |
001139698 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
| instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
| instacron_str |
UFRGS |
| institution |
UFRGS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/237483/2/001139698.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/237483/1/001139698.pdf |
| bitstream.checksum.fl_str_mv |
3780add771aea4e639124576378e5bfc 61f495af206efc091998d237423a1a40 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
| repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
| _version_ |
1831316131208495104 |