Convolutional neural networks compression for object detection

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Salvi, Andrey de Aguiar lattes
Orientador(a): Barros, Rodrigo Coelho lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Pontifícia Universidade Católica do Rio Grande do Sul
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação
Departamento: Escola Politécnica
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://tede2.pucrs.br/tede2/handle/tede/9890
Resumo: Aprendizado Profundo é o estado da arte em tarefas de Visão Computacional, tais como Classificação de Imagens, Detecção de Objetos, Segmentação de Instâncias, Geração de Conteúdo, entre outros. Ao longo do tempo, os modelos se tornaram maiores, mais profundos, e de maior acurácia, mas também super-parametrizados, pesados e lentos, dificultando o uso de tais modelos em automação de processos em dispositivos limitados, com poder de processamento reduzido, memória, ou energia. Consequentemente, a Compressão de Modelos emergiu na literatura para reduzir o tamanho do modelo e o custo de processamento o máximo possível, impactando o mínimo possível na performance do modelo na tarefa alvo. Embora existam muitos estudos de compressão de modelos na literatura versando sobre diferentes abordagens, existem poucos estudos trazendo comparações práticas entre diferentes abordagens, e nenhum deles com o foco em Detecção de Objetos. Portanto, este trabalho contribui à literatura ao comparar e explorar os trade-offs existentes entre Pruning, Knowledge Distillation (KD), Neural Architecture Search (NAS), e uma reconstrução de modelo baseada em convoluções eficientes. Para alcançar tal objetivo, modelos baseados na YOLOv3 foram treinados com a mesma estratégia de data-augmentation em dois conjuntos de dados, PASCAL VOC e Exclusively Dark Images, e avaliados de acordo com Mean Average Precision, número de parâmetros, tamanho de armazenamento, e Multiply-Accumulate Operation (MAC). Os resultados mostram que um Pruning mais agressivo foi capaz de gerar o melhor trade-off, onde o seu mAP ultrapassou a abordagem de NAS + KD, além de produzir um modelo com o menor número de parâmetros e com a maior redução efetiva em MACs.
id P_RS_6ac61f3c0384788945f5f5ca8df9a9e7
oai_identifier_str oai:tede2.pucrs.br:tede/9890
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Barros, Rodrigo Coelhohttp://lattes.cnpq.br/8172124241767828http://lattes.cnpq.br/3810506981901874Salvi, Andrey de Aguiar2021-09-28T13:16:38Z2021-03-22http://tede2.pucrs.br/tede2/handle/tede/9890Aprendizado Profundo é o estado da arte em tarefas de Visão Computacional, tais como Classificação de Imagens, Detecção de Objetos, Segmentação de Instâncias, Geração de Conteúdo, entre outros. Ao longo do tempo, os modelos se tornaram maiores, mais profundos, e de maior acurácia, mas também super-parametrizados, pesados e lentos, dificultando o uso de tais modelos em automação de processos em dispositivos limitados, com poder de processamento reduzido, memória, ou energia. Consequentemente, a Compressão de Modelos emergiu na literatura para reduzir o tamanho do modelo e o custo de processamento o máximo possível, impactando o mínimo possível na performance do modelo na tarefa alvo. Embora existam muitos estudos de compressão de modelos na literatura versando sobre diferentes abordagens, existem poucos estudos trazendo comparações práticas entre diferentes abordagens, e nenhum deles com o foco em Detecção de Objetos. Portanto, este trabalho contribui à literatura ao comparar e explorar os trade-offs existentes entre Pruning, Knowledge Distillation (KD), Neural Architecture Search (NAS), e uma reconstrução de modelo baseada em convoluções eficientes. Para alcançar tal objetivo, modelos baseados na YOLOv3 foram treinados com a mesma estratégia de data-augmentation em dois conjuntos de dados, PASCAL VOC e Exclusively Dark Images, e avaliados de acordo com Mean Average Precision, número de parâmetros, tamanho de armazenamento, e Multiply-Accumulate Operation (MAC). Os resultados mostram que um Pruning mais agressivo foi capaz de gerar o melhor trade-off, onde o seu mAP ultrapassou a abordagem de NAS + KD, além de produzir um modelo com o menor número de parâmetros e com a maior redução efetiva em MACs.Deep Learning (DL) is the state-of-the-art in Computer Vision tasks, such as Image Classification, Object Detection, Instance Segmentation, Content Generation, among others. Over time, the models have become broader, deeper, and more accurate, but also hyperparameterized, heavier, and slower, making their use harder for automating tasks based on constrained devices, such as those with reduced processing power, or with memory or energy consumption constraints. Consequently, Model Compression emerges in the literature to reduce the model’s size and processing cost as much as possible, while impacting as little as possible in the model’s performance within its target task. Although there are many model compression studies in the literature exploring several different approaches, there are few studies in the literature bringing practical comparisons between different approaches and none of those focusing on Object Detection. Therefore, this work contributes to the literature by comparing and exploring the existing trade-offs between Pruning, Knowledge Distillation (KD), Neural Architecture Search (NAS), and a model reconstruction based on efficient convolutions. To achieve this goal, we train models based on YOLOv3 with the same data augmentation on two datasets, PASCAL VOC and Exclusively Dark Images, and we evaluate them according to Mean Average Precision, number of parameters, storage size, and Multiply-Accumulate operations (MACs). Results show that a more aggressive Pruning was capable of generating the best trade-off: its mAP surpassed a NAS + KD approach, in addition to producing a model with the smallest number of parameters and with a most effective reduction in MACs.Submitted by PPG Ciência da Computação (ppgcc@pucrs.br) on 2021-09-23T20:03:28Z No. of bitstreams: 1 ANDREY AGUIAR DE SALVI_DIS.pdf: 15102739 bytes, checksum: def4da680a81b904d8d7a1aa648cc465 (MD5)Approved for entry into archive by Sarajane Pan (sarajane.pan@pucrs.br) on 2021-09-28T13:09:01Z (GMT) No. of bitstreams: 1 ANDREY AGUIAR DE SALVI_DIS.pdf: 15102739 bytes, checksum: def4da680a81b904d8d7a1aa648cc465 (MD5)Made available in DSpace on 2021-09-28T13:16:38Z (GMT). No. of bitstreams: 1 ANDREY AGUIAR DE SALVI_DIS.pdf: 15102739 bytes, checksum: def4da680a81b904d8d7a1aa648cc465 (MD5) Previous issue date: 2021-03-22application/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/182183/ANDREY%20AGUIAR%20DE%20SALVI_DIS.pdf.jpgengPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilEscola PolitécnicaDeep LearningObject DetectionYOLOv3Model CompressionPruningKnowledge DistillationNeural Architecture SearchEfficient ConvolutionAprendizado ProfundoDetecção de ObjetosYOLOv3Compressão de ModelosPodaDestilação de ConhecimentoPesquisa por Arquiteturas NeuraisConvoluções EficientesCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOConvolutional neural networks compression for object detectionCompressão de redes neurais convolucionais para detecção de objetosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisTrabalho não apresenta restrição para publicação-4570527706994352458500500-862078257083325301info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILANDREY AGUIAR DE SALVI_DIS.pdf.jpgANDREY AGUIAR DE SALVI_DIS.pdf.jpgimage/jpeg4830http://tede2.pucrs.br/tede2/bitstream/tede/9890/4/ANDREY+AGUIAR+DE+SALVI_DIS.pdf.jpgf317a4daec17e142c7289e68f0fe15baMD54TEXTANDREY AGUIAR DE SALVI_DIS.pdf.txtANDREY AGUIAR DE SALVI_DIS.pdf.txttext/plain185580http://tede2.pucrs.br/tede2/bitstream/tede/9890/3/ANDREY+AGUIAR+DE+SALVI_DIS.pdf.txtb00de07d3671730d8daae972c8bbb6d0MD53ORIGINALANDREY AGUIAR DE SALVI_DIS.pdfANDREY AGUIAR DE SALVI_DIS.pdfapplication/pdf15102739http://tede2.pucrs.br/tede2/bitstream/tede/9890/2/ANDREY+AGUIAR+DE+SALVI_DIS.pdfdef4da680a81b904d8d7a1aa648cc465MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-8590http://tede2.pucrs.br/tede2/bitstream/tede/9890/1/license.txt220e11f2d3ba5354f917c7035aadef24MD51tede/98902021-09-28 12:00:23.791oai:tede2.pucrs.br:tede/9890QXV0b3JpemE/P28gcGFyYSBQdWJsaWNhPz9vIEVsZXRyP25pY2E6IENvbSBiYXNlIG5vIGRpc3Bvc3RvIG5hIExlaSBGZWRlcmFsIG4/OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYT8/byBlbGV0cj9uaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWY/Y2lhIFVuaXZlcnNpZGFkZSBDYXQ/bGljYSBkbyBSaW8gR3JhbmRlIGRvIFN1bCwgc2VkaWFkYSBhIEF2LiBJcGlyYW5nYSA2NjgxLCBQb3J0byBBbGVncmUsIFJpbyBHcmFuZGUgZG8gU3VsLCBjb20gcmVnaXN0cm8gZGUgQ05QSiA4ODYzMDQxMzAwMDItODEgYmVtIGNvbW8gZW0gb3V0cmFzIGJpYmxpb3RlY2FzIGRpZ2l0YWlzLCBuYWNpb25haXMgZSBpbnRlcm5hY2lvbmFpcywgY29ucz9yY2lvcyBlIHJlZGVzID9zIHF1YWlzIGEgYmlibGlvdGVjYSBkYSBQVUNSUyBwb3NzYSBhIHZpciBwYXJ0aWNpcGFyLCBzZW0gP251cyBhbHVzaXZvIGFvcyBkaXJlaXRvcyBhdXRvcmFpcywgYSB0P3R1bG8gZGUgZGl2dWxnYT8/byBkYSBwcm9kdT8/byBjaWVudD9maWNhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2021-09-28T15:00:23Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.por.fl_str_mv Convolutional neural networks compression for object detection
dc.title.alternative.por.fl_str_mv Compressão de redes neurais convolucionais para detecção de objetos
title Convolutional neural networks compression for object detection
spellingShingle Convolutional neural networks compression for object detection
Salvi, Andrey de Aguiar
Deep Learning
Object Detection
YOLOv3
Model Compression
Pruning
Knowledge Distillation
Neural Architecture Search
Efficient Convolution
Aprendizado Profundo
Detecção de Objetos
YOLOv3
Compressão de Modelos
Poda
Destilação de Conhecimento
Pesquisa por Arquiteturas Neurais
Convoluções Eficientes
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
title_short Convolutional neural networks compression for object detection
title_full Convolutional neural networks compression for object detection
title_fullStr Convolutional neural networks compression for object detection
title_full_unstemmed Convolutional neural networks compression for object detection
title_sort Convolutional neural networks compression for object detection
author Salvi, Andrey de Aguiar
author_facet Salvi, Andrey de Aguiar
author_role author
dc.contributor.advisor1.fl_str_mv Barros, Rodrigo Coelho
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/8172124241767828
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/3810506981901874
dc.contributor.author.fl_str_mv Salvi, Andrey de Aguiar
contributor_str_mv Barros, Rodrigo Coelho
dc.subject.eng.fl_str_mv Deep Learning
Object Detection
YOLOv3
Model Compression
Pruning
Knowledge Distillation
Neural Architecture Search
Efficient Convolution
topic Deep Learning
Object Detection
YOLOv3
Model Compression
Pruning
Knowledge Distillation
Neural Architecture Search
Efficient Convolution
Aprendizado Profundo
Detecção de Objetos
YOLOv3
Compressão de Modelos
Poda
Destilação de Conhecimento
Pesquisa por Arquiteturas Neurais
Convoluções Eficientes
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
dc.subject.por.fl_str_mv Aprendizado Profundo
Detecção de Objetos
YOLOv3
Compressão de Modelos
Poda
Destilação de Conhecimento
Pesquisa por Arquiteturas Neurais
Convoluções Eficientes
dc.subject.cnpq.fl_str_mv CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
description Aprendizado Profundo é o estado da arte em tarefas de Visão Computacional, tais como Classificação de Imagens, Detecção de Objetos, Segmentação de Instâncias, Geração de Conteúdo, entre outros. Ao longo do tempo, os modelos se tornaram maiores, mais profundos, e de maior acurácia, mas também super-parametrizados, pesados e lentos, dificultando o uso de tais modelos em automação de processos em dispositivos limitados, com poder de processamento reduzido, memória, ou energia. Consequentemente, a Compressão de Modelos emergiu na literatura para reduzir o tamanho do modelo e o custo de processamento o máximo possível, impactando o mínimo possível na performance do modelo na tarefa alvo. Embora existam muitos estudos de compressão de modelos na literatura versando sobre diferentes abordagens, existem poucos estudos trazendo comparações práticas entre diferentes abordagens, e nenhum deles com o foco em Detecção de Objetos. Portanto, este trabalho contribui à literatura ao comparar e explorar os trade-offs existentes entre Pruning, Knowledge Distillation (KD), Neural Architecture Search (NAS), e uma reconstrução de modelo baseada em convoluções eficientes. Para alcançar tal objetivo, modelos baseados na YOLOv3 foram treinados com a mesma estratégia de data-augmentation em dois conjuntos de dados, PASCAL VOC e Exclusively Dark Images, e avaliados de acordo com Mean Average Precision, número de parâmetros, tamanho de armazenamento, e Multiply-Accumulate Operation (MAC). Os resultados mostram que um Pruning mais agressivo foi capaz de gerar o melhor trade-off, onde o seu mAP ultrapassou a abordagem de NAS + KD, além de produzir um modelo com o menor número de parâmetros e com a maior redução efetiva em MACs.
publishDate 2021
dc.date.accessioned.fl_str_mv 2021-09-28T13:16:38Z
dc.date.issued.fl_str_mv 2021-03-22
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://tede2.pucrs.br/tede2/handle/tede/9890
url http://tede2.pucrs.br/tede2/handle/tede/9890
dc.language.iso.fl_str_mv eng
language eng
dc.relation.program.fl_str_mv -4570527706994352458
dc.relation.confidence.fl_str_mv 500
500
dc.relation.cnpq.fl_str_mv -862078257083325301
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv PUCRS
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola Politécnica
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
bitstream.url.fl_str_mv http://tede2.pucrs.br/tede2/bitstream/tede/9890/4/ANDREY+AGUIAR+DE+SALVI_DIS.pdf.jpg
http://tede2.pucrs.br/tede2/bitstream/tede/9890/3/ANDREY+AGUIAR+DE+SALVI_DIS.pdf.txt
http://tede2.pucrs.br/tede2/bitstream/tede/9890/2/ANDREY+AGUIAR+DE+SALVI_DIS.pdf
http://tede2.pucrs.br/tede2/bitstream/tede/9890/1/license.txt
bitstream.checksum.fl_str_mv f317a4daec17e142c7289e68f0fe15ba
b00de07d3671730d8daae972c8bbb6d0
def4da680a81b904d8d7a1aa648cc465
220e11f2d3ba5354f917c7035aadef24
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1799765526415671296