Classificação baseada em espaços de camadas convolucionais de redes CNNs densas.
| Ano de defesa: | 2022 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/3/3142/tde-04052023-091217/ |
Resumo: | Muitos sistemas utilizados em tarefas de classificação de imagens utilizam-se de redes neurais convolucionais profundas. Contudo, é requerida a utilização de plataformas de alto poder computacional para treinar e utilizar estes algoritmos. Buscando reduzir os esforços computacionais e acelerar o processamento desses algorítmos, tem sido apresentadas na literatura muitas técnicas de redução de tamanho de arquiteturas de redes neurais convolucionais profundas. Apesar dos grandes esforços e avanços neste caminho, os métodos atuais necessitam de constantes retreinamentos e são iterativos, muitas vezes não alcançando os resultados de forma satisfatória, sendo necessário o desenvolvimento de novos métodos. O objetivo deste trabalho, diferentemente dos métodos de redução mais difundidos, é extrair a capacidade de classificação de grandes arquiteturas de redes neurais convolucionais profundas de forma otimizada e utiliza-la para realizar classificações de forma acelerada. Este trabalho apresenta uma abordagem baseada em um espaço de características multilinear que se utiliza do conhecimento extraído de grandes arquiteturas de redes neurais convolucionais profundas. A metodologia proposta utiliza a rede VGG-16 para geração de mapas de características. Quando o processo de treinamento da rede termina, os mapas de características gerados pelos kernels são utilizados para encontrar um novo espaço de características. Os espaços são utilizados para projetar novas amostras e as classificar utilizando classificadores de baixa complexidade, sendo que tanto a arquitetura VGG-16, quanto seus respectivos pesos são descartados após o término de todos os processos. Esta abordagem dispensa a necessidade de podar ou retreinar arquiteturas profundas para classificar uma nova amostra, algo que a torna única. O novo método reduz significativamente o tempo geral de classificação comparado à rede VGG-16, apresentando mínimas perdas de acurácia comparadas ao desempenho da rede. Os experimentos para testar a eficácia do método foram realizados utilizando-se os bancos de imagens Vehicle Image Database e o conjunto de imagens German Traffic Sign Recognition Benchmark. Os resultados da aplicação da metodologia proposta alcançaram a aceleração do tempo de classificação para todos os conjuntos de imagens. No conjunto de imagens Vehicle Image Database, a rede VGG-16 atingiu acurácia de 98,8% enquanto a metodologia proposta acelerou o tempo de classificação em 16,9 vezes, atingindo acurácia de 97,73%. No conjunto de imagens German Traffic Sign Recognition Benchmark a rede VGG-16 atingiu acurácia de 98.6% enquanto a metodologia proposta atingiu 97,84% com aceleração de 16,8 vezes. Embora os resultados alcançados sejam promissores, o método necessita de alta ocupação de memória para a extração de autovetores e vetores média. |
| id |
USP_18240c8b7ce2a5499536004e185ed000 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-04052023-091217 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Classificação baseada em espaços de camadas convolucionais de redes CNNs densas.A multilinear CNN layer space approach for classification task.Advanced driver-assistance systemAnálise de componentes principaisDeep convolutional neural networksPrincipal components analysisRedes neurais convolucionais profundasSistema avançado de assistência à direçãoMuitos sistemas utilizados em tarefas de classificação de imagens utilizam-se de redes neurais convolucionais profundas. Contudo, é requerida a utilização de plataformas de alto poder computacional para treinar e utilizar estes algoritmos. Buscando reduzir os esforços computacionais e acelerar o processamento desses algorítmos, tem sido apresentadas na literatura muitas técnicas de redução de tamanho de arquiteturas de redes neurais convolucionais profundas. Apesar dos grandes esforços e avanços neste caminho, os métodos atuais necessitam de constantes retreinamentos e são iterativos, muitas vezes não alcançando os resultados de forma satisfatória, sendo necessário o desenvolvimento de novos métodos. O objetivo deste trabalho, diferentemente dos métodos de redução mais difundidos, é extrair a capacidade de classificação de grandes arquiteturas de redes neurais convolucionais profundas de forma otimizada e utiliza-la para realizar classificações de forma acelerada. Este trabalho apresenta uma abordagem baseada em um espaço de características multilinear que se utiliza do conhecimento extraído de grandes arquiteturas de redes neurais convolucionais profundas. A metodologia proposta utiliza a rede VGG-16 para geração de mapas de características. Quando o processo de treinamento da rede termina, os mapas de características gerados pelos kernels são utilizados para encontrar um novo espaço de características. Os espaços são utilizados para projetar novas amostras e as classificar utilizando classificadores de baixa complexidade, sendo que tanto a arquitetura VGG-16, quanto seus respectivos pesos são descartados após o término de todos os processos. Esta abordagem dispensa a necessidade de podar ou retreinar arquiteturas profundas para classificar uma nova amostra, algo que a torna única. O novo método reduz significativamente o tempo geral de classificação comparado à rede VGG-16, apresentando mínimas perdas de acurácia comparadas ao desempenho da rede. Os experimentos para testar a eficácia do método foram realizados utilizando-se os bancos de imagens Vehicle Image Database e o conjunto de imagens German Traffic Sign Recognition Benchmark. Os resultados da aplicação da metodologia proposta alcançaram a aceleração do tempo de classificação para todos os conjuntos de imagens. No conjunto de imagens Vehicle Image Database, a rede VGG-16 atingiu acurácia de 98,8% enquanto a metodologia proposta acelerou o tempo de classificação em 16,9 vezes, atingindo acurácia de 97,73%. No conjunto de imagens German Traffic Sign Recognition Benchmark a rede VGG-16 atingiu acurácia de 98.6% enquanto a metodologia proposta atingiu 97,84% com aceleração de 16,8 vezes. Embora os resultados alcançados sejam promissores, o método necessita de alta ocupação de memória para a extração de autovetores e vetores média.The Deep Convolutional Neural Networks are the basis of most image classification systems. However, demanding high computational costs. To improve this drawback, network reduction techniques are proposed. Although the evolution of reduction methods, the iterative and retraining processes turns the application slow and unfeasible. Different from the well-known reduction techniques, our proposed method extract and translate the knowledge of the trained VGG-16 model on a low-dimensional feature space. This space is used to accelerate the classification time. This work presents an alternative approach based on the Multilinear Feature Space (MFS) method to utilize the knowledge of VGG-16 architecture. When the VGG-16 training process end, we use the feature maps generated by the adjusted kernels to encounter the feature space. We use these spaces to make projections of new samples and classify them with low dimensionality classifiers. The VGG-16 architecture and its weights are left aside when all processes end. Unlike some reduction methods found in the literature, our approach uses feature maps to extract kernel knowledge. The proposed framework dispenses the necessity of retraining or pruning dense architectures to classify new image samples, which turns this approach unique. The proposed method significantly reduces overall the time of classification compared with VGG-16 architecture, with minimal loss in the classification accuracy. For the experiments we use the well-known Vehicle Image Database and the German Traffic Sign Recognition Benchmark. The experiments with the proposed method achieved a speedup of the classification time for all databases with a minimal loss compared with the VGG-16 model. In the Vehicle Image Database, the VGG-16 model achieved 98.8% while the proposed method was 16,9 times faster and achieved 97.3% of accuracy. In the German Traffic Sign Recognition Benchmark, using four classes, the VGG-16 model achieved 98.6% overall accuracy while the proposed method reached 97.84% with 16.8 times of speed up. As mentioned early, the proposed method achieved high speed up with a minimal loss. However, the method is limited when the used databases have a high number of samples.Biblioteca Digitais de Teses e Dissertações da USPYoshioka, Leopoldo RidekiVinagreiro, Michel Andre Lima2022-10-07info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-04052023-091217/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-05-04T18:26:03Zoai:teses.usp.br:tde-04052023-091217Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-05-04T18:26:03Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Classificação baseada em espaços de camadas convolucionais de redes CNNs densas. A multilinear CNN layer space approach for classification task. |
| title |
Classificação baseada em espaços de camadas convolucionais de redes CNNs densas. |
| spellingShingle |
Classificação baseada em espaços de camadas convolucionais de redes CNNs densas. Vinagreiro, Michel Andre Lima Advanced driver-assistance system Análise de componentes principais Deep convolutional neural networks Principal components analysis Redes neurais convolucionais profundas Sistema avançado de assistência à direção |
| title_short |
Classificação baseada em espaços de camadas convolucionais de redes CNNs densas. |
| title_full |
Classificação baseada em espaços de camadas convolucionais de redes CNNs densas. |
| title_fullStr |
Classificação baseada em espaços de camadas convolucionais de redes CNNs densas. |
| title_full_unstemmed |
Classificação baseada em espaços de camadas convolucionais de redes CNNs densas. |
| title_sort |
Classificação baseada em espaços de camadas convolucionais de redes CNNs densas. |
| author |
Vinagreiro, Michel Andre Lima |
| author_facet |
Vinagreiro, Michel Andre Lima |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Yoshioka, Leopoldo Rideki |
| dc.contributor.author.fl_str_mv |
Vinagreiro, Michel Andre Lima |
| dc.subject.por.fl_str_mv |
Advanced driver-assistance system Análise de componentes principais Deep convolutional neural networks Principal components analysis Redes neurais convolucionais profundas Sistema avançado de assistência à direção |
| topic |
Advanced driver-assistance system Análise de componentes principais Deep convolutional neural networks Principal components analysis Redes neurais convolucionais profundas Sistema avançado de assistência à direção |
| description |
Muitos sistemas utilizados em tarefas de classificação de imagens utilizam-se de redes neurais convolucionais profundas. Contudo, é requerida a utilização de plataformas de alto poder computacional para treinar e utilizar estes algoritmos. Buscando reduzir os esforços computacionais e acelerar o processamento desses algorítmos, tem sido apresentadas na literatura muitas técnicas de redução de tamanho de arquiteturas de redes neurais convolucionais profundas. Apesar dos grandes esforços e avanços neste caminho, os métodos atuais necessitam de constantes retreinamentos e são iterativos, muitas vezes não alcançando os resultados de forma satisfatória, sendo necessário o desenvolvimento de novos métodos. O objetivo deste trabalho, diferentemente dos métodos de redução mais difundidos, é extrair a capacidade de classificação de grandes arquiteturas de redes neurais convolucionais profundas de forma otimizada e utiliza-la para realizar classificações de forma acelerada. Este trabalho apresenta uma abordagem baseada em um espaço de características multilinear que se utiliza do conhecimento extraído de grandes arquiteturas de redes neurais convolucionais profundas. A metodologia proposta utiliza a rede VGG-16 para geração de mapas de características. Quando o processo de treinamento da rede termina, os mapas de características gerados pelos kernels são utilizados para encontrar um novo espaço de características. Os espaços são utilizados para projetar novas amostras e as classificar utilizando classificadores de baixa complexidade, sendo que tanto a arquitetura VGG-16, quanto seus respectivos pesos são descartados após o término de todos os processos. Esta abordagem dispensa a necessidade de podar ou retreinar arquiteturas profundas para classificar uma nova amostra, algo que a torna única. O novo método reduz significativamente o tempo geral de classificação comparado à rede VGG-16, apresentando mínimas perdas de acurácia comparadas ao desempenho da rede. Os experimentos para testar a eficácia do método foram realizados utilizando-se os bancos de imagens Vehicle Image Database e o conjunto de imagens German Traffic Sign Recognition Benchmark. Os resultados da aplicação da metodologia proposta alcançaram a aceleração do tempo de classificação para todos os conjuntos de imagens. No conjunto de imagens Vehicle Image Database, a rede VGG-16 atingiu acurácia de 98,8% enquanto a metodologia proposta acelerou o tempo de classificação em 16,9 vezes, atingindo acurácia de 97,73%. No conjunto de imagens German Traffic Sign Recognition Benchmark a rede VGG-16 atingiu acurácia de 98.6% enquanto a metodologia proposta atingiu 97,84% com aceleração de 16,8 vezes. Embora os resultados alcançados sejam promissores, o método necessita de alta ocupação de memória para a extração de autovetores e vetores média. |
| publishDate |
2022 |
| dc.date.none.fl_str_mv |
2022-10-07 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-04052023-091217/ |
| url |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-04052023-091217/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1865490860990267392 |