Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais.

Pereira, Pedro Henrique

Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais.

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Pereira, Pedro Henrique
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Biblioteca Digitais de Teses e Dissertacoes da USP Universidade de São Paulo Escola Politécnica
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Aprendizado computacional Aprendizagem profunda Quantização Destilação de dados Poda Pruning Machine learning Deep learning Data distillation Quantization
Link de acesso:	https://teses.usp.br/teses/disponiveis/3/3142/tde-29042026-080427/
Resumo:	O reconhecimento de palavras-chave (Keyword Spotting System - KWS), ou palavras isoladas, tem sido objeto de pesquisa nos últimos anos, dada a crescente popularidade de sistemas embarcados para o reconhecimento de comandos de voz, como o Alexa da Amazon, Google Home, Siri da Apple, entre outros. O desempenho e o tempo de processamento são considerações cruciais nessas aplicações, especialmente em dispositivos com recursos limitados. Neste contexto, este trabalho propõe uma abordagem para o reconhecimento de palavras-chave utilizando modelos de aprendizagem profunda, explorando dois escopos distintos. A primeira etapa deste estudo concentra-se na avaliação de redes neurais profundas para classificar áudios em ambientes ruidosos, explorando as técnicas de poda e quantização em arquiteturas de redes neurais já treinadas. Essas técnicas visam aprimorar o desempenho computacional, reduzindo tanto o tempo de inferência quanto o tamanho dos modelos, sem comprometer a qualidade das previsões. Demonstrou-se a eficácia dessas abordagens ao alcançar uma acurácia de 94,6% com 80% dos pesos podados na arquitetura SquezeeNet. Além disso, a quantização dos pesos resultou em uma melhoria de 66% no tempo de inferência. Esses resultados indicam avanços significativos, com métricas de desempenho comparáveis aos modelos originais, ressaltando a viabilidade dessa estratégia para implementações em sistemas embarcados. Na segunda etapa, a pesquisa explora a técnica de destilação de dados (dataset distillation) com o método de trajetória de gradientes. Essa abordagem tem como objetivo reduzir o conjunto original de treinamento para um subconjunto menor, buscando simplificar o processo de treinamento de novos modelos. O conjunto de dados destilado retém informações-chave, ajudando o modelo a generalizar de forma eficaz, ao mesmo tempo em que pode reduzir a complexidade computacional e o tempo de treinamento. Os resultados apresentam evidências promissoras quanto à utilização de conjuntos de dados menores, no entanto, observaram-se desafios significativos em termos de generalização. Foi possível obter um conjunto de dados destilados de 30 exemplos por classe com a rede ConvNet, os quais atingiram 78% de acurácia ao serem treinados com a arquitetura AlexNet, representando um aumento de 18% em relação ao treinamento de 30 amostras aleatórias do conjunto original de dados nas mesmas condições das redes neurais. Entretanto, esse comportamento não convergiu para arquiteturas mais complexas, como é o caso da arquitetura DenseNet. Os resultados sugerem que a técnica de dataset distillation, embora apresente potencial para facilitar o treinamento em conjuntos de dados reduzidos, demanda uma análise mais aprofundada para superar as dificuldades de generalização.

Metadados do item

id	USP_2d3d9cec71fbbaba4e53cbd9c700de0f
oai_identifier_str	oai:teses.usp.br:tde-29042026-080427
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling	Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais.Untitled in englishAprendizado computacionalAprendizagem profundaQuantizaçãoDestilação de dadosPodaPruningMachine learningDeep learningData distillationQuantizationO reconhecimento de palavras-chave (Keyword Spotting System - KWS), ou palavras isoladas, tem sido objeto de pesquisa nos últimos anos, dada a crescente popularidade de sistemas embarcados para o reconhecimento de comandos de voz, como o Alexa da Amazon, Google Home, Siri da Apple, entre outros. O desempenho e o tempo de processamento são considerações cruciais nessas aplicações, especialmente em dispositivos com recursos limitados. Neste contexto, este trabalho propõe uma abordagem para o reconhecimento de palavras-chave utilizando modelos de aprendizagem profunda, explorando dois escopos distintos. A primeira etapa deste estudo concentra-se na avaliação de redes neurais profundas para classificar áudios em ambientes ruidosos, explorando as técnicas de poda e quantização em arquiteturas de redes neurais já treinadas. Essas técnicas visam aprimorar o desempenho computacional, reduzindo tanto o tempo de inferência quanto o tamanho dos modelos, sem comprometer a qualidade das previsões. Demonstrou-se a eficácia dessas abordagens ao alcançar uma acurácia de 94,6% com 80% dos pesos podados na arquitetura SquezeeNet. Além disso, a quantização dos pesos resultou em uma melhoria de 66% no tempo de inferência. Esses resultados indicam avanços significativos, com métricas de desempenho comparáveis aos modelos originais, ressaltando a viabilidade dessa estratégia para implementações em sistemas embarcados. Na segunda etapa, a pesquisa explora a técnica de destilação de dados (dataset distillation) com o método de trajetória de gradientes. Essa abordagem tem como objetivo reduzir o conjunto original de treinamento para um subconjunto menor, buscando simplificar o processo de treinamento de novos modelos. O conjunto de dados destilado retém informações-chave, ajudando o modelo a generalizar de forma eficaz, ao mesmo tempo em que pode reduzir a complexidade computacional e o tempo de treinamento. Os resultados apresentam evidências promissoras quanto à utilização de conjuntos de dados menores, no entanto, observaram-se desafios significativos em termos de generalização. Foi possível obter um conjunto de dados destilados de 30 exemplos por classe com a rede ConvNet, os quais atingiram 78% de acurácia ao serem treinados com a arquitetura AlexNet, representando um aumento de 18% em relação ao treinamento de 30 amostras aleatórias do conjunto original de dados nas mesmas condições das redes neurais. Entretanto, esse comportamento não convergiu para arquiteturas mais complexas, como é o caso da arquitetura DenseNet. Os resultados sugerem que a técnica de dataset distillation, embora apresente potencial para facilitar o treinamento em conjuntos de dados reduzidos, demanda uma análise mais aprofundada para superar as dificuldades de generalização.Keyword Spotting System (KWS) has been the subject of research in recent years, given the growing popularity of embedded systems for voice command recognition, such as Amazons Alexa, Google Home, Apples Siri, among others. Performance and processing time are crucial considerations in these applications, especially in devices with limited resources. This work proposes an approach to keyword recognition using deep learning models, exploring two distinct scopes. The first stage of this study focuses on evaluating deep neural networks to classify audio in noisy environments, exploring pruning and quantization techniques in pre-trained neural network architectures. These techniques aim to enhance computational performance by reducing both inference time and model size without compromising prediction metrics. The effectiveness of these approaches was demonstrated by achieving an accuracy of 94.6% with 80% of pruned weights in the SqueezeNet architecture. Additionally, the quantization process resulted in a 66% reduction in inference time. These results indicate significant advancements, with performance metrics comparable to the original models, highlighting the feasibility of this strategy for embedded systems applications. In the second stage, the research explores the technique of dataset distillation with the gradient trajectory method. This approach aims to reduce the original training set to a smaller subset, seeking to simplify the training process of models. The distilled dataset retains key information, helping the model to generalize effectively while potentially reducing computational complexity and training time. The results present promising evidence regarding the use of smaller datasets; however, significant challenges were observed in terms of generalization. It was possible to obtain a distilled dataset of 30 instances per class with the ConvNet, which achieved 78% accuracy when trained with the AlexNet architecture, representing an 18% increase compared to training with 30 random samples from the original dataset under the same neural network conditions. However, this behavior did not converge for more complex architectures such as the DenseNet architecture. The trajectory similarity-based dataset distillation technique, while showing potential to facilitate training on reduced datasets, requires further analysis to overcome generalization difficulties.Biblioteca Digitais de Teses e Dissertacoes da USPUniversidade de São PauloEscola PolitécnicaBeccaro, WesleyRamirez, Miguel ArjonaPereira, Pedro Henrique2024-07-042026-04-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://teses.usp.br/teses/disponiveis/3/3142/tde-29042026-080427/doi:10.11606/D.3.2024.tde-29042026-080427Liberar o conteúdo para acesso público.info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USP2026-04-29T14:03:40Zoai:teses.usp.br:tde-29042026-080427Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212026-04-29T14:03:40Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais. Untitled in english
title	Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais.
spellingShingle	Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais. Pereira, Pedro Henrique Aprendizado computacional Aprendizagem profunda Quantização Destilação de dados Poda Pruning Machine learning Deep learning Data distillation Quantization
title_short	Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais.
title_full	Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais.
title_fullStr	Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais.
title_full_unstemmed	Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais.
title_sort	Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais.
author	Pereira, Pedro Henrique
author_facet	Pereira, Pedro Henrique
author_role	author
dc.contributor.none.fl_str_mv	Beccaro, Wesley Ramirez, Miguel Arjona
dc.contributor.author.fl_str_mv	Pereira, Pedro Henrique
dc.subject.por.fl_str_mv	Aprendizado computacional Aprendizagem profunda Quantização Destilação de dados Poda Pruning Machine learning Deep learning Data distillation Quantization
topic	Aprendizado computacional Aprendizagem profunda Quantização Destilação de dados Poda Pruning Machine learning Deep learning Data distillation Quantization
description	O reconhecimento de palavras-chave (Keyword Spotting System - KWS), ou palavras isoladas, tem sido objeto de pesquisa nos últimos anos, dada a crescente popularidade de sistemas embarcados para o reconhecimento de comandos de voz, como o Alexa da Amazon, Google Home, Siri da Apple, entre outros. O desempenho e o tempo de processamento são considerações cruciais nessas aplicações, especialmente em dispositivos com recursos limitados. Neste contexto, este trabalho propõe uma abordagem para o reconhecimento de palavras-chave utilizando modelos de aprendizagem profunda, explorando dois escopos distintos. A primeira etapa deste estudo concentra-se na avaliação de redes neurais profundas para classificar áudios em ambientes ruidosos, explorando as técnicas de poda e quantização em arquiteturas de redes neurais já treinadas. Essas técnicas visam aprimorar o desempenho computacional, reduzindo tanto o tempo de inferência quanto o tamanho dos modelos, sem comprometer a qualidade das previsões. Demonstrou-se a eficácia dessas abordagens ao alcançar uma acurácia de 94,6% com 80% dos pesos podados na arquitetura SquezeeNet. Além disso, a quantização dos pesos resultou em uma melhoria de 66% no tempo de inferência. Esses resultados indicam avanços significativos, com métricas de desempenho comparáveis aos modelos originais, ressaltando a viabilidade dessa estratégia para implementações em sistemas embarcados. Na segunda etapa, a pesquisa explora a técnica de destilação de dados (dataset distillation) com o método de trajetória de gradientes. Essa abordagem tem como objetivo reduzir o conjunto original de treinamento para um subconjunto menor, buscando simplificar o processo de treinamento de novos modelos. O conjunto de dados destilado retém informações-chave, ajudando o modelo a generalizar de forma eficaz, ao mesmo tempo em que pode reduzir a complexidade computacional e o tempo de treinamento. Os resultados apresentam evidências promissoras quanto à utilização de conjuntos de dados menores, no entanto, observaram-se desafios significativos em termos de generalização. Foi possível obter um conjunto de dados destilados de 30 exemplos por classe com a rede ConvNet, os quais atingiram 78% de acurácia ao serem treinados com a arquitetura AlexNet, representando um aumento de 18% em relação ao treinamento de 30 amostras aleatórias do conjunto original de dados nas mesmas condições das redes neurais. Entretanto, esse comportamento não convergiu para arquiteturas mais complexas, como é o caso da arquitetura DenseNet. Os resultados sugerem que a técnica de dataset distillation, embora apresente potencial para facilitar o treinamento em conjuntos de dados reduzidos, demanda uma análise mais aprofundada para superar as dificuldades de generalização.
publishDate	2024
dc.date.none.fl_str_mv	2024-07-04 2026-04-29
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://teses.usp.br/teses/disponiveis/3/3142/tde-29042026-080427/ doi:10.11606/D.3.2024.tde-29042026-080427
url	https://teses.usp.br/teses/disponiveis/3/3142/tde-29042026-080427/
identifier_str_mv	doi:10.11606/D.3.2024.tde-29042026-080427
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertacoes da USP Universidade de São Paulo Escola Politécnica
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertacoes da USP Universidade de São Paulo Escola Politécnica
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1865492701666869248

Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais.

Registros relacionados