Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais.
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertacoes da USP
Universidade de São Paulo Escola Politécnica |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://teses.usp.br/teses/disponiveis/3/3142/tde-29042026-080427/ |
Resumo: | O reconhecimento de palavras-chave (Keyword Spotting System - KWS), ou palavras isoladas, tem sido objeto de pesquisa nos últimos anos, dada a crescente popularidade de sistemas embarcados para o reconhecimento de comandos de voz, como o Alexa da Amazon, Google Home, Siri da Apple, entre outros. O desempenho e o tempo de processamento são considerações cruciais nessas aplicações, especialmente em dispositivos com recursos limitados. Neste contexto, este trabalho propõe uma abordagem para o reconhecimento de palavras-chave utilizando modelos de aprendizagem profunda, explorando dois escopos distintos. A primeira etapa deste estudo concentra-se na avaliação de redes neurais profundas para classificar áudios em ambientes ruidosos, explorando as técnicas de poda e quantização em arquiteturas de redes neurais já treinadas. Essas técnicas visam aprimorar o desempenho computacional, reduzindo tanto o tempo de inferência quanto o tamanho dos modelos, sem comprometer a qualidade das previsões. Demonstrou-se a eficácia dessas abordagens ao alcançar uma acurácia de 94,6% com 80% dos pesos podados na arquitetura SquezeeNet. Além disso, a quantização dos pesos resultou em uma melhoria de 66% no tempo de inferência. Esses resultados indicam avanços significativos, com métricas de desempenho comparáveis aos modelos originais, ressaltando a viabilidade dessa estratégia para implementações em sistemas embarcados. Na segunda etapa, a pesquisa explora a técnica de destilação de dados (dataset distillation) com o método de trajetória de gradientes. Essa abordagem tem como objetivo reduzir o conjunto original de treinamento para um subconjunto menor, buscando simplificar o processo de treinamento de novos modelos. O conjunto de dados destilado retém informações-chave, ajudando o modelo a generalizar de forma eficaz, ao mesmo tempo em que pode reduzir a complexidade computacional e o tempo de treinamento. Os resultados apresentam evidências promissoras quanto à utilização de conjuntos de dados menores, no entanto, observaram-se desafios significativos em termos de generalização. Foi possível obter um conjunto de dados destilados de 30 exemplos por classe com a rede ConvNet, os quais atingiram 78% de acurácia ao serem treinados com a arquitetura AlexNet, representando um aumento de 18% em relação ao treinamento de 30 amostras aleatórias do conjunto original de dados nas mesmas condições das redes neurais. Entretanto, esse comportamento não convergiu para arquiteturas mais complexas, como é o caso da arquitetura DenseNet. Os resultados sugerem que a técnica de dataset distillation, embora apresente potencial para facilitar o treinamento em conjuntos de dados reduzidos, demanda uma análise mais aprofundada para superar as dificuldades de generalização. |
| id |
USP_2d3d9cec71fbbaba4e53cbd9c700de0f |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-29042026-080427 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais.Untitled in englishAprendizado computacionalAprendizagem profundaQuantizaçãoDestilação de dadosPodaPruningMachine learningDeep learningData distillationQuantizationO reconhecimento de palavras-chave (Keyword Spotting System - KWS), ou palavras isoladas, tem sido objeto de pesquisa nos últimos anos, dada a crescente popularidade de sistemas embarcados para o reconhecimento de comandos de voz, como o Alexa da Amazon, Google Home, Siri da Apple, entre outros. O desempenho e o tempo de processamento são considerações cruciais nessas aplicações, especialmente em dispositivos com recursos limitados. Neste contexto, este trabalho propõe uma abordagem para o reconhecimento de palavras-chave utilizando modelos de aprendizagem profunda, explorando dois escopos distintos. A primeira etapa deste estudo concentra-se na avaliação de redes neurais profundas para classificar áudios em ambientes ruidosos, explorando as técnicas de poda e quantização em arquiteturas de redes neurais já treinadas. Essas técnicas visam aprimorar o desempenho computacional, reduzindo tanto o tempo de inferência quanto o tamanho dos modelos, sem comprometer a qualidade das previsões. Demonstrou-se a eficácia dessas abordagens ao alcançar uma acurácia de 94,6% com 80% dos pesos podados na arquitetura SquezeeNet. Além disso, a quantização dos pesos resultou em uma melhoria de 66% no tempo de inferência. Esses resultados indicam avanços significativos, com métricas de desempenho comparáveis aos modelos originais, ressaltando a viabilidade dessa estratégia para implementações em sistemas embarcados. Na segunda etapa, a pesquisa explora a técnica de destilação de dados (dataset distillation) com o método de trajetória de gradientes. Essa abordagem tem como objetivo reduzir o conjunto original de treinamento para um subconjunto menor, buscando simplificar o processo de treinamento de novos modelos. O conjunto de dados destilado retém informações-chave, ajudando o modelo a generalizar de forma eficaz, ao mesmo tempo em que pode reduzir a complexidade computacional e o tempo de treinamento. Os resultados apresentam evidências promissoras quanto à utilização de conjuntos de dados menores, no entanto, observaram-se desafios significativos em termos de generalização. Foi possível obter um conjunto de dados destilados de 30 exemplos por classe com a rede ConvNet, os quais atingiram 78% de acurácia ao serem treinados com a arquitetura AlexNet, representando um aumento de 18% em relação ao treinamento de 30 amostras aleatórias do conjunto original de dados nas mesmas condições das redes neurais. Entretanto, esse comportamento não convergiu para arquiteturas mais complexas, como é o caso da arquitetura DenseNet. Os resultados sugerem que a técnica de dataset distillation, embora apresente potencial para facilitar o treinamento em conjuntos de dados reduzidos, demanda uma análise mais aprofundada para superar as dificuldades de generalização.Keyword Spotting System (KWS) has been the subject of research in recent years, given the growing popularity of embedded systems for voice command recognition, such as Amazons Alexa, Google Home, Apples Siri, among others. Performance and processing time are crucial considerations in these applications, especially in devices with limited resources. This work proposes an approach to keyword recognition using deep learning models, exploring two distinct scopes. The first stage of this study focuses on evaluating deep neural networks to classify audio in noisy environments, exploring pruning and quantization techniques in pre-trained neural network architectures. These techniques aim to enhance computational performance by reducing both inference time and model size without compromising prediction metrics. The effectiveness of these approaches was demonstrated by achieving an accuracy of 94.6% with 80% of pruned weights in the SqueezeNet architecture. Additionally, the quantization process resulted in a 66% reduction in inference time. These results indicate significant advancements, with performance metrics comparable to the original models, highlighting the feasibility of this strategy for embedded systems applications. In the second stage, the research explores the technique of dataset distillation with the gradient trajectory method. This approach aims to reduce the original training set to a smaller subset, seeking to simplify the training process of models. The distilled dataset retains key information, helping the model to generalize effectively while potentially reducing computational complexity and training time. The results present promising evidence regarding the use of smaller datasets; however, significant challenges were observed in terms of generalization. It was possible to obtain a distilled dataset of 30 instances per class with the ConvNet, which achieved 78% accuracy when trained with the AlexNet architecture, representing an 18% increase compared to training with 30 random samples from the original dataset under the same neural network conditions. However, this behavior did not converge for more complex architectures such as the DenseNet architecture. The trajectory similarity-based dataset distillation technique, while showing potential to facilitate training on reduced datasets, requires further analysis to overcome generalization difficulties.Biblioteca Digitais de Teses e Dissertacoes da USPUniversidade de São PauloEscola PolitécnicaBeccaro, WesleyRamirez, Miguel ArjonaPereira, Pedro Henrique2024-07-042026-04-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://teses.usp.br/teses/disponiveis/3/3142/tde-29042026-080427/doi:10.11606/D.3.2024.tde-29042026-080427Liberar o conteúdo para acesso público.info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USP2026-04-29T14:03:40Zoai:teses.usp.br:tde-29042026-080427Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212026-04-29T14:03:40Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais. Untitled in english |
| title |
Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais. |
| spellingShingle |
Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais. Pereira, Pedro Henrique Aprendizado computacional Aprendizagem profunda Quantização Destilação de dados Poda Pruning Machine learning Deep learning Data distillation Quantization |
| title_short |
Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais. |
| title_full |
Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais. |
| title_fullStr |
Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais. |
| title_full_unstemmed |
Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais. |
| title_sort |
Compressão de redes neurais profundas e estratégia de destilação de dados no contexto de representações tempo-frequenciais. |
| author |
Pereira, Pedro Henrique |
| author_facet |
Pereira, Pedro Henrique |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Beccaro, Wesley Ramirez, Miguel Arjona |
| dc.contributor.author.fl_str_mv |
Pereira, Pedro Henrique |
| dc.subject.por.fl_str_mv |
Aprendizado computacional Aprendizagem profunda Quantização Destilação de dados Poda Pruning Machine learning Deep learning Data distillation Quantization |
| topic |
Aprendizado computacional Aprendizagem profunda Quantização Destilação de dados Poda Pruning Machine learning Deep learning Data distillation Quantization |
| description |
O reconhecimento de palavras-chave (Keyword Spotting System - KWS), ou palavras isoladas, tem sido objeto de pesquisa nos últimos anos, dada a crescente popularidade de sistemas embarcados para o reconhecimento de comandos de voz, como o Alexa da Amazon, Google Home, Siri da Apple, entre outros. O desempenho e o tempo de processamento são considerações cruciais nessas aplicações, especialmente em dispositivos com recursos limitados. Neste contexto, este trabalho propõe uma abordagem para o reconhecimento de palavras-chave utilizando modelos de aprendizagem profunda, explorando dois escopos distintos. A primeira etapa deste estudo concentra-se na avaliação de redes neurais profundas para classificar áudios em ambientes ruidosos, explorando as técnicas de poda e quantização em arquiteturas de redes neurais já treinadas. Essas técnicas visam aprimorar o desempenho computacional, reduzindo tanto o tempo de inferência quanto o tamanho dos modelos, sem comprometer a qualidade das previsões. Demonstrou-se a eficácia dessas abordagens ao alcançar uma acurácia de 94,6% com 80% dos pesos podados na arquitetura SquezeeNet. Além disso, a quantização dos pesos resultou em uma melhoria de 66% no tempo de inferência. Esses resultados indicam avanços significativos, com métricas de desempenho comparáveis aos modelos originais, ressaltando a viabilidade dessa estratégia para implementações em sistemas embarcados. Na segunda etapa, a pesquisa explora a técnica de destilação de dados (dataset distillation) com o método de trajetória de gradientes. Essa abordagem tem como objetivo reduzir o conjunto original de treinamento para um subconjunto menor, buscando simplificar o processo de treinamento de novos modelos. O conjunto de dados destilado retém informações-chave, ajudando o modelo a generalizar de forma eficaz, ao mesmo tempo em que pode reduzir a complexidade computacional e o tempo de treinamento. Os resultados apresentam evidências promissoras quanto à utilização de conjuntos de dados menores, no entanto, observaram-se desafios significativos em termos de generalização. Foi possível obter um conjunto de dados destilados de 30 exemplos por classe com a rede ConvNet, os quais atingiram 78% de acurácia ao serem treinados com a arquitetura AlexNet, representando um aumento de 18% em relação ao treinamento de 30 amostras aleatórias do conjunto original de dados nas mesmas condições das redes neurais. Entretanto, esse comportamento não convergiu para arquiteturas mais complexas, como é o caso da arquitetura DenseNet. Os resultados sugerem que a técnica de dataset distillation, embora apresente potencial para facilitar o treinamento em conjuntos de dados reduzidos, demanda uma análise mais aprofundada para superar as dificuldades de generalização. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-07-04 2026-04-29 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://teses.usp.br/teses/disponiveis/3/3142/tde-29042026-080427/ doi:10.11606/D.3.2024.tde-29042026-080427 |
| url |
https://teses.usp.br/teses/disponiveis/3/3142/tde-29042026-080427/ |
| identifier_str_mv |
doi:10.11606/D.3.2024.tde-29042026-080427 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertacoes da USP Universidade de São Paulo Escola Politécnica |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertacoes da USP Universidade de São Paulo Escola Politécnica |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1865492701666869248 |