Reconhecimento de emoções em sinais de fala usando transferência de aprendizado

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Gomes Junior, Sergio Pinto
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade do Estado do Rio de Janeiro
Centro de Tecnologia e Ciências::Faculdade de Engenharia
BR
UERJ
Programa de Pós-Graduação em Engenharia Eletrônica
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.bdtd.uerj.br/handle/1/11760
Resumo: A fala tem se tornado um meio de interação entre o ser humano e os computadores cada vez mais importante. Visando tornar essa interação ainda mais natural, pesquisadores têm proposto diferentes sistemas de reconhecimento de emoções na fala. Na área de reconhecimento de emoções em sinais de fala, as redes neurais profundas vêm sendo foco de intensa investigação. Visto isso, neste trabalho foi avaliado o efeito da técnica de transferência de aprendizado e do aumento da base de dados na acurácia de uma rede neural convolucional residual para a predição de emoções, comparando-a com outras técnicas de classificação tais como: a ResNet sem pré-treino, o Modelo de Mistura de Gaussianas e a Rede Neural Probabilística. Para isto, foram utilizadas as amostras das classes Felicidade, Neutra, Raiva e Tristeza contidas nas bases de dados IEMOCAP e EmoDb visando o treino e teste dos sistemas propostos. Nos experimentos com o GMM foi alcançada uma taxa de reconhecimento de 85,77% para a base de dados EmoDb e 66,83% para a IEMOCAP. Já a rede probabilística desenvolvida nesse trabalho conseguiu classificar corretamente 79,64% das amostras de teste da base de dados EmoDb. Nos experimentos com a ResNet, foram gerados os espectrogramas dos sinais de voz para serem utilizados no lugar de imagens. Nesses experimentos foi observado que as técnicas de aumento da base e de transferência de aprendizado contribuem significativamente para um melhor reconhecimento das emoções. Nesse caso, a rede convolucional classificou corretamente 81,26% das amostras.
id UERJ_211325e7e0b685ac8984c05030f5d765
oai_identifier_str oai:www.bdtd.uerj.br:1/11760
network_acronym_str UERJ
network_name_str Biblioteca Digital de Teses e Dissertações da UERJ
repository_id_str
spelling Reconhecimento de emoções em sinais de fala usando transferência de aprendizadoSpeech emotion recognition using transfer learningElectronic EngineeringMan-machine interactionNeural networks (Computation)Speech processing systemsEmotionsComputer learningEmotion RecognitionSpeechConvolutional Neural NetworksTransfer LearningEngenharia eletrônicaInteração homem-máquinaRedes neurais (Computação)Sistemas de processamento da falaEmoçõesAprendizado do computadorReconhecimento de emoçõesFalaRedes Neurais ConvolucionaisTransferência de AprendizadoCNPQ::ENGENHARIASA fala tem se tornado um meio de interação entre o ser humano e os computadores cada vez mais importante. Visando tornar essa interação ainda mais natural, pesquisadores têm proposto diferentes sistemas de reconhecimento de emoções na fala. Na área de reconhecimento de emoções em sinais de fala, as redes neurais profundas vêm sendo foco de intensa investigação. Visto isso, neste trabalho foi avaliado o efeito da técnica de transferência de aprendizado e do aumento da base de dados na acurácia de uma rede neural convolucional residual para a predição de emoções, comparando-a com outras técnicas de classificação tais como: a ResNet sem pré-treino, o Modelo de Mistura de Gaussianas e a Rede Neural Probabilística. Para isto, foram utilizadas as amostras das classes Felicidade, Neutra, Raiva e Tristeza contidas nas bases de dados IEMOCAP e EmoDb visando o treino e teste dos sistemas propostos. Nos experimentos com o GMM foi alcançada uma taxa de reconhecimento de 85,77% para a base de dados EmoDb e 66,83% para a IEMOCAP. Já a rede probabilística desenvolvida nesse trabalho conseguiu classificar corretamente 79,64% das amostras de teste da base de dados EmoDb. Nos experimentos com a ResNet, foram gerados os espectrogramas dos sinais de voz para serem utilizados no lugar de imagens. Nesses experimentos foi observado que as técnicas de aumento da base e de transferência de aprendizado contribuem significativamente para um melhor reconhecimento das emoções. Nesse caso, a rede convolucional classificou corretamente 81,26% das amostras.Speech has become an increasingly important mean of interaction between humans and computers. Aiming at making this interaction even more natural, researchers have proposed different systems of speech emotion recognition. In this area, in recent years, deep neural networks have been the focus of research. Given this, in this work we investigated the effect of techniques of transfer learning and data augmentation on the accuracy obtained by a residual convolutional neural network, comparing it to other classification strategies like ResNet without pre-training, the Gaussian Mixture Model and the Probabilistic Neural Network. In addition, samples of the Happiness, Neutral, Anger and Sadness classes contained in two emotion datasets (IEMOCAP and EmoDb) were used for training and testing of the proposed systems. In the experiments with the GMM, a accuracy of 85.77 % was achieved for the EmoDb dataset, and 66.83 % for the IEMOCAP. On the other hand, the probabilistic network developed in this work was able to correctly classify 79.64 % of the test samples from the EmoDb dataset. In the experiments with ResNet, the spectrograms of the speech signals were generated to be used instead of images. In these experiments it was observed that the techniques of data augmentation and transfer learning greatly contribute to the result of the emotion recognition. Using those techniques, the convolutional network correctly classified 81.26 % of the test samples.Universidade do Estado do Rio de JaneiroCentro de Tecnologia e Ciências::Faculdade de EngenhariaBRUERJPrograma de Pós-Graduação em Engenharia EletrônicaTcheou, Michel Pompeuhttp://lattes.cnpq.br/9868296846852777ávila, Flávio Rainholattes.cnpq.br/6480915325344415Lima, Amaro Azevedo dehttp://lattes.cnpq.br/3860432957201950Leite, Karla Tereza Figueiredohttp://lattes.cnpq.br/2076970816486817Souza Filho, Joao Baptista de Oliveira ehttp://lattes.cnpq.br/8320034667805958Gomes Junior, Sergio Pinto2021-01-06T19:17:24Z2019-06-132019-02-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfGOMES JUNIOR, Sergio Pinto. Reconhecimento de emoções em sinais de fala usando transferência de aprendizado. 2019. 101 f. Dissertação (Mestrado em Redes de Telecomunicações; Sistemas Inteligentes e Automação) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2019.http://www.bdtd.uerj.br/handle/1/11760porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UERJinstname:Universidade do Estado do Rio de Janeiro (UERJ)instacron:UERJ2024-02-27T18:16:45Zoai:www.bdtd.uerj.br:1/11760Biblioteca Digital de Teses e Dissertaçõeshttp://www.bdtd.uerj.br/PUBhttps://www.bdtd.uerj.br:8443/oai/requestbdtd.suporte@uerj.bropendoar:29032024-02-27T18:16:45Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ)false
dc.title.none.fl_str_mv Reconhecimento de emoções em sinais de fala usando transferência de aprendizado
Speech emotion recognition using transfer learning
title Reconhecimento de emoções em sinais de fala usando transferência de aprendizado
spellingShingle Reconhecimento de emoções em sinais de fala usando transferência de aprendizado
Gomes Junior, Sergio Pinto
Electronic Engineering
Man-machine interaction
Neural networks (Computation)
Speech processing systems
Emotions
Computer learning
Emotion Recognition
Speech
Convolutional Neural Networks
Transfer Learning
Engenharia eletrônica
Interação homem-máquina
Redes neurais (Computação)
Sistemas de processamento da fala
Emoções
Aprendizado do computador
Reconhecimento de emoções
Fala
Redes Neurais Convolucionais
Transferência de Aprendizado
CNPQ::ENGENHARIAS
title_short Reconhecimento de emoções em sinais de fala usando transferência de aprendizado
title_full Reconhecimento de emoções em sinais de fala usando transferência de aprendizado
title_fullStr Reconhecimento de emoções em sinais de fala usando transferência de aprendizado
title_full_unstemmed Reconhecimento de emoções em sinais de fala usando transferência de aprendizado
title_sort Reconhecimento de emoções em sinais de fala usando transferência de aprendizado
author Gomes Junior, Sergio Pinto
author_facet Gomes Junior, Sergio Pinto
author_role author
dc.contributor.none.fl_str_mv Tcheou, Michel Pompeu
http://lattes.cnpq.br/9868296846852777
ávila, Flávio Rainho
lattes.cnpq.br/6480915325344415
Lima, Amaro Azevedo de
http://lattes.cnpq.br/3860432957201950
Leite, Karla Tereza Figueiredo
http://lattes.cnpq.br/2076970816486817
Souza Filho, Joao Baptista de Oliveira e
http://lattes.cnpq.br/8320034667805958
dc.contributor.author.fl_str_mv Gomes Junior, Sergio Pinto
dc.subject.por.fl_str_mv Electronic Engineering
Man-machine interaction
Neural networks (Computation)
Speech processing systems
Emotions
Computer learning
Emotion Recognition
Speech
Convolutional Neural Networks
Transfer Learning
Engenharia eletrônica
Interação homem-máquina
Redes neurais (Computação)
Sistemas de processamento da fala
Emoções
Aprendizado do computador
Reconhecimento de emoções
Fala
Redes Neurais Convolucionais
Transferência de Aprendizado
CNPQ::ENGENHARIAS
topic Electronic Engineering
Man-machine interaction
Neural networks (Computation)
Speech processing systems
Emotions
Computer learning
Emotion Recognition
Speech
Convolutional Neural Networks
Transfer Learning
Engenharia eletrônica
Interação homem-máquina
Redes neurais (Computação)
Sistemas de processamento da fala
Emoções
Aprendizado do computador
Reconhecimento de emoções
Fala
Redes Neurais Convolucionais
Transferência de Aprendizado
CNPQ::ENGENHARIAS
description A fala tem se tornado um meio de interação entre o ser humano e os computadores cada vez mais importante. Visando tornar essa interação ainda mais natural, pesquisadores têm proposto diferentes sistemas de reconhecimento de emoções na fala. Na área de reconhecimento de emoções em sinais de fala, as redes neurais profundas vêm sendo foco de intensa investigação. Visto isso, neste trabalho foi avaliado o efeito da técnica de transferência de aprendizado e do aumento da base de dados na acurácia de uma rede neural convolucional residual para a predição de emoções, comparando-a com outras técnicas de classificação tais como: a ResNet sem pré-treino, o Modelo de Mistura de Gaussianas e a Rede Neural Probabilística. Para isto, foram utilizadas as amostras das classes Felicidade, Neutra, Raiva e Tristeza contidas nas bases de dados IEMOCAP e EmoDb visando o treino e teste dos sistemas propostos. Nos experimentos com o GMM foi alcançada uma taxa de reconhecimento de 85,77% para a base de dados EmoDb e 66,83% para a IEMOCAP. Já a rede probabilística desenvolvida nesse trabalho conseguiu classificar corretamente 79,64% das amostras de teste da base de dados EmoDb. Nos experimentos com a ResNet, foram gerados os espectrogramas dos sinais de voz para serem utilizados no lugar de imagens. Nesses experimentos foi observado que as técnicas de aumento da base e de transferência de aprendizado contribuem significativamente para um melhor reconhecimento das emoções. Nesse caso, a rede convolucional classificou corretamente 81,26% das amostras.
publishDate 2019
dc.date.none.fl_str_mv 2019-06-13
2019-02-28
2021-01-06T19:17:24Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv GOMES JUNIOR, Sergio Pinto. Reconhecimento de emoções em sinais de fala usando transferência de aprendizado. 2019. 101 f. Dissertação (Mestrado em Redes de Telecomunicações; Sistemas Inteligentes e Automação) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2019.
http://www.bdtd.uerj.br/handle/1/11760
identifier_str_mv GOMES JUNIOR, Sergio Pinto. Reconhecimento de emoções em sinais de fala usando transferência de aprendizado. 2019. 101 f. Dissertação (Mestrado em Redes de Telecomunicações; Sistemas Inteligentes e Automação) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2019.
url http://www.bdtd.uerj.br/handle/1/11760
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Estado do Rio de Janeiro
Centro de Tecnologia e Ciências::Faculdade de Engenharia
BR
UERJ
Programa de Pós-Graduação em Engenharia Eletrônica
publisher.none.fl_str_mv Universidade do Estado do Rio de Janeiro
Centro de Tecnologia e Ciências::Faculdade de Engenharia
BR
UERJ
Programa de Pós-Graduação em Engenharia Eletrônica
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UERJ
instname:Universidade do Estado do Rio de Janeiro (UERJ)
instacron:UERJ
instname_str Universidade do Estado do Rio de Janeiro (UERJ)
instacron_str UERJ
institution UERJ
reponame_str Biblioteca Digital de Teses e Dissertações da UERJ
collection Biblioteca Digital de Teses e Dissertações da UERJ
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ)
repository.mail.fl_str_mv bdtd.suporte@uerj.br
_version_ 1829133601536475136