Classificação de gêneros musicais utilizando convolutional neural network e data augmentation

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Aguiar, Rafael de Lima
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
dARK ID: ark:/35916/00130000043kd
Idioma: por
Instituição de defesa: Universidade Estadual de Maringá
Brasil
Departamento de Informática
Programa de Pós-Graduação em Ciência da Computação
UEM
Maringá, PR
Centro de Tecnologia
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.uem.br:8080/jspui/handle/1/2501
Resumo: In thiswork, wepresent a master dissertation addressing automatic music genre classification as a patter recognitiontask. The content of the music pieces were described using features obtained in the visual domain, by using spectrograms created from the audio signal. This kind of image has been successfully used in thistasksince 2011 by exploring the main visual attribute that can be found in this kind of image (i.e. texture). In this work, the patterns were described by using representation learning. For this, convolutional neural networks (CNN) were used. CNN is a deep learning architecture and it has been widely used in the literature of pattern recognition. Deep learning is inspired in the human brain and CNNs in the mammal visual system. Overfitting is a recurrent problem when a classification problem is addressed by using CNN, it may occur due to the combination of lacking of training samples and a high dimensionality space. To address this problem we propose to explore data augmentation techniques. In this application domain, examples of data augmentation techniques are: cropping spectrogram images, changing the pitch of a music piece and separating harmonic and percussive components of the sound. Such procedures are implemented in both training and testing sets. In this work we present results obtained with The Latin Music Database and the best accuracy we acquired is close to the state of the art and outcome the best system we known based only in CNN.
id UEM-10_4dbe121e347c810f4bf2592a82aeea9a
oai_identifier_str oai:localhost:1/2501
network_acronym_str UEM-10
network_name_str Repositório Institucional da Universidade Estadual de Maringá (RI-UEM)
repository_id_str
spelling Classificação de gêneros musicais utilizando convolutional neural network e data augmentationClassificação de gêneros musicaisRecuperação de informação musicalEspectrogramasDeep learningData augmentationBrasil.Ciências Exatas e da TerraCiência da ComputaçãoIn thiswork, wepresent a master dissertation addressing automatic music genre classification as a patter recognitiontask. The content of the music pieces were described using features obtained in the visual domain, by using spectrograms created from the audio signal. This kind of image has been successfully used in thistasksince 2011 by exploring the main visual attribute that can be found in this kind of image (i.e. texture). In this work, the patterns were described by using representation learning. For this, convolutional neural networks (CNN) were used. CNN is a deep learning architecture and it has been widely used in the literature of pattern recognition. Deep learning is inspired in the human brain and CNNs in the mammal visual system. Overfitting is a recurrent problem when a classification problem is addressed by using CNN, it may occur due to the combination of lacking of training samples and a high dimensionality space. To address this problem we propose to explore data augmentation techniques. In this application domain, examples of data augmentation techniques are: cropping spectrogram images, changing the pitch of a music piece and separating harmonic and percussive components of the sound. Such procedures are implemented in both training and testing sets. In this work we present results obtained with The Latin Music Database and the best accuracy we acquired is close to the state of the art and outcome the best system we known based only in CNN.Esta dissertação de mestrado aborda o problema de classificação de músicas em gêneros musicais, que é uma tarefa de reconhecimento de padrões aplicada em recuperação de informação. Ao invés de manipular diretamente o sinal de áudio, sugerimos utilizar o domínio visual, imagens de espectrogramas. Essas imagens vem sendo empregadas com sucesso nessa finalidade desde 2011 e o principal atributo visual delas é a textura. O diferencial deste trabalho é a abordagem utilizada para classificação e as técnicas de manipulação e aumento da base de dados que são empregadas. Para classificação usamos as redes neurais convolucionais, CNNs. Elas são técnicas de aprendizagem profunda, {deeplearning, e vem sendo bastante utilizadas na literatura de reconhecimento de padrões. A aprendizagem profunda e as CNNs foram inspiradas no cérebro humano e no sistema visual dos mamíferos, respectivamente. Uma dificuldade recorrente quando se utiliza CNNs é o overfitting, que ocorre normalmente devido a uma quantidade insuficiente de amostras de treino. Para solucionar esse problema propomos explorar técnicas de data augmentation que incluem meios de segmentar o espectrograma e a manipulação direta do sinal do áudio como, por exemplo, alteração da tonalidade da música e separação de elementos harmônicos e percussivos do áudio. Essas técnicas devem gerar mais amostras para o treino da rede neural e são empregadas até mesmo no conjunto de teste, já que esse emprego se mostrou adequado em outros trabalhos. Os experimentos deste trabalho foram executados utilizando The Latin Music Database e o melhor resultado obtido é superior ao resultado encontrado que utiliza apenas CNN e próximo do estado da arte.64 fUniversidade Estadual de MaringáBrasilDepartamento de InformáticaPrograma de Pós-Graduação em Ciência da ComputaçãoUEMMaringá, PRCentro de TecnologiaYandre Maldonado e Gomes da CostaDiego Bertolini Gonçalves - UEMCarlos Nascimento Silla Junior - PUCPRAguiar, Rafael de Lima2018-04-10T20:12:13Z2018-04-10T20:12:13Z2017info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://repositorio.uem.br:8080/jspui/handle/1/2501ark:/35916/00130000043kdporinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Estadual de Maringá (RI-UEM)instname:Universidade Estadual de Maringá (UEM)instacron:UEM2018-10-18T19:13:53Zoai:localhost:1/2501Repositório InstitucionalPUBhttp://repositorio.uem.br:8080/oai/requestrepositorio@uem.bropendoar:2018-10-18T19:13:53Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) - Universidade Estadual de Maringá (UEM)false
dc.title.none.fl_str_mv Classificação de gêneros musicais utilizando convolutional neural network e data augmentation
title Classificação de gêneros musicais utilizando convolutional neural network e data augmentation
spellingShingle Classificação de gêneros musicais utilizando convolutional neural network e data augmentation
Aguiar, Rafael de Lima
Classificação de gêneros musicais
Recuperação de informação musical
Espectrogramas
Deep learning
Data augmentation
Brasil.
Ciências Exatas e da Terra
Ciência da Computação
title_short Classificação de gêneros musicais utilizando convolutional neural network e data augmentation
title_full Classificação de gêneros musicais utilizando convolutional neural network e data augmentation
title_fullStr Classificação de gêneros musicais utilizando convolutional neural network e data augmentation
title_full_unstemmed Classificação de gêneros musicais utilizando convolutional neural network e data augmentation
title_sort Classificação de gêneros musicais utilizando convolutional neural network e data augmentation
author Aguiar, Rafael de Lima
author_facet Aguiar, Rafael de Lima
author_role author
dc.contributor.none.fl_str_mv Yandre Maldonado e Gomes da Costa
Diego Bertolini Gonçalves - UEM
Carlos Nascimento Silla Junior - PUCPR
dc.contributor.author.fl_str_mv Aguiar, Rafael de Lima
dc.subject.por.fl_str_mv Classificação de gêneros musicais
Recuperação de informação musical
Espectrogramas
Deep learning
Data augmentation
Brasil.
Ciências Exatas e da Terra
Ciência da Computação
topic Classificação de gêneros musicais
Recuperação de informação musical
Espectrogramas
Deep learning
Data augmentation
Brasil.
Ciências Exatas e da Terra
Ciência da Computação
description In thiswork, wepresent a master dissertation addressing automatic music genre classification as a patter recognitiontask. The content of the music pieces were described using features obtained in the visual domain, by using spectrograms created from the audio signal. This kind of image has been successfully used in thistasksince 2011 by exploring the main visual attribute that can be found in this kind of image (i.e. texture). In this work, the patterns were described by using representation learning. For this, convolutional neural networks (CNN) were used. CNN is a deep learning architecture and it has been widely used in the literature of pattern recognition. Deep learning is inspired in the human brain and CNNs in the mammal visual system. Overfitting is a recurrent problem when a classification problem is addressed by using CNN, it may occur due to the combination of lacking of training samples and a high dimensionality space. To address this problem we propose to explore data augmentation techniques. In this application domain, examples of data augmentation techniques are: cropping spectrogram images, changing the pitch of a music piece and separating harmonic and percussive components of the sound. Such procedures are implemented in both training and testing sets. In this work we present results obtained with The Latin Music Database and the best accuracy we acquired is close to the state of the art and outcome the best system we known based only in CNN.
publishDate 2017
dc.date.none.fl_str_mv 2017
2018-04-10T20:12:13Z
2018-04-10T20:12:13Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://repositorio.uem.br:8080/jspui/handle/1/2501
dc.identifier.dark.fl_str_mv ark:/35916/00130000043kd
url http://repositorio.uem.br:8080/jspui/handle/1/2501
identifier_str_mv ark:/35916/00130000043kd
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Estadual de Maringá
Brasil
Departamento de Informática
Programa de Pós-Graduação em Ciência da Computação
UEM
Maringá, PR
Centro de Tecnologia
publisher.none.fl_str_mv Universidade Estadual de Maringá
Brasil
Departamento de Informática
Programa de Pós-Graduação em Ciência da Computação
UEM
Maringá, PR
Centro de Tecnologia
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Estadual de Maringá (RI-UEM)
instname:Universidade Estadual de Maringá (UEM)
instacron:UEM
instname_str Universidade Estadual de Maringá (UEM)
instacron_str UEM
institution UEM
reponame_str Repositório Institucional da Universidade Estadual de Maringá (RI-UEM)
collection Repositório Institucional da Universidade Estadual de Maringá (RI-UEM)
repository.name.fl_str_mv Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) - Universidade Estadual de Maringá (UEM)
repository.mail.fl_str_mv repositorio@uem.br
_version_ 1846637290919559168