Classificação de gêneros musicais utilizando convolutional neural network e data augmentation
| Ano de defesa: | 2017 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| dARK ID: | ark:/35916/0013000008r7j |
| Idioma: | por |
| Instituição de defesa: |
Universidade Estadual de Maringá
Departamento de Informática Programa de Pós-Graduação em Ciência da Computação Maringá, PR Centro de Tecnologia |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://repositorio.uem.br:8080/jspui/handle/1/8735 |
Resumo: | Orientador: Prof. Dr. Yandre Maldonado e Gomes da Costa |
| id |
UEM-10_9a49aa46f69bdde277f286c97efd08c0 |
|---|---|
| oai_identifier_str |
oai:localhost:1/8735 |
| network_acronym_str |
UEM-10 |
| network_name_str |
Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) |
| repository_id_str |
|
| spelling |
Classificação de gêneros musicais utilizando convolutional neural network e data augmentationClassificação de gêneros musicaisRecuperação de informação musicalEspectrogramasDeep learningData augmentation006.45Ciências Exatas e da TerraCiência da ComputaçãoOrientador: Prof. Dr. Yandre Maldonado e Gomes da CostaDissertação (mestrado em Ciência da Computação) - Universidade Estadual de Maringá, 2017Resumo: Esta dissertação de mestrado aborda o problema de classificação de músicas em gêneros musicais, que é uma tarefa de reconhecimento de padrões aplicada em recuperação de informação. Ao invés de manipular diretamente o sinal de áudio, sugerimos utilizar o domínio visual, imagens de espectrogramas. Essas imagens vem sendo empregadas com sucesso nessa finalidade desde 2011 e o principal atributo visual delas é a textura. O diferencial deste trabalho é a abordagem utilizada para classificação e as técnicas de manipulação e aumento da base de dados que são empregadas. Para classificação usamos as redes neurais convolucionais, CNNs. Elas são técnicas de aprendizagem profunda, {deeplearning, e vem sendo bastante utilizadas na literatura de reconhecimento de padrões. A aprendizagem profunda e as CNNs foram inspiradas no cérebro humano e no sistema visual dos mamíferos, respectivamente. Uma dificuldade recorrente quando se utiliza CNNs é o overfitting, que ocorre normalmente devido a uma quantidade insuficiente de amostras de treino. Para solucionar esse problema propomos explorar técnicas de data augmentation que incluem meios de segmentar o espectrograma e a manipulação direta do sinal do áudio como, por exemplo, alteração da tonalidade da música e separação de elementos harmônicos e percussivos do áudio. Essas técnicas devem gerar mais amostras para o treino da rede neural e são empregadas até mesmo no conjunto de teste, já que esse emprego se mostrou adequado em outros trabalhos. Os experimentos deste trabalho foram executados utilizando The Latin Music Database e o melhor resultado obtido é superior ao resultado encontrado que utiliza apenas CNN e próximo do estado da arteAbstract: In thiswork, wepresent a master dissertation addressing automatic music genre classification as a patter recognitiontask. The content of the music pieces were described using features obtained in the visual domain, by using spectrograms created from the audio signal. This kind of image has been successfully used in thistasksince 2011 by exploring the main visual attribute that can be found in this kind of image (i.e. texture). In this work, the patterns were described by using representation learning. For this, convolutional neural networks (CNN) were used. CNN is a deep learning architecture and it has been widely used in the literature of pattern recognition. Deep learning is inspired in the human brain and CNNs in the mammal visual system. Overfitting is a recurrent problem when a classification problem is addressed by using CNN, it may occur due to the combination of lacking of training samples and a high dimensionality space. To address this problem we propose to explore data augmentation techniques. In this application domain, examples of data augmentation techniques are: cropping spectrogram images, changing the pitch of a music piece and separating harmonic and percussive components of the sound. Such procedures are implemented in both training and testing sets. In this work we present results obtained with The Latin Music Database and the best accuracy we acquired is close to the state of the art and outcome the best system we known based only in CNNUniversidade Estadual de MaringáDepartamento de InformáticaPrograma de Pós-Graduação em Ciência da ComputaçãoMaringá, PRCentro de TecnologiaCosta, Yandre Maldonado e Gomes daGonçalves, Diego BertoliniSilla Junior, Carlos NascimentoAguiar, Rafael de Lima2025-02-20T19:43:16Z2025-02-20T19:43:16Z2017info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfAGUIAR, Rafael de Lima. Classificação de gêneros musicais utilizando convolutional neural network e data augmentation . 2017. 64 f. Dissertação (mestrado em Ciência da Computação) - Universidade Estadual de Maringá, 2017, Maringá, PR.http://repositorio.uem.br:8080/jspui/handle/1/8735ark:/35916/0013000008r7jinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Estadual de Maringá (RI-UEM)instname:Universidade Estadual de Maringá (UEM)instacron:UEM2025-02-20T19:53:25Zoai:localhost:1/8735Repositório InstitucionalPUBhttp://repositorio.uem.br:8080/oai/requestrepositorio@uem.bropendoar:2025-02-20T19:53:25Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) - Universidade Estadual de Maringá (UEM)false |
| dc.title.none.fl_str_mv |
Classificação de gêneros musicais utilizando convolutional neural network e data augmentation |
| title |
Classificação de gêneros musicais utilizando convolutional neural network e data augmentation |
| spellingShingle |
Classificação de gêneros musicais utilizando convolutional neural network e data augmentation Aguiar, Rafael de Lima Classificação de gêneros musicais Recuperação de informação musical Espectrogramas Deep learning Data augmentation 006.45 Ciências Exatas e da Terra Ciência da Computação |
| title_short |
Classificação de gêneros musicais utilizando convolutional neural network e data augmentation |
| title_full |
Classificação de gêneros musicais utilizando convolutional neural network e data augmentation |
| title_fullStr |
Classificação de gêneros musicais utilizando convolutional neural network e data augmentation |
| title_full_unstemmed |
Classificação de gêneros musicais utilizando convolutional neural network e data augmentation |
| title_sort |
Classificação de gêneros musicais utilizando convolutional neural network e data augmentation |
| author |
Aguiar, Rafael de Lima |
| author_facet |
Aguiar, Rafael de Lima |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Costa, Yandre Maldonado e Gomes da Gonçalves, Diego Bertolini Silla Junior, Carlos Nascimento |
| dc.contributor.author.fl_str_mv |
Aguiar, Rafael de Lima |
| dc.subject.por.fl_str_mv |
Classificação de gêneros musicais Recuperação de informação musical Espectrogramas Deep learning Data augmentation 006.45 Ciências Exatas e da Terra Ciência da Computação |
| topic |
Classificação de gêneros musicais Recuperação de informação musical Espectrogramas Deep learning Data augmentation 006.45 Ciências Exatas e da Terra Ciência da Computação |
| description |
Orientador: Prof. Dr. Yandre Maldonado e Gomes da Costa |
| publishDate |
2017 |
| dc.date.none.fl_str_mv |
2017 2025-02-20T19:43:16Z 2025-02-20T19:43:16Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
AGUIAR, Rafael de Lima. Classificação de gêneros musicais utilizando convolutional neural network e data augmentation . 2017. 64 f. Dissertação (mestrado em Ciência da Computação) - Universidade Estadual de Maringá, 2017, Maringá, PR. http://repositorio.uem.br:8080/jspui/handle/1/8735 |
| dc.identifier.dark.fl_str_mv |
ark:/35916/0013000008r7j |
| identifier_str_mv |
AGUIAR, Rafael de Lima. Classificação de gêneros musicais utilizando convolutional neural network e data augmentation . 2017. 64 f. Dissertação (mestrado em Ciência da Computação) - Universidade Estadual de Maringá, 2017, Maringá, PR. ark:/35916/0013000008r7j |
| url |
http://repositorio.uem.br:8080/jspui/handle/1/8735 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Estadual de Maringá Departamento de Informática Programa de Pós-Graduação em Ciência da Computação Maringá, PR Centro de Tecnologia |
| publisher.none.fl_str_mv |
Universidade Estadual de Maringá Departamento de Informática Programa de Pós-Graduação em Ciência da Computação Maringá, PR Centro de Tecnologia |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) instname:Universidade Estadual de Maringá (UEM) instacron:UEM |
| instname_str |
Universidade Estadual de Maringá (UEM) |
| instacron_str |
UEM |
| institution |
UEM |
| reponame_str |
Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) |
| collection |
Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) |
| repository.name.fl_str_mv |
Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) - Universidade Estadual de Maringá (UEM) |
| repository.mail.fl_str_mv |
repositorio@uem.br |
| _version_ |
1846637335189389312 |