Explicit representation of note duration improves structural similarity in transformer models

Gabriel Souza Gomes

Explicit representation of note duration improves structural similarity in transformer models

Detalhes bibliográficos
Ano de defesa:	2023
Autor(a) principal:	Gabriel Souza Gomes
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Universidade Federal de Minas Gerais
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Computação – Teses Aprendizado do computador – Teses Aprendizado profundo – Teses Inteligência computacional – Música – Teses Music Machine learning Deep learning Creative computing
Link de acesso:	https://hdl.handle.net/1843/77025
Resumo:	Aprendizado profundo demonstrou, recentemente, resultados formidáveis em computação criativa, mesmo para dados complexos. Alguns trabalhos são notórios por criarem imagens de alta resolução impressionantes a partir de entradas de texto, enquanto outros são renomados por escreverem textos longos coerentes e concisos. Mas o mesmo não pode ser dito para criatividade computacional aplicada a composição musical, uma vez que mesmo os melhores trabalhos conseguem gerar resultados com qualidade aceitável apenas para obras curtas. Apesar de parecer mais simples se comparada a imagens de alta resolução ou textos longos, música apresenta desafios únicos devido à natureza de sua estrutura, que contém padrões de repetição (motifs) em escalas de tempo variadas. No cenário atual, modelos com arquitetura transformer são a melhor abordagem para gerar música e ao treinar estes modelos, é necessário escolher entre várias opções de arquitetura e estilos de representação de entrada. Alguns modelos são treinados e testados apenas em datasets com anotações adicionais de estrutura, como tempo, compassos ou frases, sendo que estas anotações são normalmente usadas para melhorar a performance do modelo para gerar tais estruturas. Neste trabalho, questionamos se a arquitetura padrão do MusicTransformer apresenta perda de performance mesmo usando apenas informações MIDI (isto é, sem anotações adicionais de estrutura). Mostramos que uma pequena mudança na representação mais comumente usada resulta em melhorias pequenas, mas significativas. Nossa análise experimental focada em quatro datasets com estilos musicais diferentes (Jazz, Maestro, SNES e Pop) conclui que gerar músicas usando o MusicTransformer e uma representação MIDI que codifica duração de nota explicitamente apresenta melhoria em métricas de estrutura (um fator comumente atribuído a anotações de estrutura ou melhorias em arquitetura) e é corroborada por avaliação humana de qualidade musical. Uma vez que nossa abordagem é aplicável a qualquer dataset MIDI, argumentamos que há mais ganho de performance potencial em geração de músicas usando grande quantidade de dados sem anotação, ao invés de menos dados com maior quantidade de informação.

Metadados do item

id	UFMG_5e683fdc02ee35b8286ebb704357b959
oai_identifier_str	oai:repositorio.ufmg.br:1843/77025
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Explicit representation of note duration improves structural similarity in transformer modelsA representação explícita da duração da nota melhora a similaridade estrutural em modelos de transformadoresComputação – TesesAprendizado do computador – TesesAprendizado profundo – TesesInteligência computacional – Música – TesesMusicMachine learningDeep learningCreative computingAprendizado profundo demonstrou, recentemente, resultados formidáveis em computação criativa, mesmo para dados complexos. Alguns trabalhos são notórios por criarem imagens de alta resolução impressionantes a partir de entradas de texto, enquanto outros são renomados por escreverem textos longos coerentes e concisos. Mas o mesmo não pode ser dito para criatividade computacional aplicada a composição musical, uma vez que mesmo os melhores trabalhos conseguem gerar resultados com qualidade aceitável apenas para obras curtas. Apesar de parecer mais simples se comparada a imagens de alta resolução ou textos longos, música apresenta desafios únicos devido à natureza de sua estrutura, que contém padrões de repetição (motifs) em escalas de tempo variadas. No cenário atual, modelos com arquitetura transformer são a melhor abordagem para gerar música e ao treinar estes modelos, é necessário escolher entre várias opções de arquitetura e estilos de representação de entrada. Alguns modelos são treinados e testados apenas em datasets com anotações adicionais de estrutura, como tempo, compassos ou frases, sendo que estas anotações são normalmente usadas para melhorar a performance do modelo para gerar tais estruturas. Neste trabalho, questionamos se a arquitetura padrão do MusicTransformer apresenta perda de performance mesmo usando apenas informações MIDI (isto é, sem anotações adicionais de estrutura). Mostramos que uma pequena mudança na representação mais comumente usada resulta em melhorias pequenas, mas significativas. Nossa análise experimental focada em quatro datasets com estilos musicais diferentes (Jazz, Maestro, SNES e Pop) conclui que gerar músicas usando o MusicTransformer e uma representação MIDI que codifica duração de nota explicitamente apresenta melhoria em métricas de estrutura (um fator comumente atribuído a anotações de estrutura ou melhorias em arquitetura) e é corroborada por avaliação humana de qualidade musical. Uma vez que nossa abordagem é aplicável a qualquer dataset MIDI, argumentamos que há mais ganho de performance potencial em geração de músicas usando grande quantidade de dados sem anotação, ao invés de menos dados com maior quantidade de informação.Universidade Federal de Minas Gerais2024-09-30T17:14:22Z2025-09-08T23:11:10Z2024-09-30T17:14:22Z2023-09-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1843/77025engGabriel Souza Gomesinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMG2025-09-08T23:11:10Zoai:repositorio.ufmg.br:1843/77025Repositório InstitucionalPUBhttps://repositorio.ufmg.br/oairepositorio@ufmg.bropendoar:2025-09-08T23:11:10Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.none.fl_str_mv	Explicit representation of note duration improves structural similarity in transformer models A representação explícita da duração da nota melhora a similaridade estrutural em modelos de transformadores
title	Explicit representation of note duration improves structural similarity in transformer models
spellingShingle	Explicit representation of note duration improves structural similarity in transformer models Gabriel Souza Gomes Computação – Teses Aprendizado do computador – Teses Aprendizado profundo – Teses Inteligência computacional – Música – Teses Music Machine learning Deep learning Creative computing
title_short	Explicit representation of note duration improves structural similarity in transformer models
title_full	Explicit representation of note duration improves structural similarity in transformer models
title_fullStr	Explicit representation of note duration improves structural similarity in transformer models
title_full_unstemmed	Explicit representation of note duration improves structural similarity in transformer models
title_sort	Explicit representation of note duration improves structural similarity in transformer models
author	Gabriel Souza Gomes
author_facet	Gabriel Souza Gomes
author_role	author
dc.contributor.author.fl_str_mv	Gabriel Souza Gomes
dc.subject.por.fl_str_mv	Computação – Teses Aprendizado do computador – Teses Aprendizado profundo – Teses Inteligência computacional – Música – Teses Music Machine learning Deep learning Creative computing
topic	Computação – Teses Aprendizado do computador – Teses Aprendizado profundo – Teses Inteligência computacional – Música – Teses Music Machine learning Deep learning Creative computing
description	Aprendizado profundo demonstrou, recentemente, resultados formidáveis em computação criativa, mesmo para dados complexos. Alguns trabalhos são notórios por criarem imagens de alta resolução impressionantes a partir de entradas de texto, enquanto outros são renomados por escreverem textos longos coerentes e concisos. Mas o mesmo não pode ser dito para criatividade computacional aplicada a composição musical, uma vez que mesmo os melhores trabalhos conseguem gerar resultados com qualidade aceitável apenas para obras curtas. Apesar de parecer mais simples se comparada a imagens de alta resolução ou textos longos, música apresenta desafios únicos devido à natureza de sua estrutura, que contém padrões de repetição (motifs) em escalas de tempo variadas. No cenário atual, modelos com arquitetura transformer são a melhor abordagem para gerar música e ao treinar estes modelos, é necessário escolher entre várias opções de arquitetura e estilos de representação de entrada. Alguns modelos são treinados e testados apenas em datasets com anotações adicionais de estrutura, como tempo, compassos ou frases, sendo que estas anotações são normalmente usadas para melhorar a performance do modelo para gerar tais estruturas. Neste trabalho, questionamos se a arquitetura padrão do MusicTransformer apresenta perda de performance mesmo usando apenas informações MIDI (isto é, sem anotações adicionais de estrutura). Mostramos que uma pequena mudança na representação mais comumente usada resulta em melhorias pequenas, mas significativas. Nossa análise experimental focada em quatro datasets com estilos musicais diferentes (Jazz, Maestro, SNES e Pop) conclui que gerar músicas usando o MusicTransformer e uma representação MIDI que codifica duração de nota explicitamente apresenta melhoria em métricas de estrutura (um fator comumente atribuído a anotações de estrutura ou melhorias em arquitetura) e é corroborada por avaliação humana de qualidade musical. Uma vez que nossa abordagem é aplicável a qualquer dataset MIDI, argumentamos que há mais ganho de performance potencial em geração de músicas usando grande quantidade de dados sem anotação, ao invés de menos dados com maior quantidade de informação.
publishDate	2023
dc.date.none.fl_str_mv	2023-09-15 2024-09-30T17:14:22Z 2024-09-30T17:14:22Z 2025-09-08T23:11:10Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://hdl.handle.net/1843/77025
url	https://hdl.handle.net/1843/77025
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv	repositorio@ufmg.br
_version_	1856413957177212928

Explicit representation of note duration improves structural similarity in transformer models

Registros relacionados