Novel time-frequency representations for music information retrieval

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Costa, Maurício do Vale Madeira da
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal do Rio de Janeiro
Brasil
Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia
Programa de Pós-Graduação em Engenharia Elétrica
UFRJ
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
MIR
Link de acesso: http://hdl.handle.net/11422/25644
Resumo: Time-frequency representations (TFR) are one of the most valuable tools in digital audio processing, being used in many applications. TFRs can be computed having different time or frequency resolutions and can even represent a certain frequency variation over time, e.g. when using the fan-chirp transform. The main shortcoming of TFRs is the energy smearing related to non-stationarity of the signal within the analysis windows used. This kind of artifact usually results in performance degradation of applications that make use of TFRs, hence providing TFRs that precisely represent the signals of interest is crucial to enhance the performance of such systems. A way to compute a high-resolution TFR is to combine TFRs having different resolutions in such a way that preserves the best aspects of each representation. This is the general idea behind all methods proposed in this thesis, of which the main goal is to allow for a sharp representation of main melody signals in polyphonic contexts. The methods are classified as: bin-wise combinations, combinations based on local information, and methods based on image analysis. Their performance are assessed by means of several experiments using both synthetic and real-world signals, and the results indicate the proposed multi-resolution fan-chirp interpolation method as the best in terms of frequency bandwidth, onset definition and dynamic range. Also, an automatic annotation scheme was devised to diminish the human effort in the transcription of rhythm patterns. This method utilizes TFRs with coarse frequency resolution and a clustering procedure to classify the types of hit. The estimated accuracy in terms of classification is around 75% to 80%.
id UFRJ_0f77bf8e9f7ae30f5760ef0fccda3713
oai_identifier_str oai:pantheon.ufrj.br:11422/25644
network_acronym_str UFRJ
network_name_str Repositório Institucional da UFRJ
repository_id_str
spelling Novel time-frequency representations for music information retrievalProcessamento digital de sinaisRepresentação de frequência de tempoAnálise de tempo frequênciaTransformação Fan chirpMIRMelodia dominanteMelodia principalMúsica brasileiraSambaCNPQ::ENGENHARIAS::ENGENHARIA ELETRICATime-frequency representations (TFR) are one of the most valuable tools in digital audio processing, being used in many applications. TFRs can be computed having different time or frequency resolutions and can even represent a certain frequency variation over time, e.g. when using the fan-chirp transform. The main shortcoming of TFRs is the energy smearing related to non-stationarity of the signal within the analysis windows used. This kind of artifact usually results in performance degradation of applications that make use of TFRs, hence providing TFRs that precisely represent the signals of interest is crucial to enhance the performance of such systems. A way to compute a high-resolution TFR is to combine TFRs having different resolutions in such a way that preserves the best aspects of each representation. This is the general idea behind all methods proposed in this thesis, of which the main goal is to allow for a sharp representation of main melody signals in polyphonic contexts. The methods are classified as: bin-wise combinations, combinations based on local information, and methods based on image analysis. Their performance are assessed by means of several experiments using both synthetic and real-world signals, and the results indicate the proposed multi-resolution fan-chirp interpolation method as the best in terms of frequency bandwidth, onset definition and dynamic range. Also, an automatic annotation scheme was devised to diminish the human effort in the transcription of rhythm patterns. This method utilizes TFRs with coarse frequency resolution and a clustering procedure to classify the types of hit. The estimated accuracy in terms of classification is around 75% to 80%.Representações tempo-frequenciais (RTFs) são uma das ferramentas mais valiosas em processamento digital de áudio, sendo utilizadas em diversas aplicações. RTFs podem ser calculadas tendo diferentes resoluções em tempo e em frequência e podem, inclusive, representar determinadas variações em frequência, como no caso do uso da transformada de fan-chirp. A maior deficiência de RTFs é o espalhamento de energia relacionado à não-estacionariedade do sinal na região da janela de análise. Esse tipo de artefato geralmente resulta em prejuízo de desempenho da aplicação que utilize tal RTF; portanto, ter RTFs que representem precisamente os sinais de interesse é essencial para melhorar o desempenho de tais sistemas. Uma forma de se calcular RTFs de alta resolução é combinar RTFs de diferentes resoluções de forma a preservar os melhores aspectos de cada uma. Essa é a ideia geral que embasa todos os métodos propostos nessa tese, da qual o principal objetivo é possibilitar a representação precisa de sinais de melodia principal em contextos polifônicos. Os métodos são classificados como: combinações ponto-a-ponto, combinações baseadas em informação local, e combinações baseadas em análise de imagem. Seus desempenhos são medidos por meio de diversos experimentos, em que são utilizados sinais sintéticos controlados e sinais reais, e os resultados apontam o método proposto de interpolação de fan-chirps em multirresolução como o melhor em termos de largura de banda de frequência, definição de onset e faixa dinâmica. Ademais, um método para anotação automática foi desenvolvido com a finalidade de facilitar o trabalho de transcrição de padrões rítmicos. Esse método utiliza RTFs com baixa resolução frequencial e um procedimento de agrupamento para classificar os tipos de toque. Estima-se uma acurácia de cerca de 75% a 80% em termos de classificação inicial.Universidade Federal do Rio de JaneiroBrasilInstituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de EngenhariaPrograma de Pós-Graduação em Engenharia ElétricaUFRJBiscainho, Luiz Wagner Pereirahttp://lattes.cnpq.br/1765239890846505http://lattes.cnpq.br/4529329840770262Haddad, Diego Barretohttp://lattes.cnpq.br/8728806963872778Campos, Marcello Luiz Rodrigues dehttp://lattes.cnpq.br/2402401592333107Lima, Markus Vinícius Santoshttp://lattes.cnpq.br/2937113853259682Costa, Maurício do Vale Madeira da2025-04-25T16:37:59Z2025-04-27T03:00:10Z2020-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttp://hdl.handle.net/11422/25644enginfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJ2025-04-27T03:00:10Zoai:pantheon.ufrj.br:11422/25644Repositório InstitucionalPUBhttp://www.pantheon.ufrj.br/oai/requestpantheon@sibi.ufrj.bropendoar:2025-04-27T03:00:10Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false
dc.title.none.fl_str_mv Novel time-frequency representations for music information retrieval
title Novel time-frequency representations for music information retrieval
spellingShingle Novel time-frequency representations for music information retrieval
Costa, Maurício do Vale Madeira da
Processamento digital de sinais
Representação de frequência de tempo
Análise de tempo frequência
Transformação Fan chirp
MIR
Melodia dominante
Melodia principal
Música brasileira
Samba
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
title_short Novel time-frequency representations for music information retrieval
title_full Novel time-frequency representations for music information retrieval
title_fullStr Novel time-frequency representations for music information retrieval
title_full_unstemmed Novel time-frequency representations for music information retrieval
title_sort Novel time-frequency representations for music information retrieval
author Costa, Maurício do Vale Madeira da
author_facet Costa, Maurício do Vale Madeira da
author_role author
dc.contributor.none.fl_str_mv Biscainho, Luiz Wagner Pereira
http://lattes.cnpq.br/1765239890846505
http://lattes.cnpq.br/4529329840770262
Haddad, Diego Barreto
http://lattes.cnpq.br/8728806963872778
Campos, Marcello Luiz Rodrigues de
http://lattes.cnpq.br/2402401592333107
Lima, Markus Vinícius Santos
http://lattes.cnpq.br/2937113853259682
dc.contributor.author.fl_str_mv Costa, Maurício do Vale Madeira da
dc.subject.por.fl_str_mv Processamento digital de sinais
Representação de frequência de tempo
Análise de tempo frequência
Transformação Fan chirp
MIR
Melodia dominante
Melodia principal
Música brasileira
Samba
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
topic Processamento digital de sinais
Representação de frequência de tempo
Análise de tempo frequência
Transformação Fan chirp
MIR
Melodia dominante
Melodia principal
Música brasileira
Samba
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
description Time-frequency representations (TFR) are one of the most valuable tools in digital audio processing, being used in many applications. TFRs can be computed having different time or frequency resolutions and can even represent a certain frequency variation over time, e.g. when using the fan-chirp transform. The main shortcoming of TFRs is the energy smearing related to non-stationarity of the signal within the analysis windows used. This kind of artifact usually results in performance degradation of applications that make use of TFRs, hence providing TFRs that precisely represent the signals of interest is crucial to enhance the performance of such systems. A way to compute a high-resolution TFR is to combine TFRs having different resolutions in such a way that preserves the best aspects of each representation. This is the general idea behind all methods proposed in this thesis, of which the main goal is to allow for a sharp representation of main melody signals in polyphonic contexts. The methods are classified as: bin-wise combinations, combinations based on local information, and methods based on image analysis. Their performance are assessed by means of several experiments using both synthetic and real-world signals, and the results indicate the proposed multi-resolution fan-chirp interpolation method as the best in terms of frequency bandwidth, onset definition and dynamic range. Also, an automatic annotation scheme was devised to diminish the human effort in the transcription of rhythm patterns. This method utilizes TFRs with coarse frequency resolution and a clustering procedure to classify the types of hit. The estimated accuracy in terms of classification is around 75% to 80%.
publishDate 2020
dc.date.none.fl_str_mv 2020-04
2025-04-25T16:37:59Z
2025-04-27T03:00:10Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11422/25644
url http://hdl.handle.net/11422/25644
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
Brasil
Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia
Programa de Pós-Graduação em Engenharia Elétrica
UFRJ
publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
Brasil
Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia
Programa de Pós-Graduação em Engenharia Elétrica
UFRJ
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRJ
instname:Universidade Federal do Rio de Janeiro (UFRJ)
instacron:UFRJ
instname_str Universidade Federal do Rio de Janeiro (UFRJ)
instacron_str UFRJ
institution UFRJ
reponame_str Repositório Institucional da UFRJ
collection Repositório Institucional da UFRJ
repository.name.fl_str_mv Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)
repository.mail.fl_str_mv pantheon@sibi.ufrj.br
_version_ 1861279126930849792