Novel time-frequency representations for music information retrieval
| Ano de defesa: | 2020 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Universidade Federal do Rio de Janeiro
Brasil Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia Programa de Pós-Graduação em Engenharia Elétrica UFRJ |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://hdl.handle.net/11422/25644 |
Resumo: | Time-frequency representations (TFR) are one of the most valuable tools in digital audio processing, being used in many applications. TFRs can be computed having different time or frequency resolutions and can even represent a certain frequency variation over time, e.g. when using the fan-chirp transform. The main shortcoming of TFRs is the energy smearing related to non-stationarity of the signal within the analysis windows used. This kind of artifact usually results in performance degradation of applications that make use of TFRs, hence providing TFRs that precisely represent the signals of interest is crucial to enhance the performance of such systems. A way to compute a high-resolution TFR is to combine TFRs having different resolutions in such a way that preserves the best aspects of each representation. This is the general idea behind all methods proposed in this thesis, of which the main goal is to allow for a sharp representation of main melody signals in polyphonic contexts. The methods are classified as: bin-wise combinations, combinations based on local information, and methods based on image analysis. Their performance are assessed by means of several experiments using both synthetic and real-world signals, and the results indicate the proposed multi-resolution fan-chirp interpolation method as the best in terms of frequency bandwidth, onset definition and dynamic range. Also, an automatic annotation scheme was devised to diminish the human effort in the transcription of rhythm patterns. This method utilizes TFRs with coarse frequency resolution and a clustering procedure to classify the types of hit. The estimated accuracy in terms of classification is around 75% to 80%. |
| id |
UFRJ_0f77bf8e9f7ae30f5760ef0fccda3713 |
|---|---|
| oai_identifier_str |
oai:pantheon.ufrj.br:11422/25644 |
| network_acronym_str |
UFRJ |
| network_name_str |
Repositório Institucional da UFRJ |
| repository_id_str |
|
| spelling |
Novel time-frequency representations for music information retrievalProcessamento digital de sinaisRepresentação de frequência de tempoAnálise de tempo frequênciaTransformação Fan chirpMIRMelodia dominanteMelodia principalMúsica brasileiraSambaCNPQ::ENGENHARIAS::ENGENHARIA ELETRICATime-frequency representations (TFR) are one of the most valuable tools in digital audio processing, being used in many applications. TFRs can be computed having different time or frequency resolutions and can even represent a certain frequency variation over time, e.g. when using the fan-chirp transform. The main shortcoming of TFRs is the energy smearing related to non-stationarity of the signal within the analysis windows used. This kind of artifact usually results in performance degradation of applications that make use of TFRs, hence providing TFRs that precisely represent the signals of interest is crucial to enhance the performance of such systems. A way to compute a high-resolution TFR is to combine TFRs having different resolutions in such a way that preserves the best aspects of each representation. This is the general idea behind all methods proposed in this thesis, of which the main goal is to allow for a sharp representation of main melody signals in polyphonic contexts. The methods are classified as: bin-wise combinations, combinations based on local information, and methods based on image analysis. Their performance are assessed by means of several experiments using both synthetic and real-world signals, and the results indicate the proposed multi-resolution fan-chirp interpolation method as the best in terms of frequency bandwidth, onset definition and dynamic range. Also, an automatic annotation scheme was devised to diminish the human effort in the transcription of rhythm patterns. This method utilizes TFRs with coarse frequency resolution and a clustering procedure to classify the types of hit. The estimated accuracy in terms of classification is around 75% to 80%.Representações tempo-frequenciais (RTFs) são uma das ferramentas mais valiosas em processamento digital de áudio, sendo utilizadas em diversas aplicações. RTFs podem ser calculadas tendo diferentes resoluções em tempo e em frequência e podem, inclusive, representar determinadas variações em frequência, como no caso do uso da transformada de fan-chirp. A maior deficiência de RTFs é o espalhamento de energia relacionado à não-estacionariedade do sinal na região da janela de análise. Esse tipo de artefato geralmente resulta em prejuízo de desempenho da aplicação que utilize tal RTF; portanto, ter RTFs que representem precisamente os sinais de interesse é essencial para melhorar o desempenho de tais sistemas. Uma forma de se calcular RTFs de alta resolução é combinar RTFs de diferentes resoluções de forma a preservar os melhores aspectos de cada uma. Essa é a ideia geral que embasa todos os métodos propostos nessa tese, da qual o principal objetivo é possibilitar a representação precisa de sinais de melodia principal em contextos polifônicos. Os métodos são classificados como: combinações ponto-a-ponto, combinações baseadas em informação local, e combinações baseadas em análise de imagem. Seus desempenhos são medidos por meio de diversos experimentos, em que são utilizados sinais sintéticos controlados e sinais reais, e os resultados apontam o método proposto de interpolação de fan-chirps em multirresolução como o melhor em termos de largura de banda de frequência, definição de onset e faixa dinâmica. Ademais, um método para anotação automática foi desenvolvido com a finalidade de facilitar o trabalho de transcrição de padrões rítmicos. Esse método utiliza RTFs com baixa resolução frequencial e um procedimento de agrupamento para classificar os tipos de toque. Estima-se uma acurácia de cerca de 75% a 80% em termos de classificação inicial.Universidade Federal do Rio de JaneiroBrasilInstituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de EngenhariaPrograma de Pós-Graduação em Engenharia ElétricaUFRJBiscainho, Luiz Wagner Pereirahttp://lattes.cnpq.br/1765239890846505http://lattes.cnpq.br/4529329840770262Haddad, Diego Barretohttp://lattes.cnpq.br/8728806963872778Campos, Marcello Luiz Rodrigues dehttp://lattes.cnpq.br/2402401592333107Lima, Markus Vinícius Santoshttp://lattes.cnpq.br/2937113853259682Costa, Maurício do Vale Madeira da2025-04-25T16:37:59Z2025-04-27T03:00:10Z2020-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttp://hdl.handle.net/11422/25644enginfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJ2025-04-27T03:00:10Zoai:pantheon.ufrj.br:11422/25644Repositório InstitucionalPUBhttp://www.pantheon.ufrj.br/oai/requestpantheon@sibi.ufrj.bropendoar:2025-04-27T03:00:10Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false |
| dc.title.none.fl_str_mv |
Novel time-frequency representations for music information retrieval |
| title |
Novel time-frequency representations for music information retrieval |
| spellingShingle |
Novel time-frequency representations for music information retrieval Costa, Maurício do Vale Madeira da Processamento digital de sinais Representação de frequência de tempo Análise de tempo frequência Transformação Fan chirp MIR Melodia dominante Melodia principal Música brasileira Samba CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
| title_short |
Novel time-frequency representations for music information retrieval |
| title_full |
Novel time-frequency representations for music information retrieval |
| title_fullStr |
Novel time-frequency representations for music information retrieval |
| title_full_unstemmed |
Novel time-frequency representations for music information retrieval |
| title_sort |
Novel time-frequency representations for music information retrieval |
| author |
Costa, Maurício do Vale Madeira da |
| author_facet |
Costa, Maurício do Vale Madeira da |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Biscainho, Luiz Wagner Pereira http://lattes.cnpq.br/1765239890846505 http://lattes.cnpq.br/4529329840770262 Haddad, Diego Barreto http://lattes.cnpq.br/8728806963872778 Campos, Marcello Luiz Rodrigues de http://lattes.cnpq.br/2402401592333107 Lima, Markus Vinícius Santos http://lattes.cnpq.br/2937113853259682 |
| dc.contributor.author.fl_str_mv |
Costa, Maurício do Vale Madeira da |
| dc.subject.por.fl_str_mv |
Processamento digital de sinais Representação de frequência de tempo Análise de tempo frequência Transformação Fan chirp MIR Melodia dominante Melodia principal Música brasileira Samba CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
| topic |
Processamento digital de sinais Representação de frequência de tempo Análise de tempo frequência Transformação Fan chirp MIR Melodia dominante Melodia principal Música brasileira Samba CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
| description |
Time-frequency representations (TFR) are one of the most valuable tools in digital audio processing, being used in many applications. TFRs can be computed having different time or frequency resolutions and can even represent a certain frequency variation over time, e.g. when using the fan-chirp transform. The main shortcoming of TFRs is the energy smearing related to non-stationarity of the signal within the analysis windows used. This kind of artifact usually results in performance degradation of applications that make use of TFRs, hence providing TFRs that precisely represent the signals of interest is crucial to enhance the performance of such systems. A way to compute a high-resolution TFR is to combine TFRs having different resolutions in such a way that preserves the best aspects of each representation. This is the general idea behind all methods proposed in this thesis, of which the main goal is to allow for a sharp representation of main melody signals in polyphonic contexts. The methods are classified as: bin-wise combinations, combinations based on local information, and methods based on image analysis. Their performance are assessed by means of several experiments using both synthetic and real-world signals, and the results indicate the proposed multi-resolution fan-chirp interpolation method as the best in terms of frequency bandwidth, onset definition and dynamic range. Also, an automatic annotation scheme was devised to diminish the human effort in the transcription of rhythm patterns. This method utilizes TFRs with coarse frequency resolution and a clustering procedure to classify the types of hit. The estimated accuracy in terms of classification is around 75% to 80%. |
| publishDate |
2020 |
| dc.date.none.fl_str_mv |
2020-04 2025-04-25T16:37:59Z 2025-04-27T03:00:10Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/11422/25644 |
| url |
http://hdl.handle.net/11422/25644 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro Brasil Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia Programa de Pós-Graduação em Engenharia Elétrica UFRJ |
| publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro Brasil Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia Programa de Pós-Graduação em Engenharia Elétrica UFRJ |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRJ instname:Universidade Federal do Rio de Janeiro (UFRJ) instacron:UFRJ |
| instname_str |
Universidade Federal do Rio de Janeiro (UFRJ) |
| instacron_str |
UFRJ |
| institution |
UFRJ |
| reponame_str |
Repositório Institucional da UFRJ |
| collection |
Repositório Institucional da UFRJ |
| repository.name.fl_str_mv |
Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ) |
| repository.mail.fl_str_mv |
pantheon@sibi.ufrj.br |
| _version_ |
1861279126930849792 |