Exportação concluída — 

Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Silva, Marcus Fabio Santos da
Outros Autores: http://lattes.cnpq.br/1314224962508504
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Amazonas
Faculdade de Tecnologia
Brasil
UFAM
Programa de Pós-graduação em Engenharia Elétrica
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://tede.ufam.edu.br/handle/tede/11342
Resumo: Pitch é a percepção auditiva da altura de um som, relacionada principalmente à sua frequência fundamental. A estimativa de pitch em áudio musical é uma tarefa desafiadora no campo da recuperação de informação musical (MIR). Determinar com precisão a frequência fundamental (F0) das notas musicais é crucial para várias aplicações, incluindo transcrição musical, extração de melodia e análise de áudio. O problema é complicado por fatores como polifonia, ruído de fundo e variações no timbre e na dinâmica. Métodos tradicionais para estimativa de pitch, enfrentando essas complexidades, muitas vezes produzem resultados imprecisos ou pouco confiáveis. Recentes avanços no aprendizado profundo, particularmente o uso de redes neurais convolucionais (CNNs), têm se mostrado promissores na resolução desses desafios. As CNNs são capazes de aprender representações hierárquicas a partir de dados de áudio brutos, capturando efetivamente as características temporais e espectrais essenciais para uma estimativa de pitch precisa. Este trabalho explora o problema da estimativa de múltiplos pitches em áudio musical. Discutimos as inovações na arquitetura do modelo CREPE e estratégias de treinamento que tornam o modelo capaz de estimar múltiplos pitches. Os resultados demonstraram desempenho robusto em diferentes situações. Em conjuntos de validação com múltiplas frequências, o novo modelo proposto apresentou valores elevados de RPA, com média global próxima de 0,93, evidenciando sua capacidade de identificar corretamente pitches simultâneos.
id UFAM_92d70a115e910fb8da0bfb60515a2f5d
oai_identifier_str oai:https://tede.ufam.edu.br/handle/:tede/11342
network_acronym_str UFAM
network_name_str Biblioteca Digital de Teses e Dissertações da UFAM
repository_id_str
spelling Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural ConvolucionalMulti Pitch Estimation in Polyphonic Music Audio Using Convolutional Neural NetworkENGENHARIASRecuperação de informação musicalRede neuralPitchPitch é a percepção auditiva da altura de um som, relacionada principalmente à sua frequência fundamental. A estimativa de pitch em áudio musical é uma tarefa desafiadora no campo da recuperação de informação musical (MIR). Determinar com precisão a frequência fundamental (F0) das notas musicais é crucial para várias aplicações, incluindo transcrição musical, extração de melodia e análise de áudio. O problema é complicado por fatores como polifonia, ruído de fundo e variações no timbre e na dinâmica. Métodos tradicionais para estimativa de pitch, enfrentando essas complexidades, muitas vezes produzem resultados imprecisos ou pouco confiáveis. Recentes avanços no aprendizado profundo, particularmente o uso de redes neurais convolucionais (CNNs), têm se mostrado promissores na resolução desses desafios. As CNNs são capazes de aprender representações hierárquicas a partir de dados de áudio brutos, capturando efetivamente as características temporais e espectrais essenciais para uma estimativa de pitch precisa. Este trabalho explora o problema da estimativa de múltiplos pitches em áudio musical. Discutimos as inovações na arquitetura do modelo CREPE e estratégias de treinamento que tornam o modelo capaz de estimar múltiplos pitches. Os resultados demonstraram desempenho robusto em diferentes situações. Em conjuntos de validação com múltiplas frequências, o novo modelo proposto apresentou valores elevados de RPA, com média global próxima de 0,93, evidenciando sua capacidade de identificar corretamente pitches simultâneos.Pitch is the auditory perception of the height of a sound, primarily related to its fundamental frequency. Pitch estimation in musical audio is a fundamental yet challenging task in the field of music information retrieval (MIR). Accurately determining the fundamental frequency (F0) of musical notes is crucial for various applications, including music transcription, melody extraction, and audio analysis. The problem is complicated by factors such as polyphony, background noise, and variations in timbre and dynamics. Traditional methods for estimating pitch, when dealing with these complexities, often produce inaccurate or unreliable results. Recent improvements in deep learning, especially using convolutional neural networks (CNNs), have shown potential in tackling these challenges. CNNs are capable of learning hierarchical representations from raw audio data, effectively capturing the temporal and spectral features essential for accurate pitch estimation. This work explores the problem of multi-pitch estimation in musical audio, highlighting the inherent challenges and the current state-of-the-art solutions using CNNs. We discussed the innovations in the CREPE model architecture and the training strategies that enable the model to estimate multiple pitches. The results demonstrated robust performance in different scenarios. In validation sets with multiple frequencies, the newly proposed model achieved high RPA values, with an overall average close to 0,93, highlighting its ability to correctly identify simultaneous pitches.Universidade Federal do AmazonasFaculdade de TecnologiaBrasilUFAMPrograma de Pós-graduação em Engenharia ElétricaSilva Junior, Waldir Sabino dahttp://lattes.cnpq.br/2925380715531711Ayres Junior, Florindo Antonio de Carvalhohttp://lattes.cnpq.br/1919442364965261Araujo, Gabriel Matoshttp://lattes.cnpq.br/4461794616207452Silva, Marcus Fabio Santos dahttp://lattes.cnpq.br/13142249625085042025-12-11T21:18:37Z2025-10-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSILVA, Marcus Fabio Santos da. Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional. 2025. 91 f. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Federal do Amazonas, Manaus (AM), 2025.https://tede.ufam.edu.br/handle/tede/11342porhttps://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2025-12-12T05:06:09Zoai:https://tede.ufam.edu.br/handle/:tede/11342Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br||ddbc@ufam.edu.bropendoar:65922025-12-12T05:06:09Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false
dc.title.none.fl_str_mv Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional
Multi Pitch Estimation in Polyphonic Music Audio Using Convolutional Neural Network
title Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional
spellingShingle Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional
Silva, Marcus Fabio Santos da
ENGENHARIAS
Recuperação de informação musical
Rede neural
Pitch
title_short Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional
title_full Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional
title_fullStr Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional
title_full_unstemmed Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional
title_sort Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional
author Silva, Marcus Fabio Santos da
author_facet Silva, Marcus Fabio Santos da
http://lattes.cnpq.br/1314224962508504
author_role author
author2 http://lattes.cnpq.br/1314224962508504
author2_role author
dc.contributor.none.fl_str_mv Silva Junior, Waldir Sabino da
http://lattes.cnpq.br/2925380715531711
Ayres Junior, Florindo Antonio de Carvalho
http://lattes.cnpq.br/1919442364965261
Araujo, Gabriel Matos
http://lattes.cnpq.br/4461794616207452
dc.contributor.author.fl_str_mv Silva, Marcus Fabio Santos da
http://lattes.cnpq.br/1314224962508504
dc.subject.por.fl_str_mv ENGENHARIAS
Recuperação de informação musical
Rede neural
Pitch
topic ENGENHARIAS
Recuperação de informação musical
Rede neural
Pitch
description Pitch é a percepção auditiva da altura de um som, relacionada principalmente à sua frequência fundamental. A estimativa de pitch em áudio musical é uma tarefa desafiadora no campo da recuperação de informação musical (MIR). Determinar com precisão a frequência fundamental (F0) das notas musicais é crucial para várias aplicações, incluindo transcrição musical, extração de melodia e análise de áudio. O problema é complicado por fatores como polifonia, ruído de fundo e variações no timbre e na dinâmica. Métodos tradicionais para estimativa de pitch, enfrentando essas complexidades, muitas vezes produzem resultados imprecisos ou pouco confiáveis. Recentes avanços no aprendizado profundo, particularmente o uso de redes neurais convolucionais (CNNs), têm se mostrado promissores na resolução desses desafios. As CNNs são capazes de aprender representações hierárquicas a partir de dados de áudio brutos, capturando efetivamente as características temporais e espectrais essenciais para uma estimativa de pitch precisa. Este trabalho explora o problema da estimativa de múltiplos pitches em áudio musical. Discutimos as inovações na arquitetura do modelo CREPE e estratégias de treinamento que tornam o modelo capaz de estimar múltiplos pitches. Os resultados demonstraram desempenho robusto em diferentes situações. Em conjuntos de validação com múltiplas frequências, o novo modelo proposto apresentou valores elevados de RPA, com média global próxima de 0,93, evidenciando sua capacidade de identificar corretamente pitches simultâneos.
publishDate 2025
dc.date.none.fl_str_mv 2025-12-11T21:18:37Z
2025-10-15
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SILVA, Marcus Fabio Santos da. Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional. 2025. 91 f. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Federal do Amazonas, Manaus (AM), 2025.
https://tede.ufam.edu.br/handle/tede/11342
identifier_str_mv SILVA, Marcus Fabio Santos da. Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional. 2025. 91 f. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Federal do Amazonas, Manaus (AM), 2025.
url https://tede.ufam.edu.br/handle/tede/11342
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Amazonas
Faculdade de Tecnologia
Brasil
UFAM
Programa de Pós-graduação em Engenharia Elétrica
publisher.none.fl_str_mv Universidade Federal do Amazonas
Faculdade de Tecnologia
Brasil
UFAM
Programa de Pós-graduação em Engenharia Elétrica
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFAM
instname:Universidade Federal do Amazonas (UFAM)
instacron:UFAM
instname_str Universidade Federal do Amazonas (UFAM)
instacron_str UFAM
institution UFAM
reponame_str Biblioteca Digital de Teses e Dissertações da UFAM
collection Biblioteca Digital de Teses e Dissertações da UFAM
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)
repository.mail.fl_str_mv ddbc@ufam.edu.br||ddbc@ufam.edu.br
_version_ 1851781323838980096