Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Outros Autores: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal do Amazonas
Faculdade de Tecnologia Brasil UFAM Programa de Pós-graduação em Engenharia Elétrica |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://tede.ufam.edu.br/handle/tede/11342 |
Resumo: | Pitch é a percepção auditiva da altura de um som, relacionada principalmente à sua frequência fundamental. A estimativa de pitch em áudio musical é uma tarefa desafiadora no campo da recuperação de informação musical (MIR). Determinar com precisão a frequência fundamental (F0) das notas musicais é crucial para várias aplicações, incluindo transcrição musical, extração de melodia e análise de áudio. O problema é complicado por fatores como polifonia, ruído de fundo e variações no timbre e na dinâmica. Métodos tradicionais para estimativa de pitch, enfrentando essas complexidades, muitas vezes produzem resultados imprecisos ou pouco confiáveis. Recentes avanços no aprendizado profundo, particularmente o uso de redes neurais convolucionais (CNNs), têm se mostrado promissores na resolução desses desafios. As CNNs são capazes de aprender representações hierárquicas a partir de dados de áudio brutos, capturando efetivamente as características temporais e espectrais essenciais para uma estimativa de pitch precisa. Este trabalho explora o problema da estimativa de múltiplos pitches em áudio musical. Discutimos as inovações na arquitetura do modelo CREPE e estratégias de treinamento que tornam o modelo capaz de estimar múltiplos pitches. Os resultados demonstraram desempenho robusto em diferentes situações. Em conjuntos de validação com múltiplas frequências, o novo modelo proposto apresentou valores elevados de RPA, com média global próxima de 0,93, evidenciando sua capacidade de identificar corretamente pitches simultâneos. |
| id |
UFAM_92d70a115e910fb8da0bfb60515a2f5d |
|---|---|
| oai_identifier_str |
oai:https://tede.ufam.edu.br/handle/:tede/11342 |
| network_acronym_str |
UFAM |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UFAM |
| repository_id_str |
|
| spelling |
Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural ConvolucionalMulti Pitch Estimation in Polyphonic Music Audio Using Convolutional Neural NetworkENGENHARIASRecuperação de informação musicalRede neuralPitchPitch é a percepção auditiva da altura de um som, relacionada principalmente à sua frequência fundamental. A estimativa de pitch em áudio musical é uma tarefa desafiadora no campo da recuperação de informação musical (MIR). Determinar com precisão a frequência fundamental (F0) das notas musicais é crucial para várias aplicações, incluindo transcrição musical, extração de melodia e análise de áudio. O problema é complicado por fatores como polifonia, ruído de fundo e variações no timbre e na dinâmica. Métodos tradicionais para estimativa de pitch, enfrentando essas complexidades, muitas vezes produzem resultados imprecisos ou pouco confiáveis. Recentes avanços no aprendizado profundo, particularmente o uso de redes neurais convolucionais (CNNs), têm se mostrado promissores na resolução desses desafios. As CNNs são capazes de aprender representações hierárquicas a partir de dados de áudio brutos, capturando efetivamente as características temporais e espectrais essenciais para uma estimativa de pitch precisa. Este trabalho explora o problema da estimativa de múltiplos pitches em áudio musical. Discutimos as inovações na arquitetura do modelo CREPE e estratégias de treinamento que tornam o modelo capaz de estimar múltiplos pitches. Os resultados demonstraram desempenho robusto em diferentes situações. Em conjuntos de validação com múltiplas frequências, o novo modelo proposto apresentou valores elevados de RPA, com média global próxima de 0,93, evidenciando sua capacidade de identificar corretamente pitches simultâneos.Pitch is the auditory perception of the height of a sound, primarily related to its fundamental frequency. Pitch estimation in musical audio is a fundamental yet challenging task in the field of music information retrieval (MIR). Accurately determining the fundamental frequency (F0) of musical notes is crucial for various applications, including music transcription, melody extraction, and audio analysis. The problem is complicated by factors such as polyphony, background noise, and variations in timbre and dynamics. Traditional methods for estimating pitch, when dealing with these complexities, often produce inaccurate or unreliable results. Recent improvements in deep learning, especially using convolutional neural networks (CNNs), have shown potential in tackling these challenges. CNNs are capable of learning hierarchical representations from raw audio data, effectively capturing the temporal and spectral features essential for accurate pitch estimation. This work explores the problem of multi-pitch estimation in musical audio, highlighting the inherent challenges and the current state-of-the-art solutions using CNNs. We discussed the innovations in the CREPE model architecture and the training strategies that enable the model to estimate multiple pitches. The results demonstrated robust performance in different scenarios. In validation sets with multiple frequencies, the newly proposed model achieved high RPA values, with an overall average close to 0,93, highlighting its ability to correctly identify simultaneous pitches.Universidade Federal do AmazonasFaculdade de TecnologiaBrasilUFAMPrograma de Pós-graduação em Engenharia ElétricaSilva Junior, Waldir Sabino dahttp://lattes.cnpq.br/2925380715531711Ayres Junior, Florindo Antonio de Carvalhohttp://lattes.cnpq.br/1919442364965261Araujo, Gabriel Matoshttp://lattes.cnpq.br/4461794616207452Silva, Marcus Fabio Santos dahttp://lattes.cnpq.br/13142249625085042025-12-11T21:18:37Z2025-10-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSILVA, Marcus Fabio Santos da. Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional. 2025. 91 f. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Federal do Amazonas, Manaus (AM), 2025.https://tede.ufam.edu.br/handle/tede/11342porhttps://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2025-12-12T05:06:09Zoai:https://tede.ufam.edu.br/handle/:tede/11342Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br||ddbc@ufam.edu.bropendoar:65922025-12-12T05:06:09Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false |
| dc.title.none.fl_str_mv |
Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional Multi Pitch Estimation in Polyphonic Music Audio Using Convolutional Neural Network |
| title |
Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional |
| spellingShingle |
Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional Silva, Marcus Fabio Santos da ENGENHARIAS Recuperação de informação musical Rede neural Pitch |
| title_short |
Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional |
| title_full |
Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional |
| title_fullStr |
Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional |
| title_full_unstemmed |
Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional |
| title_sort |
Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional |
| author |
Silva, Marcus Fabio Santos da |
| author_facet |
Silva, Marcus Fabio Santos da http://lattes.cnpq.br/1314224962508504 |
| author_role |
author |
| author2 |
http://lattes.cnpq.br/1314224962508504 |
| author2_role |
author |
| dc.contributor.none.fl_str_mv |
Silva Junior, Waldir Sabino da http://lattes.cnpq.br/2925380715531711 Ayres Junior, Florindo Antonio de Carvalho http://lattes.cnpq.br/1919442364965261 Araujo, Gabriel Matos http://lattes.cnpq.br/4461794616207452 |
| dc.contributor.author.fl_str_mv |
Silva, Marcus Fabio Santos da http://lattes.cnpq.br/1314224962508504 |
| dc.subject.por.fl_str_mv |
ENGENHARIAS Recuperação de informação musical Rede neural Pitch |
| topic |
ENGENHARIAS Recuperação de informação musical Rede neural Pitch |
| description |
Pitch é a percepção auditiva da altura de um som, relacionada principalmente à sua frequência fundamental. A estimativa de pitch em áudio musical é uma tarefa desafiadora no campo da recuperação de informação musical (MIR). Determinar com precisão a frequência fundamental (F0) das notas musicais é crucial para várias aplicações, incluindo transcrição musical, extração de melodia e análise de áudio. O problema é complicado por fatores como polifonia, ruído de fundo e variações no timbre e na dinâmica. Métodos tradicionais para estimativa de pitch, enfrentando essas complexidades, muitas vezes produzem resultados imprecisos ou pouco confiáveis. Recentes avanços no aprendizado profundo, particularmente o uso de redes neurais convolucionais (CNNs), têm se mostrado promissores na resolução desses desafios. As CNNs são capazes de aprender representações hierárquicas a partir de dados de áudio brutos, capturando efetivamente as características temporais e espectrais essenciais para uma estimativa de pitch precisa. Este trabalho explora o problema da estimativa de múltiplos pitches em áudio musical. Discutimos as inovações na arquitetura do modelo CREPE e estratégias de treinamento que tornam o modelo capaz de estimar múltiplos pitches. Os resultados demonstraram desempenho robusto em diferentes situações. Em conjuntos de validação com múltiplas frequências, o novo modelo proposto apresentou valores elevados de RPA, com média global próxima de 0,93, evidenciando sua capacidade de identificar corretamente pitches simultâneos. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-12-11T21:18:37Z 2025-10-15 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
SILVA, Marcus Fabio Santos da. Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional. 2025. 91 f. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Federal do Amazonas, Manaus (AM), 2025. https://tede.ufam.edu.br/handle/tede/11342 |
| identifier_str_mv |
SILVA, Marcus Fabio Santos da. Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional. 2025. 91 f. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Federal do Amazonas, Manaus (AM), 2025. |
| url |
https://tede.ufam.edu.br/handle/tede/11342 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal do Amazonas Faculdade de Tecnologia Brasil UFAM Programa de Pós-graduação em Engenharia Elétrica |
| publisher.none.fl_str_mv |
Universidade Federal do Amazonas Faculdade de Tecnologia Brasil UFAM Programa de Pós-graduação em Engenharia Elétrica |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFAM instname:Universidade Federal do Amazonas (UFAM) instacron:UFAM |
| instname_str |
Universidade Federal do Amazonas (UFAM) |
| instacron_str |
UFAM |
| institution |
UFAM |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UFAM |
| collection |
Biblioteca Digital de Teses e Dissertações da UFAM |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM) |
| repository.mail.fl_str_mv |
ddbc@ufam.edu.br||ddbc@ufam.edu.br |
| _version_ |
1851781323838980096 |