Sobre auto-aprendizado de representações para realce da voz 3D.

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Guimarães, Heitor Rodrigues
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26072023-090438/
Resumo: Métodos baseados em redes neurais profundas ganharam uma grande importância ao se mostrarem alternativas viáveis e poderosas para diversas tarefas, em especial para tarefas de processamento da voz, como reconhecimento de fala, detecção de palavras-chaves e reconhecimento de emoções. Entretanto esses métodos possuem alguns problemas intrínsecos, especialmente no que tange à robustez na presença de fatores deletérios, como ruídos e reverberação. Neste trabalho abordamos o problema de realce da voz, que tem como objetivo ser um sistema de pré-processamento capaz de realçar as características da voz e suprimir ruídos. Algoritmos baseados em modelos estatísticos abordam isto como um problema de maximização de verossimilhança. No entanto, não há garantias de que melhorará características perceptivas, como a inteligibilidade. Estudamos o uso de representações de fala extraídas do modelo wav2vec como função de custo perceptiva para a tarefa de realce da voz. Nossos experimentos demonstram que o uso de modelos de aprendizado contrastivo em funções de custo, para levar em conta características perceptivas, pode melhorar o desempenho do aprimoramento de fala em ambientes 3D. Além disso, discutimos o uso de modelos no domínio do tempo e do tempo-frequência. Nossos melhores resultados são obtidos através de modelos tempo-frequência, em detrimento do custo computacional.
id USP_4c26131f23af2ee788ff23179561fe6b
oai_identifier_str oai:teses.usp.br:tde-26072023-090438
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Sobre auto-aprendizado de representações para realce da voz 3D.On self-supervised representations for 3D speech enhancement.Aprendizado computacionalAprendizado de representaçõesAprendizado não supervisionadoAudio espacialProcessamento de vozRealce da vozRepresentation learningSpatial audioSpeech enhancementSpeech processingUnsupervised learningMétodos baseados em redes neurais profundas ganharam uma grande importância ao se mostrarem alternativas viáveis e poderosas para diversas tarefas, em especial para tarefas de processamento da voz, como reconhecimento de fala, detecção de palavras-chaves e reconhecimento de emoções. Entretanto esses métodos possuem alguns problemas intrínsecos, especialmente no que tange à robustez na presença de fatores deletérios, como ruídos e reverberação. Neste trabalho abordamos o problema de realce da voz, que tem como objetivo ser um sistema de pré-processamento capaz de realçar as características da voz e suprimir ruídos. Algoritmos baseados em modelos estatísticos abordam isto como um problema de maximização de verossimilhança. No entanto, não há garantias de que melhorará características perceptivas, como a inteligibilidade. Estudamos o uso de representações de fala extraídas do modelo wav2vec como função de custo perceptiva para a tarefa de realce da voz. Nossos experimentos demonstram que o uso de modelos de aprendizado contrastivo em funções de custo, para levar em conta características perceptivas, pode melhorar o desempenho do aprimoramento de fala em ambientes 3D. Além disso, discutimos o uso de modelos no domínio do tempo e do tempo-frequência. Nossos melhores resultados são obtidos através de modelos tempo-frequência, em detrimento do custo computacional.Methods based on deep neural networks have gained significant importance by showing viable and robust alternatives for several tasks, especially for speech processing, such as speech recognition, keyword spotting, and emotion recognition. However, these methods have inherent problems, especially regarding the robustness to detrimental factors, such as noise and reverberation. In this work, we tackle the Speech Enhancement problem, a pre-processing system capable of emphasizing the speech signal while suppressing noises. Statistical-model-based algorithms approach this as a likelihood maximization problem. However, there are no guarantees that it will improve perceptual characteristics such as intelligibility. We study the usage of speech representations extracted from the wav2vec model as a perceptual loss function for the Speech Enhancement task. Our experiments demonstrate that using contrastive learning models to consider high-level perceptual features in loss functions can improve the performance of 3D Speech Enhancement. Moreover, we discuss the usage of models in the time and time-frequency domain. Our best results are obtained through time-frequency models, increasing the computational cost.Biblioteca Digitais de Teses e Dissertações da USPBeccaro, WesleyRamirez, Miguel ArjonaGuimarães, Heitor Rodrigues2022-06-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-26072023-090438/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-07-31T11:59:00Zoai:teses.usp.br:tde-26072023-090438Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-07-31T11:59Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Sobre auto-aprendizado de representações para realce da voz 3D.
On self-supervised representations for 3D speech enhancement.
title Sobre auto-aprendizado de representações para realce da voz 3D.
spellingShingle Sobre auto-aprendizado de representações para realce da voz 3D.
Guimarães, Heitor Rodrigues
Aprendizado computacional
Aprendizado de representações
Aprendizado não supervisionado
Audio espacial
Processamento de voz
Realce da voz
Representation learning
Spatial audio
Speech enhancement
Speech processing
Unsupervised learning
title_short Sobre auto-aprendizado de representações para realce da voz 3D.
title_full Sobre auto-aprendizado de representações para realce da voz 3D.
title_fullStr Sobre auto-aprendizado de representações para realce da voz 3D.
title_full_unstemmed Sobre auto-aprendizado de representações para realce da voz 3D.
title_sort Sobre auto-aprendizado de representações para realce da voz 3D.
author Guimarães, Heitor Rodrigues
author_facet Guimarães, Heitor Rodrigues
author_role author
dc.contributor.none.fl_str_mv Beccaro, Wesley
Ramirez, Miguel Arjona
dc.contributor.author.fl_str_mv Guimarães, Heitor Rodrigues
dc.subject.por.fl_str_mv Aprendizado computacional
Aprendizado de representações
Aprendizado não supervisionado
Audio espacial
Processamento de voz
Realce da voz
Representation learning
Spatial audio
Speech enhancement
Speech processing
Unsupervised learning
topic Aprendizado computacional
Aprendizado de representações
Aprendizado não supervisionado
Audio espacial
Processamento de voz
Realce da voz
Representation learning
Spatial audio
Speech enhancement
Speech processing
Unsupervised learning
description Métodos baseados em redes neurais profundas ganharam uma grande importância ao se mostrarem alternativas viáveis e poderosas para diversas tarefas, em especial para tarefas de processamento da voz, como reconhecimento de fala, detecção de palavras-chaves e reconhecimento de emoções. Entretanto esses métodos possuem alguns problemas intrínsecos, especialmente no que tange à robustez na presença de fatores deletérios, como ruídos e reverberação. Neste trabalho abordamos o problema de realce da voz, que tem como objetivo ser um sistema de pré-processamento capaz de realçar as características da voz e suprimir ruídos. Algoritmos baseados em modelos estatísticos abordam isto como um problema de maximização de verossimilhança. No entanto, não há garantias de que melhorará características perceptivas, como a inteligibilidade. Estudamos o uso de representações de fala extraídas do modelo wav2vec como função de custo perceptiva para a tarefa de realce da voz. Nossos experimentos demonstram que o uso de modelos de aprendizado contrastivo em funções de custo, para levar em conta características perceptivas, pode melhorar o desempenho do aprimoramento de fala em ambientes 3D. Além disso, discutimos o uso de modelos no domínio do tempo e do tempo-frequência. Nossos melhores resultados são obtidos através de modelos tempo-frequência, em detrimento do custo computacional.
publishDate 2022
dc.date.none.fl_str_mv 2022-06-28
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26072023-090438/
url https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26072023-090438/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815258497971912704