Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da transformada em co-seno.

Detalhes bibliográficos
Ano de defesa: 2006
Autor(a) principal: Irineu Antunes Júnior
Orientador(a): Phillip Mark Seymour Burt
Banca de defesa: Luiz Antonio Baccala, Yuzo Iano, Magno Teófilo Madeira da Silva, Luiz Cezar Trintinalia
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade de São Paulo
Programa de Pós-Graduação: Engenharia Elétrica
Departamento: Não Informado pela instituição
País: BR
Link de acesso: https://doi.org/10.11606/T.3.2006.tde-05092006-103643
Resumo: Muitos métodos de redução de ruído se baseiam na possibilidade de representar o sinal original com um reduzido número de coeficientes de uma transformada, ou melhor, obtém-se um sinal com menos ruído pelo cancelamento dos coeficientes abaixo de um valor adequadamente estabelecido de magnitude. Deve-se supor que a contribuição do ruído se distribua de maneira uniforme por todos os coeficientes. Uma desvantagem destes métodos, quando aplicados a sinais de voz, é a distorção introduzida pela eliminação dos coeficientes de pequena magnitude, juntamente com a presença de sinais espúrios, como o “ruído musical" produzido por coeficientes ruidosos isolados que eventualmente ultrapassam o limiar. Para as transformadas usualmente empregadas, o histograma da distribuição dos coeficientes do sinal de voz possui um grande número de coeficientes próximos à origem. Diante disto, propomos uma nova função de “thresholding" concebida especialmente para redução de ruído em sinais de voz adicionados a AWGN (“Additive, White, and Gaussian Noise"). Esta função, chamada de SoftSoft, depende de dois valores de limiar: um nível inferior, ajustado para reduzir a distorção da voz, e um nível superior, ajustado para eliminar ruído. Os valores ótimos de limiar são calculados para minimizar uma estimativa do erro quadrático médio (MSE): diretamente, supondo conhecido o sinal original; indiretamente, usando uma função de interpolação para o MSE, levando a um método prático. A função SoftSoft alcança um MSE inferior ao que se obtém pelo emprego das conhecidas operações de “Soft" ou “Hard-thresholding", as quais dispõem apenas do limiar superior. Ainda que a melhoria em termos de MSE não seja muito expressiva, a melhoria da qualidade perceptual foi certificada tanto por um ouvinte quanto por uma medida perceptual de distorção (a distância log-espectral).
id USP_10d938d7156a1a47a6169cead157e6d6
oai_identifier_str oai:teses.usp.br:tde-05092006-103643
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da transformada em co-seno. Speech denoising by softsoft thresholding. 2006-04-24Phillip Mark Seymour BurtLuiz Antonio BaccalaYuzo IanoMagno Teófilo Madeira da SilvaLuiz Cezar TrintinaliaIrineu Antunes JúniorUniversidade de São PauloEngenharia ElétricaUSPBR digital speech processing estimação não-paramétrica non-parametric speech signal estimation processamento digital de voz redução de ruído em sinal de voz speech denoising Muitos métodos de redução de ruído se baseiam na possibilidade de representar o sinal original com um reduzido número de coeficientes de uma transformada, ou melhor, obtém-se um sinal com menos ruído pelo cancelamento dos coeficientes abaixo de um valor adequadamente estabelecido de magnitude. Deve-se supor que a contribuição do ruído se distribua de maneira uniforme por todos os coeficientes. Uma desvantagem destes métodos, quando aplicados a sinais de voz, é a distorção introduzida pela eliminação dos coeficientes de pequena magnitude, juntamente com a presença de sinais espúrios, como o “ruído musical" produzido por coeficientes ruidosos isolados que eventualmente ultrapassam o limiar. Para as transformadas usualmente empregadas, o histograma da distribuição dos coeficientes do sinal de voz possui um grande número de coeficientes próximos à origem. Diante disto, propomos uma nova função de “thresholding" concebida especialmente para redução de ruído em sinais de voz adicionados a AWGN (“Additive, White, and Gaussian Noise"). Esta função, chamada de SoftSoft, depende de dois valores de limiar: um nível inferior, ajustado para reduzir a distorção da voz, e um nível superior, ajustado para eliminar ruído. Os valores ótimos de limiar são calculados para minimizar uma estimativa do erro quadrático médio (MSE): diretamente, supondo conhecido o sinal original; indiretamente, usando uma função de interpolação para o MSE, levando a um método prático. A função SoftSoft alcança um MSE inferior ao que se obtém pelo emprego das conhecidas operações de “Soft" ou “Hard-thresholding", as quais dispõem apenas do limiar superior. Ainda que a melhoria em termos de MSE não seja muito expressiva, a melhoria da qualidade perceptual foi certificada tanto por um ouvinte quanto por uma medida perceptual de distorção (a distância log-espectral). Many noise-reduction methods are based on the possibility of representing the clean signal as a reduced number of coefficients of a block transform, so that cancelling coefficients below a certain thresholding level will produce an enhanced reconstructed signal. It is necessary to assume that the clean signal has a sparse representation, while the noise energy is spread over all coefficients. The main drawback of those methods is the speech distortion introduced by eliminating small magnitude coefficients, and the presence of artifacts (“musical noise") produced by isolated noisy coefficients randomly crossing the thresholding level. Based on the observation that the speech coefficient histogram has many important coefficients close to origin, we propose a custom thresholding function to perform noise reduction in speech signals corrupted by AWGN. This function, called SoftSoft, has two thresholding levels: a lower level adjusted to reduce speech distortion, and a higher level adjusted to remove noise. The joint optimal values can be determined by minimizing the resulting mean square error (MSE). We also verify that this new thresholding function leads to a lower MSE than the well-known Soft and Hard-thresholding functions, which employ only a higher thresholding level. Although the improvement in terms of MSE is not expressive, a perceptual distortion measure (the log-spectral distance, LSD) is employed to prove the higher performance of the proposed thresholding scheme. https://doi.org/10.11606/T.3.2006.tde-05092006-103643info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USP2023-12-21T18:16:34Zoai:teses.usp.br:tde-05092006-103643Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212019-04-16T20:48:23Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.pt.fl_str_mv Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da transformada em co-seno.
dc.title.alternative.en.fl_str_mv Speech denoising by softsoft thresholding.
title Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da transformada em co-seno.
spellingShingle Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da transformada em co-seno.
Irineu Antunes Júnior
title_short Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da transformada em co-seno.
title_full Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da transformada em co-seno.
title_fullStr Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da transformada em co-seno.
title_full_unstemmed Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da transformada em co-seno.
title_sort Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da transformada em co-seno.
author Irineu Antunes Júnior
author_facet Irineu Antunes Júnior
author_role author
dc.contributor.advisor1.fl_str_mv Phillip Mark Seymour Burt
dc.contributor.referee1.fl_str_mv Luiz Antonio Baccala
dc.contributor.referee2.fl_str_mv Yuzo Iano
dc.contributor.referee3.fl_str_mv Magno Teófilo Madeira da Silva
dc.contributor.referee4.fl_str_mv Luiz Cezar Trintinalia
dc.contributor.author.fl_str_mv Irineu Antunes Júnior
contributor_str_mv Phillip Mark Seymour Burt
Luiz Antonio Baccala
Yuzo Iano
Magno Teófilo Madeira da Silva
Luiz Cezar Trintinalia
description Muitos métodos de redução de ruído se baseiam na possibilidade de representar o sinal original com um reduzido número de coeficientes de uma transformada, ou melhor, obtém-se um sinal com menos ruído pelo cancelamento dos coeficientes abaixo de um valor adequadamente estabelecido de magnitude. Deve-se supor que a contribuição do ruído se distribua de maneira uniforme por todos os coeficientes. Uma desvantagem destes métodos, quando aplicados a sinais de voz, é a distorção introduzida pela eliminação dos coeficientes de pequena magnitude, juntamente com a presença de sinais espúrios, como o “ruído musical" produzido por coeficientes ruidosos isolados que eventualmente ultrapassam o limiar. Para as transformadas usualmente empregadas, o histograma da distribuição dos coeficientes do sinal de voz possui um grande número de coeficientes próximos à origem. Diante disto, propomos uma nova função de “thresholding" concebida especialmente para redução de ruído em sinais de voz adicionados a AWGN (“Additive, White, and Gaussian Noise"). Esta função, chamada de SoftSoft, depende de dois valores de limiar: um nível inferior, ajustado para reduzir a distorção da voz, e um nível superior, ajustado para eliminar ruído. Os valores ótimos de limiar são calculados para minimizar uma estimativa do erro quadrático médio (MSE): diretamente, supondo conhecido o sinal original; indiretamente, usando uma função de interpolação para o MSE, levando a um método prático. A função SoftSoft alcança um MSE inferior ao que se obtém pelo emprego das conhecidas operações de “Soft" ou “Hard-thresholding", as quais dispõem apenas do limiar superior. Ainda que a melhoria em termos de MSE não seja muito expressiva, a melhoria da qualidade perceptual foi certificada tanto por um ouvinte quanto por uma medida perceptual de distorção (a distância log-espectral).
publishDate 2006
dc.date.issued.fl_str_mv 2006-04-24
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://doi.org/10.11606/T.3.2006.tde-05092006-103643
url https://doi.org/10.11606/T.3.2006.tde-05092006-103643
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade de São Paulo
dc.publisher.program.fl_str_mv Engenharia Elétrica
dc.publisher.initials.fl_str_mv USP
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv Universidade de São Paulo
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1786376583459635200