Um estudo sobre limitações de técnicas de mascaramento espectral na separação cega de sinais de voz reverberados

Detalhes bibliográficos
Ano de defesa: 2008
Autor(a) principal: Gustavo Fernandes Rodrigues
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Minas Gerais
UFMG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1843/BUOS-8CVHTG
Resumo: The objective of this study is to analyze the limitations of techniques for blind source separation (BSS) of convolved mixtures based on time-frequency domain binary masking. These techniques are based on the sparsity of speech signals and assume that, in a mixture of independent speech signals, for each time and frequency, it is unlikely to find more than one active source. In this study, initially, the performance of the DUET algorithm is analyzed for convolved mixtures. The use of phase information for source separation is evaluated through the analysis of performance of an algorithm proposed which uses only relative amplitude information for the estimation of spectral masks. It was verified that, for the specific case of the separation of two speech signals, the use of phase information does not affect the algorithm performance. In the next step, the limitations of the spectrum masking technique is analyzed as a function of the reverberation time of the signals that compose the mixture to be separated. When the ideal masks are known, a separation of about 9 dB is obtained for the case of an environment with reverberation time less than 300 ms. From this point on, as the reverberation time increases, the signals that compose the mixture spread over the time-frequency plane, progressively reducing the separation process performance. Next, given that finding ideal masks based on a single mixture is still an open problem, the performance loss of the separation process is measured as a function of the distance between the ideal mask and the mask effectively used. The results found show a performance loss of 3 dB when approximately 10% of the bits of the ideal mask are inverted. Finally, preliminary analyses are carried out to find the ideal mask based on negentropy, kurtosis and on the energy of the separated signals.
id UFMG_d13e3e720a37ffdfd5e54b56d92a22bd
oai_identifier_str oai:repositorio.ufmg.br:1843/BUOS-8CVHTG
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Um estudo sobre limitações de técnicas de mascaramento espectral na separação cega de sinais de voz reverberadosEngenharia ElétricaEngenharia elétricaThe objective of this study is to analyze the limitations of techniques for blind source separation (BSS) of convolved mixtures based on time-frequency domain binary masking. These techniques are based on the sparsity of speech signals and assume that, in a mixture of independent speech signals, for each time and frequency, it is unlikely to find more than one active source. In this study, initially, the performance of the DUET algorithm is analyzed for convolved mixtures. The use of phase information for source separation is evaluated through the analysis of performance of an algorithm proposed which uses only relative amplitude information for the estimation of spectral masks. It was verified that, for the specific case of the separation of two speech signals, the use of phase information does not affect the algorithm performance. In the next step, the limitations of the spectrum masking technique is analyzed as a function of the reverberation time of the signals that compose the mixture to be separated. When the ideal masks are known, a separation of about 9 dB is obtained for the case of an environment with reverberation time less than 300 ms. From this point on, as the reverberation time increases, the signals that compose the mixture spread over the time-frequency plane, progressively reducing the separation process performance. Next, given that finding ideal masks based on a single mixture is still an open problem, the performance loss of the separation process is measured as a function of the distance between the ideal mask and the mask effectively used. The results found show a performance loss of 3 dB when approximately 10% of the bits of the ideal mask are inverted. Finally, preliminary analyses are carried out to find the ideal mask based on negentropy, kurtosis and on the energy of the separated signals.O objetivo deste trabalho é analisar e verificar as limitações de técnicas de mascaramento binário no domínio tempo-freqüência para o problema de separação cega de fontes (Blind Source Separation) a partir de misturas convoluídas. Tais técnicas baseiam-se na esparsidade dos sinais de voz e consideram que, em uma mistura de fontes independentes, é improvável encontrar sinais ativos em um mesmo instante de tempo e freqüência. Neste trabalho, inicialmente, é verificado o desempenho do algoritmo DUET para misturas convoluídas. A utilização da informação de fase para a separação de fontes é avaliada através da análise de desempenho de um algoritmo proposto que considera apenas a informação de amplitude relativa para a estimação das máscaras espectrais. Observa-se que, no caso específico da separação de dois sinais de voz, a utilização da informação de fase não influi no desempenho do algoritmo. No próximo passo, analisa-se as limitações da técnica de mascaramento espectral em função do tempo de reverberação dos sinais que formam a mistura a ser separada. Quando se conhece as máscaras ideais, obtém-se uma separação da ordem de 9 dB, para o caso de um ambiente com tempo de reverberação inferior a 300 ms. A partir daí, à medida que o tempo de reverberação aumenta, os sinais que formam as misturas analisadas espalham-se sobre o plano tempo-frequência, reduzindo progressivamente o desempenho do processo de separação. A seguir, dado que encontrar máscaras ideais com base em apenas uma mistura é ainda um problema em aberto, mede-se a queda de desempenho do processo de separação em função da distância entre a máscara ideal e a máscara efetivamente usada. Os resultados encontrados indicam uma queda de desempenho de 3 dB quando aproximadamente 10% dos bits da máscara ideal estão invertidos. Finalmente, são realizadas análises preliminares para encontrar a máscara ideal com base na negentropia, na curtose e na energia dos sinais separados.Universidade Federal de Minas GeraisUFMGHani Camille YehiaGustavo Fernandes Rodrigues2019-08-13T11:25:39Z2019-08-13T11:25:39Z2008-05-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://hdl.handle.net/1843/BUOS-8CVHTGinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMG2019-11-15T01:47:25Zoai:repositorio.ufmg.br:1843/BUOS-8CVHTGRepositório InstitucionalPUBhttps://repositorio.ufmg.br/oairepositorio@ufmg.bropendoar:2019-11-15T01:47:25Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.none.fl_str_mv Um estudo sobre limitações de técnicas de mascaramento espectral na separação cega de sinais de voz reverberados
title Um estudo sobre limitações de técnicas de mascaramento espectral na separação cega de sinais de voz reverberados
spellingShingle Um estudo sobre limitações de técnicas de mascaramento espectral na separação cega de sinais de voz reverberados
Gustavo Fernandes Rodrigues
Engenharia Elétrica
Engenharia elétrica
title_short Um estudo sobre limitações de técnicas de mascaramento espectral na separação cega de sinais de voz reverberados
title_full Um estudo sobre limitações de técnicas de mascaramento espectral na separação cega de sinais de voz reverberados
title_fullStr Um estudo sobre limitações de técnicas de mascaramento espectral na separação cega de sinais de voz reverberados
title_full_unstemmed Um estudo sobre limitações de técnicas de mascaramento espectral na separação cega de sinais de voz reverberados
title_sort Um estudo sobre limitações de técnicas de mascaramento espectral na separação cega de sinais de voz reverberados
author Gustavo Fernandes Rodrigues
author_facet Gustavo Fernandes Rodrigues
author_role author
dc.contributor.none.fl_str_mv Hani Camille Yehia
dc.contributor.author.fl_str_mv Gustavo Fernandes Rodrigues
dc.subject.por.fl_str_mv Engenharia Elétrica
Engenharia elétrica
topic Engenharia Elétrica
Engenharia elétrica
description The objective of this study is to analyze the limitations of techniques for blind source separation (BSS) of convolved mixtures based on time-frequency domain binary masking. These techniques are based on the sparsity of speech signals and assume that, in a mixture of independent speech signals, for each time and frequency, it is unlikely to find more than one active source. In this study, initially, the performance of the DUET algorithm is analyzed for convolved mixtures. The use of phase information for source separation is evaluated through the analysis of performance of an algorithm proposed which uses only relative amplitude information for the estimation of spectral masks. It was verified that, for the specific case of the separation of two speech signals, the use of phase information does not affect the algorithm performance. In the next step, the limitations of the spectrum masking technique is analyzed as a function of the reverberation time of the signals that compose the mixture to be separated. When the ideal masks are known, a separation of about 9 dB is obtained for the case of an environment with reverberation time less than 300 ms. From this point on, as the reverberation time increases, the signals that compose the mixture spread over the time-frequency plane, progressively reducing the separation process performance. Next, given that finding ideal masks based on a single mixture is still an open problem, the performance loss of the separation process is measured as a function of the distance between the ideal mask and the mask effectively used. The results found show a performance loss of 3 dB when approximately 10% of the bits of the ideal mask are inverted. Finally, preliminary analyses are carried out to find the ideal mask based on negentropy, kurtosis and on the energy of the separated signals.
publishDate 2008
dc.date.none.fl_str_mv 2008-05-30
2019-08-13T11:25:39Z
2019-08-13T11:25:39Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/BUOS-8CVHTG
url http://hdl.handle.net/1843/BUOS-8CVHTG
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
UFMG
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv repositorio@ufmg.br
_version_ 1835272934946504704