Um modelo senoidal para codificação paramétrica de voz.
| Ano de defesa: | 1990 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/3/3142/tde-08042025-152420/ |
Resumo: | O objetivo deste trabalho e apresentar um processo robusto de análise e síntese de sinais de voz, baseado na representação senoidal pura para transmissão em banda estreita. A análise é feita através de um algoritmo que escolhe um número limitado de senoides que possam caracterizar adequadamente o sinal. Amostras de frequência, amplitude e fase destas senoides são obtidas através da transformada de fourier de janelas consecutivas de amostras. Cada senoide é tratada individualmente, considerando-se que surge em certo momento, sofre variações contínuas de amplitude, frequência e fase e por fim desaparece. A fim de rastrear cada componente senoidal de um quadro para outro, um algoritmo é utilizado para relacionar frequências entre quadros consecutivos dentro de variações definidas pelo sintetizador. A síntese de cada senoide é executada através de interpolação dos parâmetros de amostras de amplitude e fase, e o sinal sintetizado é obtido pela soma das contribuições de cada componente senoidal. Esse procedimento permite a modulação contínua de timbre e amplitude do sinal sintetizado, preservando a forma de onda geral e resultando num sinal de alta qualidade, subjetivamente indistinto do original. |
| id |
USP_bf935ce4c2cbaa5fc4186f59d8adad23 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-08042025-152420 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Um modelo senoidal para codificação paramétrica de voz.Untitled in englishCodificaçãoEncodingReconhecimento de vozSpeech recognitionO objetivo deste trabalho e apresentar um processo robusto de análise e síntese de sinais de voz, baseado na representação senoidal pura para transmissão em banda estreita. A análise é feita através de um algoritmo que escolhe um número limitado de senoides que possam caracterizar adequadamente o sinal. Amostras de frequência, amplitude e fase destas senoides são obtidas através da transformada de fourier de janelas consecutivas de amostras. Cada senoide é tratada individualmente, considerando-se que surge em certo momento, sofre variações contínuas de amplitude, frequência e fase e por fim desaparece. A fim de rastrear cada componente senoidal de um quadro para outro, um algoritmo é utilizado para relacionar frequências entre quadros consecutivos dentro de variações definidas pelo sintetizador. A síntese de cada senoide é executada através de interpolação dos parâmetros de amostras de amplitude e fase, e o sinal sintetizado é obtido pela soma das contribuições de cada componente senoidal. Esse procedimento permite a modulação contínua de timbre e amplitude do sinal sintetizado, preservando a forma de onda geral e resultando num sinal de alta qualidade, subjetivamente indistinto do original.The speech analysis/synthesis techniques based on the bynary voiced/unvoiced speech production model have not been quite sucessfull for systems in which speech is corrupted by another superposed speech waveform or musical background. The object of this work is to present a robust analysis / synthesis technique based on a purely sinusoidal speech model for low bit rate transmission. In speech analysis, samples of frequencies, amplitudes and phases of the underlying sine waves are estimated from the short-time Fourier transform using a improved peak-picking algorithm. The amplitudes, frequencies and phases estimated on one frame are matched and allowed to continuously evolve into the set of amplitudes, frequencies and phases estimated on a sucessive frame, For a given frequency track, the synthesis of the sine wave is performed in the time domain by linear interpolation of amplitude, and a cubic function is used to unwrap and interpolate the phase. The resulting synthetic speech obtained by summation of these sine waves preserves the waveform shape and is perceptualy indistinguishable from the original. The presented analysis/synthesis system is sufficiently robust to represent sounds like multiple speakers and speakers in the presence noise or music backgrounds. As the conveyd information is equally spaced samples of parameters associated with the low speech articulation rate, the bit rate is also low. Na additional reduction on the recquired bit rate is obtained by reducing the number of the underlying sinewaves.Biblioteca Digitais de Teses e Dissertações da USPAlens, NormondsGerencer, Roberto1990-06-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-08042025-152420/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-04-08T18:30:02Zoai:teses.usp.br:tde-08042025-152420Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-04-08T18:30:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Um modelo senoidal para codificação paramétrica de voz. Untitled in english |
| title |
Um modelo senoidal para codificação paramétrica de voz. |
| spellingShingle |
Um modelo senoidal para codificação paramétrica de voz. Gerencer, Roberto Codificação Encoding Reconhecimento de voz Speech recognition |
| title_short |
Um modelo senoidal para codificação paramétrica de voz. |
| title_full |
Um modelo senoidal para codificação paramétrica de voz. |
| title_fullStr |
Um modelo senoidal para codificação paramétrica de voz. |
| title_full_unstemmed |
Um modelo senoidal para codificação paramétrica de voz. |
| title_sort |
Um modelo senoidal para codificação paramétrica de voz. |
| author |
Gerencer, Roberto |
| author_facet |
Gerencer, Roberto |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Alens, Normonds |
| dc.contributor.author.fl_str_mv |
Gerencer, Roberto |
| dc.subject.por.fl_str_mv |
Codificação Encoding Reconhecimento de voz Speech recognition |
| topic |
Codificação Encoding Reconhecimento de voz Speech recognition |
| description |
O objetivo deste trabalho e apresentar um processo robusto de análise e síntese de sinais de voz, baseado na representação senoidal pura para transmissão em banda estreita. A análise é feita através de um algoritmo que escolhe um número limitado de senoides que possam caracterizar adequadamente o sinal. Amostras de frequência, amplitude e fase destas senoides são obtidas através da transformada de fourier de janelas consecutivas de amostras. Cada senoide é tratada individualmente, considerando-se que surge em certo momento, sofre variações contínuas de amplitude, frequência e fase e por fim desaparece. A fim de rastrear cada componente senoidal de um quadro para outro, um algoritmo é utilizado para relacionar frequências entre quadros consecutivos dentro de variações definidas pelo sintetizador. A síntese de cada senoide é executada através de interpolação dos parâmetros de amostras de amplitude e fase, e o sinal sintetizado é obtido pela soma das contribuições de cada componente senoidal. Esse procedimento permite a modulação contínua de timbre e amplitude do sinal sintetizado, preservando a forma de onda geral e resultando num sinal de alta qualidade, subjetivamente indistinto do original. |
| publishDate |
1990 |
| dc.date.none.fl_str_mv |
1990-06-29 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-08042025-152420/ |
| url |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-08042025-152420/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1839839141689294848 |