Um modelo senoidal para codificação paramétrica de voz.

Detalhes bibliográficos
Ano de defesa: 1990
Autor(a) principal: Gerencer, Roberto
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-08042025-152420/
Resumo: O objetivo deste trabalho e apresentar um processo robusto de análise e síntese de sinais de voz, baseado na representação senoidal pura para transmissão em banda estreita. A análise é feita através de um algoritmo que escolhe um número limitado de senoides que possam caracterizar adequadamente o sinal. Amostras de frequência, amplitude e fase destas senoides são obtidas através da transformada de fourier de janelas consecutivas de amostras. Cada senoide é tratada individualmente, considerando-se que surge em certo momento, sofre variações contínuas de amplitude, frequência e fase e por fim desaparece. A fim de rastrear cada componente senoidal de um quadro para outro, um algoritmo é utilizado para relacionar frequências entre quadros consecutivos dentro de variações definidas pelo sintetizador. A síntese de cada senoide é executada através de interpolação dos parâmetros de amostras de amplitude e fase, e o sinal sintetizado é obtido pela soma das contribuições de cada componente senoidal. Esse procedimento permite a modulação contínua de timbre e amplitude do sinal sintetizado, preservando a forma de onda geral e resultando num sinal de alta qualidade, subjetivamente indistinto do original.
id USP_bf935ce4c2cbaa5fc4186f59d8adad23
oai_identifier_str oai:teses.usp.br:tde-08042025-152420
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Um modelo senoidal para codificação paramétrica de voz.Untitled in englishCodificaçãoEncodingReconhecimento de vozSpeech recognitionO objetivo deste trabalho e apresentar um processo robusto de análise e síntese de sinais de voz, baseado na representação senoidal pura para transmissão em banda estreita. A análise é feita através de um algoritmo que escolhe um número limitado de senoides que possam caracterizar adequadamente o sinal. Amostras de frequência, amplitude e fase destas senoides são obtidas através da transformada de fourier de janelas consecutivas de amostras. Cada senoide é tratada individualmente, considerando-se que surge em certo momento, sofre variações contínuas de amplitude, frequência e fase e por fim desaparece. A fim de rastrear cada componente senoidal de um quadro para outro, um algoritmo é utilizado para relacionar frequências entre quadros consecutivos dentro de variações definidas pelo sintetizador. A síntese de cada senoide é executada através de interpolação dos parâmetros de amostras de amplitude e fase, e o sinal sintetizado é obtido pela soma das contribuições de cada componente senoidal. Esse procedimento permite a modulação contínua de timbre e amplitude do sinal sintetizado, preservando a forma de onda geral e resultando num sinal de alta qualidade, subjetivamente indistinto do original.The speech analysis/synthesis techniques based on the bynary voiced/unvoiced speech production model have not been quite sucessfull for systems in which speech is corrupted by another superposed speech waveform or musical background. The object of this work is to present a robust analysis / synthesis technique based on a purely sinusoidal speech model for low bit rate transmission. In speech analysis, samples of frequencies, amplitudes and phases of the underlying sine waves are estimated from the short-time Fourier transform using a improved peak-picking algorithm. The amplitudes, frequencies and phases estimated on one frame are matched and allowed to continuously evolve into the set of amplitudes, frequencies and phases estimated on a sucessive frame, For a given frequency track, the synthesis of the sine wave is performed in the time domain by linear interpolation of amplitude, and a cubic function is used to unwrap and interpolate the phase. The resulting synthetic speech obtained by summation of these sine waves preserves the waveform shape and is perceptualy indistinguishable from the original. The presented analysis/synthesis system is sufficiently robust to represent sounds like multiple speakers and speakers in the presence noise or music backgrounds. As the conveyd information is equally spaced samples of parameters associated with the low speech articulation rate, the bit rate is also low. Na additional reduction on the recquired bit rate is obtained by reducing the number of the underlying sinewaves.Biblioteca Digitais de Teses e Dissertações da USPAlens, NormondsGerencer, Roberto1990-06-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-08042025-152420/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-04-08T18:30:02Zoai:teses.usp.br:tde-08042025-152420Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-04-08T18:30:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Um modelo senoidal para codificação paramétrica de voz.
Untitled in english
title Um modelo senoidal para codificação paramétrica de voz.
spellingShingle Um modelo senoidal para codificação paramétrica de voz.
Gerencer, Roberto
Codificação
Encoding
Reconhecimento de voz
Speech recognition
title_short Um modelo senoidal para codificação paramétrica de voz.
title_full Um modelo senoidal para codificação paramétrica de voz.
title_fullStr Um modelo senoidal para codificação paramétrica de voz.
title_full_unstemmed Um modelo senoidal para codificação paramétrica de voz.
title_sort Um modelo senoidal para codificação paramétrica de voz.
author Gerencer, Roberto
author_facet Gerencer, Roberto
author_role author
dc.contributor.none.fl_str_mv Alens, Normonds
dc.contributor.author.fl_str_mv Gerencer, Roberto
dc.subject.por.fl_str_mv Codificação
Encoding
Reconhecimento de voz
Speech recognition
topic Codificação
Encoding
Reconhecimento de voz
Speech recognition
description O objetivo deste trabalho e apresentar um processo robusto de análise e síntese de sinais de voz, baseado na representação senoidal pura para transmissão em banda estreita. A análise é feita através de um algoritmo que escolhe um número limitado de senoides que possam caracterizar adequadamente o sinal. Amostras de frequência, amplitude e fase destas senoides são obtidas através da transformada de fourier de janelas consecutivas de amostras. Cada senoide é tratada individualmente, considerando-se que surge em certo momento, sofre variações contínuas de amplitude, frequência e fase e por fim desaparece. A fim de rastrear cada componente senoidal de um quadro para outro, um algoritmo é utilizado para relacionar frequências entre quadros consecutivos dentro de variações definidas pelo sintetizador. A síntese de cada senoide é executada através de interpolação dos parâmetros de amostras de amplitude e fase, e o sinal sintetizado é obtido pela soma das contribuições de cada componente senoidal. Esse procedimento permite a modulação contínua de timbre e amplitude do sinal sintetizado, preservando a forma de onda geral e resultando num sinal de alta qualidade, subjetivamente indistinto do original.
publishDate 1990
dc.date.none.fl_str_mv 1990-06-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/3/3142/tde-08042025-152420/
url https://www.teses.usp.br/teses/disponiveis/3/3142/tde-08042025-152420/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1839839141689294848