Um modelo senoidal para codificação paramétrica de voz.

Gerencer, Roberto

Um modelo senoidal para codificação paramétrica de voz.

Detalhes bibliográficos
Ano de defesa:	1990
Autor(a) principal:	Gerencer, Roberto
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Codificação Encoding Reconhecimento de voz Speech recognition
Link de acesso:	https://www.teses.usp.br/teses/disponiveis/3/3142/tde-08042025-152420/
Resumo:	O objetivo deste trabalho e apresentar um processo robusto de análise e síntese de sinais de voz, baseado na representação senoidal pura para transmissão em banda estreita. A análise é feita através de um algoritmo que escolhe um número limitado de senoides que possam caracterizar adequadamente o sinal. Amostras de frequência, amplitude e fase destas senoides são obtidas através da transformada de fourier de janelas consecutivas de amostras. Cada senoide é tratada individualmente, considerando-se que surge em certo momento, sofre variações contínuas de amplitude, frequência e fase e por fim desaparece. A fim de rastrear cada componente senoidal de um quadro para outro, um algoritmo é utilizado para relacionar frequências entre quadros consecutivos dentro de variações definidas pelo sintetizador. A síntese de cada senoide é executada através de interpolação dos parâmetros de amostras de amplitude e fase, e o sinal sintetizado é obtido pela soma das contribuições de cada componente senoidal. Esse procedimento permite a modulação contínua de timbre e amplitude do sinal sintetizado, preservando a forma de onda geral e resultando num sinal de alta qualidade, subjetivamente indistinto do original.

Metadados do item

id	USP_bf935ce4c2cbaa5fc4186f59d8adad23
oai_identifier_str	oai:teses.usp.br:tde-08042025-152420
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling	Um modelo senoidal para codificação paramétrica de voz.Untitled in englishCodificaçãoEncodingReconhecimento de vozSpeech recognitionO objetivo deste trabalho e apresentar um processo robusto de análise e síntese de sinais de voz, baseado na representação senoidal pura para transmissão em banda estreita. A análise é feita através de um algoritmo que escolhe um número limitado de senoides que possam caracterizar adequadamente o sinal. Amostras de frequência, amplitude e fase destas senoides são obtidas através da transformada de fourier de janelas consecutivas de amostras. Cada senoide é tratada individualmente, considerando-se que surge em certo momento, sofre variações contínuas de amplitude, frequência e fase e por fim desaparece. A fim de rastrear cada componente senoidal de um quadro para outro, um algoritmo é utilizado para relacionar frequências entre quadros consecutivos dentro de variações definidas pelo sintetizador. A síntese de cada senoide é executada através de interpolação dos parâmetros de amostras de amplitude e fase, e o sinal sintetizado é obtido pela soma das contribuições de cada componente senoidal. Esse procedimento permite a modulação contínua de timbre e amplitude do sinal sintetizado, preservando a forma de onda geral e resultando num sinal de alta qualidade, subjetivamente indistinto do original.The speech analysis/synthesis techniques based on the bynary voiced/unvoiced speech production model have not been quite sucessfull for systems in which speech is corrupted by another superposed speech waveform or musical background. The object of this work is to present a robust analysis / synthesis technique based on a purely sinusoidal speech model for low bit rate transmission. In speech analysis, samples of frequencies, amplitudes and phases of the underlying sine waves are estimated from the short-time Fourier transform using a improved peak-picking algorithm. The amplitudes, frequencies and phases estimated on one frame are matched and allowed to continuously evolve into the set of amplitudes, frequencies and phases estimated on a sucessive frame, For a given frequency track, the synthesis of the sine wave is performed in the time domain by linear interpolation of amplitude, and a cubic function is used to unwrap and interpolate the phase. The resulting synthetic speech obtained by summation of these sine waves preserves the waveform shape and is perceptualy indistinguishable from the original. The presented analysis/synthesis system is sufficiently robust to represent sounds like multiple speakers and speakers in the presence noise or music backgrounds. As the conveyd information is equally spaced samples of parameters associated with the low speech articulation rate, the bit rate is also low. Na additional reduction on the recquired bit rate is obtained by reducing the number of the underlying sinewaves.Biblioteca Digitais de Teses e Dissertações da USPAlens, NormondsGerencer, Roberto1990-06-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-08042025-152420/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-04-08T18:30:02Zoai:teses.usp.br:tde-08042025-152420Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212025-04-08T18:30:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Um modelo senoidal para codificação paramétrica de voz. Untitled in english
title	Um modelo senoidal para codificação paramétrica de voz.
spellingShingle	Um modelo senoidal para codificação paramétrica de voz. Gerencer, Roberto Codificação Encoding Reconhecimento de voz Speech recognition
title_short	Um modelo senoidal para codificação paramétrica de voz.
title_full	Um modelo senoidal para codificação paramétrica de voz.
title_fullStr	Um modelo senoidal para codificação paramétrica de voz.
title_full_unstemmed	Um modelo senoidal para codificação paramétrica de voz.
title_sort	Um modelo senoidal para codificação paramétrica de voz.
author	Gerencer, Roberto
author_facet	Gerencer, Roberto
author_role	author
dc.contributor.none.fl_str_mv	Alens, Normonds
dc.contributor.author.fl_str_mv	Gerencer, Roberto
dc.subject.por.fl_str_mv	Codificação Encoding Reconhecimento de voz Speech recognition
topic	Codificação Encoding Reconhecimento de voz Speech recognition
description	O objetivo deste trabalho e apresentar um processo robusto de análise e síntese de sinais de voz, baseado na representação senoidal pura para transmissão em banda estreita. A análise é feita através de um algoritmo que escolhe um número limitado de senoides que possam caracterizar adequadamente o sinal. Amostras de frequência, amplitude e fase destas senoides são obtidas através da transformada de fourier de janelas consecutivas de amostras. Cada senoide é tratada individualmente, considerando-se que surge em certo momento, sofre variações contínuas de amplitude, frequência e fase e por fim desaparece. A fim de rastrear cada componente senoidal de um quadro para outro, um algoritmo é utilizado para relacionar frequências entre quadros consecutivos dentro de variações definidas pelo sintetizador. A síntese de cada senoide é executada através de interpolação dos parâmetros de amostras de amplitude e fase, e o sinal sintetizado é obtido pela soma das contribuições de cada componente senoidal. Esse procedimento permite a modulação contínua de timbre e amplitude do sinal sintetizado, preservando a forma de onda geral e resultando num sinal de alta qualidade, subjetivamente indistinto do original.
publishDate	1990
dc.date.none.fl_str_mv	1990-06-29
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/3/3142/tde-08042025-152420/
url	https://www.teses.usp.br/teses/disponiveis/3/3142/tde-08042025-152420/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1865492225571422208

Um modelo senoidal para codificação paramétrica de voz.

Registros relacionados