Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno.

Detalhes bibliográficos
Ano de defesa: 2002
Autor(a) principal: Silva, Washington Luis Santos
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-25092024-134829/
Resumo: A utilização da transformada discreta cosseno (TDC) na compressão de dados e na classificação de padrões aumentou muito nos últimos anos e isso se deve, principalmente, ao fato do seu desempenho aproximar-se muito dos resultados obtidos com a transformada de Karhunen-Loève que é considerada ótima. Neste trabalho procura-se demonstrar o potencial da transformada discreta cosseno no reconhecimento de voz. Após uma exposição dos assuntos considerados importantes para o entendimento da produção da fala, bem como o modelamento matemático da voz, aborda-se de forma sucinta as características das transformadas ortogonais e define-se um sistema de reconhecimento automático de voz, como classificador, que extrai as características das locuções, coeficientes mel cepstrais de duas dimensões, e através da transformada discreta cosseno são apresentados os padrões para o classificador. Para a realização dos testes são utilizadas seis bases de dados distintas, contendo locuções formadas por doze locutores que foram utilizados para gerarem os modelos e os testes do reconhecedor. Os resultados obtidos pelo classificador (reconhecedor de voz) utilizando-se a transformada discreta cosseno são comparados com os resultados obtidos com um reconhecedor baseado em HMM nas tarefas de reconhecimento de dígitos isolados dependente e não dependente de locutor. Os resultados obtidos no processo de reconhecimento foram bastante positivos e apontam um melhor desempenho da transformada discreta cosseno quando comparada com o reconhecedor HMM na tarefa de reconhecimento de dígitos, e ainda, podem ser apontadas como vantagens a menor complexidade computacional, tanto na implementação quanto na ocupação de memória pelos padrões gerados. Este trabalho também revela a importância de capturar-se as informações dinâmicas contidas nos sinais de voz. ) O reconhecedor de voz baseado na transformada discreta cosseno proposto neste trabalho baseia-se fortemente nesse tipo de informação.
id USP_c36a7fbc03c9cda903dd05ff37453f01
oai_identifier_str oai:teses.usp.br:tde-25092024-134829
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno.Untitled in englishProcessamento de vozVoice processingA utilização da transformada discreta cosseno (TDC) na compressão de dados e na classificação de padrões aumentou muito nos últimos anos e isso se deve, principalmente, ao fato do seu desempenho aproximar-se muito dos resultados obtidos com a transformada de Karhunen-Loève que é considerada ótima. Neste trabalho procura-se demonstrar o potencial da transformada discreta cosseno no reconhecimento de voz. Após uma exposição dos assuntos considerados importantes para o entendimento da produção da fala, bem como o modelamento matemático da voz, aborda-se de forma sucinta as características das transformadas ortogonais e define-se um sistema de reconhecimento automático de voz, como classificador, que extrai as características das locuções, coeficientes mel cepstrais de duas dimensões, e através da transformada discreta cosseno são apresentados os padrões para o classificador. Para a realização dos testes são utilizadas seis bases de dados distintas, contendo locuções formadas por doze locutores que foram utilizados para gerarem os modelos e os testes do reconhecedor. Os resultados obtidos pelo classificador (reconhecedor de voz) utilizando-se a transformada discreta cosseno são comparados com os resultados obtidos com um reconhecedor baseado em HMM nas tarefas de reconhecimento de dígitos isolados dependente e não dependente de locutor. Os resultados obtidos no processo de reconhecimento foram bastante positivos e apontam um melhor desempenho da transformada discreta cosseno quando comparada com o reconhecedor HMM na tarefa de reconhecimento de dígitos, e ainda, podem ser apontadas como vantagens a menor complexidade computacional, tanto na implementação quanto na ocupação de memória pelos padrões gerados. Este trabalho também revela a importância de capturar-se as informações dinâmicas contidas nos sinais de voz. ) O reconhecedor de voz baseado na transformada discreta cosseno proposto neste trabalho baseia-se fortemente nesse tipo de informação.The use of the Discrete Cosine Transform (DCT) in data compression and pattern recognition has increased in the last years due to its near-optimum behavior when compared to the Karhunen-Loève transform. This work aims to verify the capabilities of the DCT when applied as a classifier to a speech recognition task. After presenting fundamental and important aspects of speech production and mathematical modeling, orthogonal transforms properties are briefly discussed and a speech recognition system is proposed where the DCT is employed in the production of two-dimensional mel-cepstrum, used as the recognizer parameters. Speaker dependent and speaker independent tests are performed using six different databases with twelve speakers. The DCT recognition results are compared with an HMM recognition system in the task of dependent and independent text isolated digits recognition. The performance of the DCT system was better than the one from the HMM\'s in the task of digits recognition. Also, the DCT system has reduced complexity and memory usage when comparing the HMM system. This work also shows the importance of considering dynamic information contained in the speech signal. The proposed recognition system based on the DCT is strongly based on this kind of information.Biblioteca Digitais de Teses e Dissertações da USPSanches, IvandroSilva, Washington Luis Santos2002-02-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-25092024-134829/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-09-25T16:52:02Zoai:teses.usp.br:tde-25092024-134829Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-09-25T16:52:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno.
Untitled in english
title Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno.
spellingShingle Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno.
Silva, Washington Luis Santos
Processamento de voz
Voice processing
title_short Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno.
title_full Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno.
title_fullStr Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno.
title_full_unstemmed Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno.
title_sort Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno.
author Silva, Washington Luis Santos
author_facet Silva, Washington Luis Santos
author_role author
dc.contributor.none.fl_str_mv Sanches, Ivandro
dc.contributor.author.fl_str_mv Silva, Washington Luis Santos
dc.subject.por.fl_str_mv Processamento de voz
Voice processing
topic Processamento de voz
Voice processing
description A utilização da transformada discreta cosseno (TDC) na compressão de dados e na classificação de padrões aumentou muito nos últimos anos e isso se deve, principalmente, ao fato do seu desempenho aproximar-se muito dos resultados obtidos com a transformada de Karhunen-Loève que é considerada ótima. Neste trabalho procura-se demonstrar o potencial da transformada discreta cosseno no reconhecimento de voz. Após uma exposição dos assuntos considerados importantes para o entendimento da produção da fala, bem como o modelamento matemático da voz, aborda-se de forma sucinta as características das transformadas ortogonais e define-se um sistema de reconhecimento automático de voz, como classificador, que extrai as características das locuções, coeficientes mel cepstrais de duas dimensões, e através da transformada discreta cosseno são apresentados os padrões para o classificador. Para a realização dos testes são utilizadas seis bases de dados distintas, contendo locuções formadas por doze locutores que foram utilizados para gerarem os modelos e os testes do reconhecedor. Os resultados obtidos pelo classificador (reconhecedor de voz) utilizando-se a transformada discreta cosseno são comparados com os resultados obtidos com um reconhecedor baseado em HMM nas tarefas de reconhecimento de dígitos isolados dependente e não dependente de locutor. Os resultados obtidos no processo de reconhecimento foram bastante positivos e apontam um melhor desempenho da transformada discreta cosseno quando comparada com o reconhecedor HMM na tarefa de reconhecimento de dígitos, e ainda, podem ser apontadas como vantagens a menor complexidade computacional, tanto na implementação quanto na ocupação de memória pelos padrões gerados. Este trabalho também revela a importância de capturar-se as informações dinâmicas contidas nos sinais de voz. ) O reconhecedor de voz baseado na transformada discreta cosseno proposto neste trabalho baseia-se fortemente nesse tipo de informação.
publishDate 2002
dc.date.none.fl_str_mv 2002-02-06
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/3/3142/tde-25092024-134829/
url https://www.teses.usp.br/teses/disponiveis/3/3142/tde-25092024-134829/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1818279233423671296