Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno.
| Ano de defesa: | 2002 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/3/3142/tde-25092024-134829/ |
Resumo: | A utilização da transformada discreta cosseno (TDC) na compressão de dados e na classificação de padrões aumentou muito nos últimos anos e isso se deve, principalmente, ao fato do seu desempenho aproximar-se muito dos resultados obtidos com a transformada de Karhunen-Loève que é considerada ótima. Neste trabalho procura-se demonstrar o potencial da transformada discreta cosseno no reconhecimento de voz. Após uma exposição dos assuntos considerados importantes para o entendimento da produção da fala, bem como o modelamento matemático da voz, aborda-se de forma sucinta as características das transformadas ortogonais e define-se um sistema de reconhecimento automático de voz, como classificador, que extrai as características das locuções, coeficientes mel cepstrais de duas dimensões, e através da transformada discreta cosseno são apresentados os padrões para o classificador. Para a realização dos testes são utilizadas seis bases de dados distintas, contendo locuções formadas por doze locutores que foram utilizados para gerarem os modelos e os testes do reconhecedor. Os resultados obtidos pelo classificador (reconhecedor de voz) utilizando-se a transformada discreta cosseno são comparados com os resultados obtidos com um reconhecedor baseado em HMM nas tarefas de reconhecimento de dígitos isolados dependente e não dependente de locutor. Os resultados obtidos no processo de reconhecimento foram bastante positivos e apontam um melhor desempenho da transformada discreta cosseno quando comparada com o reconhecedor HMM na tarefa de reconhecimento de dígitos, e ainda, podem ser apontadas como vantagens a menor complexidade computacional, tanto na implementação quanto na ocupação de memória pelos padrões gerados. Este trabalho também revela a importância de capturar-se as informações dinâmicas contidas nos sinais de voz. ) O reconhecedor de voz baseado na transformada discreta cosseno proposto neste trabalho baseia-se fortemente nesse tipo de informação. |
| id |
USP_c36a7fbc03c9cda903dd05ff37453f01 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-25092024-134829 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno.Untitled in englishProcessamento de vozVoice processingA utilização da transformada discreta cosseno (TDC) na compressão de dados e na classificação de padrões aumentou muito nos últimos anos e isso se deve, principalmente, ao fato do seu desempenho aproximar-se muito dos resultados obtidos com a transformada de Karhunen-Loève que é considerada ótima. Neste trabalho procura-se demonstrar o potencial da transformada discreta cosseno no reconhecimento de voz. Após uma exposição dos assuntos considerados importantes para o entendimento da produção da fala, bem como o modelamento matemático da voz, aborda-se de forma sucinta as características das transformadas ortogonais e define-se um sistema de reconhecimento automático de voz, como classificador, que extrai as características das locuções, coeficientes mel cepstrais de duas dimensões, e através da transformada discreta cosseno são apresentados os padrões para o classificador. Para a realização dos testes são utilizadas seis bases de dados distintas, contendo locuções formadas por doze locutores que foram utilizados para gerarem os modelos e os testes do reconhecedor. Os resultados obtidos pelo classificador (reconhecedor de voz) utilizando-se a transformada discreta cosseno são comparados com os resultados obtidos com um reconhecedor baseado em HMM nas tarefas de reconhecimento de dígitos isolados dependente e não dependente de locutor. Os resultados obtidos no processo de reconhecimento foram bastante positivos e apontam um melhor desempenho da transformada discreta cosseno quando comparada com o reconhecedor HMM na tarefa de reconhecimento de dígitos, e ainda, podem ser apontadas como vantagens a menor complexidade computacional, tanto na implementação quanto na ocupação de memória pelos padrões gerados. Este trabalho também revela a importância de capturar-se as informações dinâmicas contidas nos sinais de voz. ) O reconhecedor de voz baseado na transformada discreta cosseno proposto neste trabalho baseia-se fortemente nesse tipo de informação.The use of the Discrete Cosine Transform (DCT) in data compression and pattern recognition has increased in the last years due to its near-optimum behavior when compared to the Karhunen-Loève transform. This work aims to verify the capabilities of the DCT when applied as a classifier to a speech recognition task. After presenting fundamental and important aspects of speech production and mathematical modeling, orthogonal transforms properties are briefly discussed and a speech recognition system is proposed where the DCT is employed in the production of two-dimensional mel-cepstrum, used as the recognizer parameters. Speaker dependent and speaker independent tests are performed using six different databases with twelve speakers. The DCT recognition results are compared with an HMM recognition system in the task of dependent and independent text isolated digits recognition. The performance of the DCT system was better than the one from the HMM\'s in the task of digits recognition. Also, the DCT system has reduced complexity and memory usage when comparing the HMM system. This work also shows the importance of considering dynamic information contained in the speech signal. The proposed recognition system based on the DCT is strongly based on this kind of information.Biblioteca Digitais de Teses e Dissertações da USPSanches, IvandroSilva, Washington Luis Santos2002-02-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-25092024-134829/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-09-25T16:52:02Zoai:teses.usp.br:tde-25092024-134829Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-09-25T16:52:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno. Untitled in english |
| title |
Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno. |
| spellingShingle |
Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno. Silva, Washington Luis Santos Processamento de voz Voice processing |
| title_short |
Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno. |
| title_full |
Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno. |
| title_fullStr |
Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno. |
| title_full_unstemmed |
Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno. |
| title_sort |
Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno. |
| author |
Silva, Washington Luis Santos |
| author_facet |
Silva, Washington Luis Santos |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Sanches, Ivandro |
| dc.contributor.author.fl_str_mv |
Silva, Washington Luis Santos |
| dc.subject.por.fl_str_mv |
Processamento de voz Voice processing |
| topic |
Processamento de voz Voice processing |
| description |
A utilização da transformada discreta cosseno (TDC) na compressão de dados e na classificação de padrões aumentou muito nos últimos anos e isso se deve, principalmente, ao fato do seu desempenho aproximar-se muito dos resultados obtidos com a transformada de Karhunen-Loève que é considerada ótima. Neste trabalho procura-se demonstrar o potencial da transformada discreta cosseno no reconhecimento de voz. Após uma exposição dos assuntos considerados importantes para o entendimento da produção da fala, bem como o modelamento matemático da voz, aborda-se de forma sucinta as características das transformadas ortogonais e define-se um sistema de reconhecimento automático de voz, como classificador, que extrai as características das locuções, coeficientes mel cepstrais de duas dimensões, e através da transformada discreta cosseno são apresentados os padrões para o classificador. Para a realização dos testes são utilizadas seis bases de dados distintas, contendo locuções formadas por doze locutores que foram utilizados para gerarem os modelos e os testes do reconhecedor. Os resultados obtidos pelo classificador (reconhecedor de voz) utilizando-se a transformada discreta cosseno são comparados com os resultados obtidos com um reconhecedor baseado em HMM nas tarefas de reconhecimento de dígitos isolados dependente e não dependente de locutor. Os resultados obtidos no processo de reconhecimento foram bastante positivos e apontam um melhor desempenho da transformada discreta cosseno quando comparada com o reconhecedor HMM na tarefa de reconhecimento de dígitos, e ainda, podem ser apontadas como vantagens a menor complexidade computacional, tanto na implementação quanto na ocupação de memória pelos padrões gerados. Este trabalho também revela a importância de capturar-se as informações dinâmicas contidas nos sinais de voz. ) O reconhecedor de voz baseado na transformada discreta cosseno proposto neste trabalho baseia-se fortemente nesse tipo de informação. |
| publishDate |
2002 |
| dc.date.none.fl_str_mv |
2002-02-06 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-25092024-134829/ |
| url |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-25092024-134829/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1818279233423671296 |