Modelamento e ajuste por regra sub-ótima de maximização da informação mútua de um sistema reconhecedor de palavras isoladas, independente do falante, para ambientes adversos, com redundância de informação.
Ano de defesa: | 1998 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://www.teses.usp.br/teses/disponiveis/3/3142/tde-29112024-093222/ |
Resumo: | Implementamos um sistema reconhecedor de palavras isoladas, independente do falante, para ambientes adversos, com Modelos Ocultos de Markov (HMM\'s) multiparamétricos, com distribuições discretas, múltiplos livros de códigos, e expoentes de ponderação nos parâmetros, que será detalhado ao longo do texto. Com base nesse sistema, propomos um modelamento via Maximização da Informação Mútua (MM) sub-ótima que possibilita a melhoria do desempenho do sistema. O modelamento, fundamentado em elementos da Teoria da Informação, permitiu que os ajustes propostos acompanhassem o fluxo do sinal, iniciando pela etapa de codificação (quantização) e chegando aos modelos HMM, sempre pelo critério de otimização por MMI. Para o ajuste dos modelos HMM formulamos expressões de reestimação, e propomos o uso da seqüência de estados fornecida pelo decodificador por Viterbi para um procedimento de MMI sub-ótimo. Os testes no sistema e a avaliação dos ajustes propostos foram realizadoscom dados de centenas de falantes, coletados da linha telefônica fixa comercial, num vocabulário de dígitos da Língua Portuguesa. Os resultados mostraram que o modelamento proposto melhora significativamente o desempenho do sistema, sem aumentar consideravelmente a carga computacional. O modelamento proposto pode ser aplicado a qualquer HMM discreto. |
id |
USP_8cdc20a78bb3e03f08b8c6f76d8e49f1 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-29112024-093222 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
|
spelling |
Modelamento e ajuste por regra sub-ótima de maximização da informação mútua de um sistema reconhecedor de palavras isoladas, independente do falante, para ambientes adversos, com redundância de informação.Untitled in englishHidden Markov modelsMaximização da informação mútuaModelos ocultos de MarkovMutual information maximizationReconhecimento de vozSpeech recognitionImplementamos um sistema reconhecedor de palavras isoladas, independente do falante, para ambientes adversos, com Modelos Ocultos de Markov (HMM\'s) multiparamétricos, com distribuições discretas, múltiplos livros de códigos, e expoentes de ponderação nos parâmetros, que será detalhado ao longo do texto. Com base nesse sistema, propomos um modelamento via Maximização da Informação Mútua (MM) sub-ótima que possibilita a melhoria do desempenho do sistema. O modelamento, fundamentado em elementos da Teoria da Informação, permitiu que os ajustes propostos acompanhassem o fluxo do sinal, iniciando pela etapa de codificação (quantização) e chegando aos modelos HMM, sempre pelo critério de otimização por MMI. Para o ajuste dos modelos HMM formulamos expressões de reestimação, e propomos o uso da seqüência de estados fornecida pelo decodificador por Viterbi para um procedimento de MMI sub-ótimo. Os testes no sistema e a avaliação dos ajustes propostos foram realizadoscom dados de centenas de falantes, coletados da linha telefônica fixa comercial, num vocabulário de dígitos da Língua Portuguesa. Os resultados mostraram que o modelamento proposto melhora significativamente o desempenho do sistema, sem aumentar consideravelmente a carga computacional. O modelamento proposto pode ser aplicado a qualquer HMM discreto.We implemented a speaker independent isolated word speech recognition system, for noisy environment, using multiparametric Hidden Markov Models (HMMs), with discrete probability density functions and multiple codebooks exponents, which will be explained in the text. Based on this system, we propose a modeling procedure, via sub-optimal Maximum Mutual Information (MMI), that improves the system performance. The procedure, based on aspects of Information Theory, allowed that the proposed adjusts followed the signal flow, since the coding in the quantization stage to the final HMM, always via the MMI criterium. We devised reestimation expressions for the HMMs and proposed the use of the best state sequence given by the Viterbi decoder in the sub-optimal Maximum Mutual Information procedure. The tests on the system and the evaluation of the proposed procedure used speech data, digits in Portuguese, recorded from the public switched telephone network, spoken by hundreds of speakers. The results showed that the modeling procedure improved significantly the system performance, without increasing computational overhead. The proposed procedure can be applied to any configuration of discrete HMMs.Biblioteca Digitais de Teses e Dissertações da USPSanches, IvandroMinami, Mario1998-10-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-29112024-093222/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-11-29T11:36:02Zoai:teses.usp.br:tde-29112024-093222Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-11-29T11:36:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Modelamento e ajuste por regra sub-ótima de maximização da informação mútua de um sistema reconhecedor de palavras isoladas, independente do falante, para ambientes adversos, com redundância de informação. Untitled in english |
title |
Modelamento e ajuste por regra sub-ótima de maximização da informação mútua de um sistema reconhecedor de palavras isoladas, independente do falante, para ambientes adversos, com redundância de informação. |
spellingShingle |
Modelamento e ajuste por regra sub-ótima de maximização da informação mútua de um sistema reconhecedor de palavras isoladas, independente do falante, para ambientes adversos, com redundância de informação. Minami, Mario Hidden Markov models Maximização da informação mútua Modelos ocultos de Markov Mutual information maximization Reconhecimento de voz Speech recognition |
title_short |
Modelamento e ajuste por regra sub-ótima de maximização da informação mútua de um sistema reconhecedor de palavras isoladas, independente do falante, para ambientes adversos, com redundância de informação. |
title_full |
Modelamento e ajuste por regra sub-ótima de maximização da informação mútua de um sistema reconhecedor de palavras isoladas, independente do falante, para ambientes adversos, com redundância de informação. |
title_fullStr |
Modelamento e ajuste por regra sub-ótima de maximização da informação mútua de um sistema reconhecedor de palavras isoladas, independente do falante, para ambientes adversos, com redundância de informação. |
title_full_unstemmed |
Modelamento e ajuste por regra sub-ótima de maximização da informação mútua de um sistema reconhecedor de palavras isoladas, independente do falante, para ambientes adversos, com redundância de informação. |
title_sort |
Modelamento e ajuste por regra sub-ótima de maximização da informação mútua de um sistema reconhecedor de palavras isoladas, independente do falante, para ambientes adversos, com redundância de informação. |
author |
Minami, Mario |
author_facet |
Minami, Mario |
author_role |
author |
dc.contributor.none.fl_str_mv |
Sanches, Ivandro |
dc.contributor.author.fl_str_mv |
Minami, Mario |
dc.subject.por.fl_str_mv |
Hidden Markov models Maximização da informação mútua Modelos ocultos de Markov Mutual information maximization Reconhecimento de voz Speech recognition |
topic |
Hidden Markov models Maximização da informação mútua Modelos ocultos de Markov Mutual information maximization Reconhecimento de voz Speech recognition |
description |
Implementamos um sistema reconhecedor de palavras isoladas, independente do falante, para ambientes adversos, com Modelos Ocultos de Markov (HMM\'s) multiparamétricos, com distribuições discretas, múltiplos livros de códigos, e expoentes de ponderação nos parâmetros, que será detalhado ao longo do texto. Com base nesse sistema, propomos um modelamento via Maximização da Informação Mútua (MM) sub-ótima que possibilita a melhoria do desempenho do sistema. O modelamento, fundamentado em elementos da Teoria da Informação, permitiu que os ajustes propostos acompanhassem o fluxo do sinal, iniciando pela etapa de codificação (quantização) e chegando aos modelos HMM, sempre pelo critério de otimização por MMI. Para o ajuste dos modelos HMM formulamos expressões de reestimação, e propomos o uso da seqüência de estados fornecida pelo decodificador por Viterbi para um procedimento de MMI sub-ótimo. Os testes no sistema e a avaliação dos ajustes propostos foram realizadoscom dados de centenas de falantes, coletados da linha telefônica fixa comercial, num vocabulário de dígitos da Língua Portuguesa. Os resultados mostraram que o modelamento proposto melhora significativamente o desempenho do sistema, sem aumentar consideravelmente a carga computacional. O modelamento proposto pode ser aplicado a qualquer HMM discreto. |
publishDate |
1998 |
dc.date.none.fl_str_mv |
1998-10-27 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-29112024-093222/ |
url |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-29112024-093222/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1818598509615513600 |