Reconhecimento de voz por segmentação em sílabas fonéticas.
| Ano de defesa: | 1996 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/3/3142/tde-06062025-151233/ |
Resumo: | O presente trabalho tem como objetivo demonstrar que é possível efetuar o reconhecimento de voz através da separação prévia dos sinais em unidades menores denominadas de sílabas fonéticas. Estas unidades menores segmentadas a partir do sinal original serão reconhecidas por um método baseado em modelos ocultos de Markov discretos, (DHMM). Aplicamos este modelamento a dois vocabulários: um reduzido para testes qualitativos e outro mais significativo dentro da estrutura da língua portuguesa, de maneira a testar o comportamento do algorítmo em condições mais próximas das reais. Os experimentos para ambos os vocabulários foram feitos com o uso extensivo de processamento digital de sinais, utilizando-se para a implementação do sistema programas em C em conjunto com o software de processamento matemático Matlab 4.0. No processo de elaboração do reconhecedor foram utilizadas variações de alguns algorítmos bem conhecidos, tais como: o algorítmo sugerido por Linde, Buzo & Gray, (IBG), para a geração dos codebooks; o algorítmo proposto por Paul Merlmenstein para a segmentação fonética, o algorítmo de Baum-Welch para a estimativa dos modelos de Markov e o algorítmo de Viterbi para o reconhecimento das sequências obtidas. |
| id |
USP_130a62d37d6e534ee714a5402e6e63f4 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-06062025-151233 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Reconhecimento de voz por segmentação em sílabas fonéticas.Untitled in englishReconhecimento de vozVoice recognitionO presente trabalho tem como objetivo demonstrar que é possível efetuar o reconhecimento de voz através da separação prévia dos sinais em unidades menores denominadas de sílabas fonéticas. Estas unidades menores segmentadas a partir do sinal original serão reconhecidas por um método baseado em modelos ocultos de Markov discretos, (DHMM). Aplicamos este modelamento a dois vocabulários: um reduzido para testes qualitativos e outro mais significativo dentro da estrutura da língua portuguesa, de maneira a testar o comportamento do algorítmo em condições mais próximas das reais. Os experimentos para ambos os vocabulários foram feitos com o uso extensivo de processamento digital de sinais, utilizando-se para a implementação do sistema programas em C em conjunto com o software de processamento matemático Matlab 4.0. No processo de elaboração do reconhecedor foram utilizadas variações de alguns algorítmos bem conhecidos, tais como: o algorítmo sugerido por Linde, Buzo & Gray, (IBG), para a geração dos codebooks; o algorítmo proposto por Paul Merlmenstein para a segmentação fonética, o algorítmo de Baum-Welch para a estimativa dos modelos de Markov e o algorítmo de Viterbi para o reconhecimento das sequências obtidas.This work intend to prove that it is possible to do speech recognition through a previous segmentation of words in a smaller unit called phonetic syllable. After the segmentation phase. these units will be recognised by a standard Discrete Hidden Markov Model (DHMM). In order to test the algorithm. we used two vocabularies: a small one and a medium one. The small one was used to gather qualitative data about the segmentation procedures and the medium one was used to do a quantitative analysis. The medium vocabulary was build to represent the structure of the spoken Brazilian Portuguese. During the training of this recogniser. we used well-known algorithms with some sort of modification. For example. during the segmentation phase. we used a modified Paulo Melmersteins algorithm [32]; during the VQ training. we used a modified LBG algorithm [23]; and in the HMM phase, we used the standard Baum-Welch and Viterbi [10] We made some experiments on the use of energy, number of states of the HMM model. The best results achieved (recognition rate) for this speaker dependent, isolated word recogniser were 93.18% for the small vocabulary and 80% for the medium one. This research proved that the segmentation strategy could give good results. We have noted that the performance improves with the number of codewords, until some point where it achieves a stable configuration and, sometimes, could get worse. In these experiments the use of the energy has not changed significantly the overall performance, but if we analyse the results separated by syllable and position inside the word, we can see that some syllables can improve or decrease its recognition rate based on the energy. In these experiments the use of the energy has not changed significantly the overall performance. but At leas, during this research we saw that most of the recogniser mistakes happened due to a change in the consonant part of the syllable, suggesting that the modelling for the consonants should be improved.Biblioteca Digitais de Teses e Dissertações da USPAlens, NormondsPerfeito, Joao Paulo Juliano1996-11-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-06062025-151233/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-06-06T18:18:02Zoai:teses.usp.br:tde-06062025-151233Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-06-06T18:18:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Reconhecimento de voz por segmentação em sílabas fonéticas. Untitled in english |
| title |
Reconhecimento de voz por segmentação em sílabas fonéticas. |
| spellingShingle |
Reconhecimento de voz por segmentação em sílabas fonéticas. Perfeito, Joao Paulo Juliano Reconhecimento de voz Voice recognition |
| title_short |
Reconhecimento de voz por segmentação em sílabas fonéticas. |
| title_full |
Reconhecimento de voz por segmentação em sílabas fonéticas. |
| title_fullStr |
Reconhecimento de voz por segmentação em sílabas fonéticas. |
| title_full_unstemmed |
Reconhecimento de voz por segmentação em sílabas fonéticas. |
| title_sort |
Reconhecimento de voz por segmentação em sílabas fonéticas. |
| author |
Perfeito, Joao Paulo Juliano |
| author_facet |
Perfeito, Joao Paulo Juliano |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Alens, Normonds |
| dc.contributor.author.fl_str_mv |
Perfeito, Joao Paulo Juliano |
| dc.subject.por.fl_str_mv |
Reconhecimento de voz Voice recognition |
| topic |
Reconhecimento de voz Voice recognition |
| description |
O presente trabalho tem como objetivo demonstrar que é possível efetuar o reconhecimento de voz através da separação prévia dos sinais em unidades menores denominadas de sílabas fonéticas. Estas unidades menores segmentadas a partir do sinal original serão reconhecidas por um método baseado em modelos ocultos de Markov discretos, (DHMM). Aplicamos este modelamento a dois vocabulários: um reduzido para testes qualitativos e outro mais significativo dentro da estrutura da língua portuguesa, de maneira a testar o comportamento do algorítmo em condições mais próximas das reais. Os experimentos para ambos os vocabulários foram feitos com o uso extensivo de processamento digital de sinais, utilizando-se para a implementação do sistema programas em C em conjunto com o software de processamento matemático Matlab 4.0. No processo de elaboração do reconhecedor foram utilizadas variações de alguns algorítmos bem conhecidos, tais como: o algorítmo sugerido por Linde, Buzo & Gray, (IBG), para a geração dos codebooks; o algorítmo proposto por Paul Merlmenstein para a segmentação fonética, o algorítmo de Baum-Welch para a estimativa dos modelos de Markov e o algorítmo de Viterbi para o reconhecimento das sequências obtidas. |
| publishDate |
1996 |
| dc.date.none.fl_str_mv |
1996-11-22 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-06062025-151233/ |
| url |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-06062025-151233/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1844786328885002240 |