Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado.
| Ano de defesa: | 1998 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Instituto Tecnológico de Aeronáutica
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2633 |
Resumo: | Desenvolvemos e implementamos um sistem fala-texto com vocabulário ilimitado para o português do Brasil. A primeira parte do sistema, denominada reconhecedor fonético, é capaz de segmentar e reconhecer a fala contínua formada por sílabas com estrutura CV, V, VC e CVC, que perfazem 90% de freqüência em português. A segmentação sub-silábica é realizada por um algoritmo que integra de forma original a técnica dos Modelos Ocultos de Markov (HMM) com regras extraídas da própria estrutura fonética do português brasileiro. O algoritmo divide a fala contínua em unidades sub-silábicas e o reconhecimento fonético destas unidades é feito com uso de HMM contínuos, cujos vetores de observação são formados basicamente por coeficientes Mel-cepstrais. A segunda parte denominada gerador de texto, consiste principalmente num conversor fonológico-grafêmico desenvolvido especificamente para a língua portuguesa falada no Brasil. Esta parte do sistema consegue converter qualquer seqüência fonêmica nos correspondentes grafemas, eliminando as possibilidades ortograficamente incorretas. O desempenho do sistema como um todo foi avaliado com base no texto final gerado a partir de 200 frases pronunciadas em taxa de elocução lenta por um único locutor, para o qual os modelos de Markov foram treinados. Obtivemos uma taxa de reconhecimento de 95,9% para todos os fonemas da língua portuguesa, excetuando as semivogais. Para os mesmos dados, o erro de segmentação silábica máximo foi de 0,83% e o índice para o reconhecimento de palavras, de um vocabulário ilimitado, foi de 87%. Considerando-se até a quinta palavra mais provável, a taxa de acerto das mesmas sobe para 96,2% e a de fonemas para 99%, enquanto que o erro de segmentação cai para 0,52%. |
| id |
ITA_8bb22e1d17e0634f2ff4ce2ff685c56d |
|---|---|
| oai_identifier_str |
oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:2633 |
| network_acronym_str |
ITA |
| network_name_str |
Biblioteca Digital de Teses e Dissertações do ITA |
| spelling |
Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado.FalaProcessamento de sinaisLíngua portuguesaReconhecimento de vozSistemas digitaisAlgoritmosFonéticaEngenharia eletrônicaComputaçãoDesenvolvemos e implementamos um sistem fala-texto com vocabulário ilimitado para o português do Brasil. A primeira parte do sistema, denominada reconhecedor fonético, é capaz de segmentar e reconhecer a fala contínua formada por sílabas com estrutura CV, V, VC e CVC, que perfazem 90% de freqüência em português. A segmentação sub-silábica é realizada por um algoritmo que integra de forma original a técnica dos Modelos Ocultos de Markov (HMM) com regras extraídas da própria estrutura fonética do português brasileiro. O algoritmo divide a fala contínua em unidades sub-silábicas e o reconhecimento fonético destas unidades é feito com uso de HMM contínuos, cujos vetores de observação são formados basicamente por coeficientes Mel-cepstrais. A segunda parte denominada gerador de texto, consiste principalmente num conversor fonológico-grafêmico desenvolvido especificamente para a língua portuguesa falada no Brasil. Esta parte do sistema consegue converter qualquer seqüência fonêmica nos correspondentes grafemas, eliminando as possibilidades ortograficamente incorretas. O desempenho do sistema como um todo foi avaliado com base no texto final gerado a partir de 200 frases pronunciadas em taxa de elocução lenta por um único locutor, para o qual os modelos de Markov foram treinados. Obtivemos uma taxa de reconhecimento de 95,9% para todos os fonemas da língua portuguesa, excetuando as semivogais. Para os mesmos dados, o erro de segmentação silábica máximo foi de 0,83% e o índice para o reconhecimento de palavras, de um vocabulário ilimitado, foi de 87%. Considerando-se até a quinta palavra mais provável, a taxa de acerto das mesmas sobe para 96,2% e a de fonemas para 99%, enquanto que o erro de segmentação cai para 0,52%. Instituto Tecnológico de AeronáuticaOsamu SaotomeFrancisco José Fraga Silva1998-00-00info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttp://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2633reponame:Biblioteca Digital de Teses e Dissertações do ITAinstname:Instituto Tecnológico de Aeronáuticainstacron:ITAporinfo:eu-repo/semantics/openAccessapplication/pdf2019-02-02T14:04:53Zoai:agregador.ibict.br.BDTD_ITA:oai:ita.br:2633http://oai.bdtd.ibict.br/requestopendoar:null2020-05-28 19:39:35.453Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáuticatrue |
| dc.title.none.fl_str_mv |
Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado. |
| title |
Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado. |
| spellingShingle |
Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado. Francisco José Fraga Silva Fala Processamento de sinais Língua portuguesa Reconhecimento de voz Sistemas digitais Algoritmos Fonética Engenharia eletrônica Computação |
| title_short |
Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado. |
| title_full |
Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado. |
| title_fullStr |
Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado. |
| title_full_unstemmed |
Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado. |
| title_sort |
Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado. |
| author |
Francisco José Fraga Silva |
| author_facet |
Francisco José Fraga Silva |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Osamu Saotome |
| dc.contributor.author.fl_str_mv |
Francisco José Fraga Silva |
| dc.subject.por.fl_str_mv |
Fala Processamento de sinais Língua portuguesa Reconhecimento de voz Sistemas digitais Algoritmos Fonética Engenharia eletrônica Computação |
| topic |
Fala Processamento de sinais Língua portuguesa Reconhecimento de voz Sistemas digitais Algoritmos Fonética Engenharia eletrônica Computação |
| dc.description.none.fl_txt_mv |
Desenvolvemos e implementamos um sistem fala-texto com vocabulário ilimitado para o português do Brasil. A primeira parte do sistema, denominada reconhecedor fonético, é capaz de segmentar e reconhecer a fala contínua formada por sílabas com estrutura CV, V, VC e CVC, que perfazem 90% de freqüência em português. A segmentação sub-silábica é realizada por um algoritmo que integra de forma original a técnica dos Modelos Ocultos de Markov (HMM) com regras extraídas da própria estrutura fonética do português brasileiro. O algoritmo divide a fala contínua em unidades sub-silábicas e o reconhecimento fonético destas unidades é feito com uso de HMM contínuos, cujos vetores de observação são formados basicamente por coeficientes Mel-cepstrais. A segunda parte denominada gerador de texto, consiste principalmente num conversor fonológico-grafêmico desenvolvido especificamente para a língua portuguesa falada no Brasil. Esta parte do sistema consegue converter qualquer seqüência fonêmica nos correspondentes grafemas, eliminando as possibilidades ortograficamente incorretas. O desempenho do sistema como um todo foi avaliado com base no texto final gerado a partir de 200 frases pronunciadas em taxa de elocução lenta por um único locutor, para o qual os modelos de Markov foram treinados. Obtivemos uma taxa de reconhecimento de 95,9% para todos os fonemas da língua portuguesa, excetuando as semivogais. Para os mesmos dados, o erro de segmentação silábica máximo foi de 0,83% e o índice para o reconhecimento de palavras, de um vocabulário ilimitado, foi de 87%. Considerando-se até a quinta palavra mais provável, a taxa de acerto das mesmas sobe para 96,2% e a de fonemas para 99%, enquanto que o erro de segmentação cai para 0,52%. |
| description |
Desenvolvemos e implementamos um sistem fala-texto com vocabulário ilimitado para o português do Brasil. A primeira parte do sistema, denominada reconhecedor fonético, é capaz de segmentar e reconhecer a fala contínua formada por sílabas com estrutura CV, V, VC e CVC, que perfazem 90% de freqüência em português. A segmentação sub-silábica é realizada por um algoritmo que integra de forma original a técnica dos Modelos Ocultos de Markov (HMM) com regras extraídas da própria estrutura fonética do português brasileiro. O algoritmo divide a fala contínua em unidades sub-silábicas e o reconhecimento fonético destas unidades é feito com uso de HMM contínuos, cujos vetores de observação são formados basicamente por coeficientes Mel-cepstrais. A segunda parte denominada gerador de texto, consiste principalmente num conversor fonológico-grafêmico desenvolvido especificamente para a língua portuguesa falada no Brasil. Esta parte do sistema consegue converter qualquer seqüência fonêmica nos correspondentes grafemas, eliminando as possibilidades ortograficamente incorretas. O desempenho do sistema como um todo foi avaliado com base no texto final gerado a partir de 200 frases pronunciadas em taxa de elocução lenta por um único locutor, para o qual os modelos de Markov foram treinados. Obtivemos uma taxa de reconhecimento de 95,9% para todos os fonemas da língua portuguesa, excetuando as semivogais. Para os mesmos dados, o erro de segmentação silábica máximo foi de 0,83% e o índice para o reconhecimento de palavras, de um vocabulário ilimitado, foi de 87%. Considerando-se até a quinta palavra mais provável, a taxa de acerto das mesmas sobe para 96,2% e a de fonemas para 99%, enquanto que o erro de segmentação cai para 0,52%. |
| publishDate |
1998 |
| dc.date.none.fl_str_mv |
1998-00-00 |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis |
| status_str |
publishedVersion |
| format |
doctoralThesis |
| dc.identifier.uri.fl_str_mv |
http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2633 |
| url |
http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2633 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Instituto Tecnológico de Aeronáutica |
| publisher.none.fl_str_mv |
Instituto Tecnológico de Aeronáutica |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do ITA instname:Instituto Tecnológico de Aeronáutica instacron:ITA |
| reponame_str |
Biblioteca Digital de Teses e Dissertações do ITA |
| collection |
Biblioteca Digital de Teses e Dissertações do ITA |
| instname_str |
Instituto Tecnológico de Aeronáutica |
| instacron_str |
ITA |
| institution |
ITA |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáutica |
| repository.mail.fl_str_mv |
|
| subject_por_txtF_mv |
Fala Processamento de sinais Língua portuguesa Reconhecimento de voz Sistemas digitais Algoritmos Fonética Engenharia eletrônica Computação |
| _version_ |
1706805001689497600 |