Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua.
| Ano de defesa: | 1998 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/3/3142/tde-02122024-161109/ |
Resumo: | O presente trabalho tem como principal meta a descrição de um sistema de reconhecimento de voz de linguagem contínua empregando uma abordagem fonético-fonológica. São apresentadas as técnicas, os métodos e os fundamentos teóricos necessários para elaboração e construção de um sistema de reconhecimento de voz, de linguagem contínua e de extenso vocabulário de cobertura. Para a realização do sistema proposto foi utilizado o audio corpus SWITCHBOARD do idioma inglês, visto não existir até o presente momento um audio corpus com sentenças em linguagem contínua e ainda de extenso vocabulário para o idioma português. Os fundamentos teóricos e as técnicas de implementação apresentadas para o reconhecimento de padrões são as empregadas em estruturas (Hidden Markov Models) HMM. O algoritmo de busca para a construção da sentença reconhecida é o algoritmo um-estágio (one-step) implementado de duas formas diferentes: uma implementação padrão, usual em sistemas de reconhecimento de fala de vocabulário extenso, e uma implementação similar à proposta pelo pesquisador Herman Ney. Os algoritmos dois-estágios (two-steps), construção de níveis (level building) e \'A POT.*\' são também apresentados, de forma a fornecer elementos para a descrição do algoritmo um-estágio, bem como servir de base à proposta de futuros trabalhos. Além disso, procura-se acentuar o enfoque lingüístico, destacando-se os conceitos, definições e correntes de pesquisada lingüística úteis e aplicáveis na construção de um sistema de reconhecimento de fala. Neste sentido, procura-se acentuar os aspectos teóricos das correntes Gerativista e Empirista para extrair novas formas de abordar o problema inerente ao processo de comunicação pela fala, bem como a realização deste processo no conjunto homem-máquina. Adicionalmente procura-se apresentar novos elementos matemáticos existentes quando se realiza uma modelagem fonético-fonológica em sistemas de ) reconhecimento de fala. Esta nova abordagem conduzirá a novas formas de construção, em especial para sistemas que empregarão novas sugestões de implementação ao nível fonético-fonológico. Neste sentido, é proposta neste trabalho uma estrutura fonética estatística que, atuando ao nível fonético-fonológico, melhora o desempenho final dos sistemas de reconhecimento de fala que empregam estruturas fonéticas, ao elevar os escores de similaridade das combinações fonéticas mais frequentes do idiomado sistema. Tal estrutura fonética estatística deve ser considerada como uma base de conhecimento (knowledge base) adicional, com informações referentes a real estrutura fonética interna existente na língua. |
| id |
USP_3117067053a9777521b2c3c0f26ef554 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-02122024-161109 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua.Untitled in englishContinuous languageLinguagem contínuaSistema de reconhecimento de vozSpeech recognition systemO presente trabalho tem como principal meta a descrição de um sistema de reconhecimento de voz de linguagem contínua empregando uma abordagem fonético-fonológica. São apresentadas as técnicas, os métodos e os fundamentos teóricos necessários para elaboração e construção de um sistema de reconhecimento de voz, de linguagem contínua e de extenso vocabulário de cobertura. Para a realização do sistema proposto foi utilizado o audio corpus SWITCHBOARD do idioma inglês, visto não existir até o presente momento um audio corpus com sentenças em linguagem contínua e ainda de extenso vocabulário para o idioma português. Os fundamentos teóricos e as técnicas de implementação apresentadas para o reconhecimento de padrões são as empregadas em estruturas (Hidden Markov Models) HMM. O algoritmo de busca para a construção da sentença reconhecida é o algoritmo um-estágio (one-step) implementado de duas formas diferentes: uma implementação padrão, usual em sistemas de reconhecimento de fala de vocabulário extenso, e uma implementação similar à proposta pelo pesquisador Herman Ney. Os algoritmos dois-estágios (two-steps), construção de níveis (level building) e \'A POT.*\' são também apresentados, de forma a fornecer elementos para a descrição do algoritmo um-estágio, bem como servir de base à proposta de futuros trabalhos. Além disso, procura-se acentuar o enfoque lingüístico, destacando-se os conceitos, definições e correntes de pesquisada lingüística úteis e aplicáveis na construção de um sistema de reconhecimento de fala. Neste sentido, procura-se acentuar os aspectos teóricos das correntes Gerativista e Empirista para extrair novas formas de abordar o problema inerente ao processo de comunicação pela fala, bem como a realização deste processo no conjunto homem-máquina. Adicionalmente procura-se apresentar novos elementos matemáticos existentes quando se realiza uma modelagem fonético-fonológica em sistemas de ) reconhecimento de fala. Esta nova abordagem conduzirá a novas formas de construção, em especial para sistemas que empregarão novas sugestões de implementação ao nível fonético-fonológico. Neste sentido, é proposta neste trabalho uma estrutura fonética estatística que, atuando ao nível fonético-fonológico, melhora o desempenho final dos sistemas de reconhecimento de fala que empregam estruturas fonéticas, ao elevar os escores de similaridade das combinações fonéticas mais frequentes do idiomado sistema. Tal estrutura fonética estatística deve ser considerada como uma base de conhecimento (knowledge base) adicional, com informações referentes a real estrutura fonética interna existente na língua.This work has as main goal a description of a continuous speech recognition system, using a Phonetic-Phonological approach. The techniques, methods and theoretical baselines are presented, for creating and building such Continuous Speech Recognition System covering a large vocabulary. In order to reach this proposal the SWITCHBOARD audio corpus was used, from English Language, because there is no such kind of audio corpus database, with continuous utterances spoken, available for Portuguese language. The basic theory and implementation techniques for the acoustic pattern recognition are the well-known Hidden Markov Models (HMM). The search algorithm applied in the sentence recognition building step is the One step algorithm, using two techniques for implementation: a standard one, usual in speech recognition system, and another one proposed by the researcher Herman Ney. Also, the two-stages algorithm, level-building algorithm and A* algorithm are presented, providing elements to describe the one-step algorithm and to use as a baseline for future works as well. Furthermore, the Linguistic approach is enhanced, spotting the concepts, definitions and research lines in the Linguistic, providing usefull and appliedable elements for building a large vocabulary speech recognition system. In such sense, the Gerativism and Empirism research lines are discussed in order to get new ways to deal with the inerent problems involving the speech communication process, and re-create the same communication process in the man-machine set. Also, some new mathematical elements arise from phonetic-phonological modelling approach in speech recognition system. These new elements will lead to new building ways, using new implementation ideas at phonetic-phonological level. In such sense, this work has as proposal, a statistical phonetic structure, applied at the phonetic-phonological level, toimprove the speech recognition performance in those systems that has phonetic-phonological modeling. The general likelihood scores are increased, and so getting a better recognition performance, because the statistical phonetic structure will enhance some frequent phonetic combinations, those often ones from the idiom itself. Such structure should be considered as a additional knowledge base, refering informations about the real languages phonetic structure.Biblioteca Digitais de Teses e Dissertações da USPSanches, IvandroFagundes, Rubem Dutra Ribeiro1998-08-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-02122024-161109/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-12-02T18:16:02Zoai:teses.usp.br:tde-02122024-161109Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-12-02T18:16:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua. Untitled in english |
| title |
Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua. |
| spellingShingle |
Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua. Fagundes, Rubem Dutra Ribeiro Continuous language Linguagem contínua Sistema de reconhecimento de voz Speech recognition system |
| title_short |
Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua. |
| title_full |
Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua. |
| title_fullStr |
Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua. |
| title_full_unstemmed |
Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua. |
| title_sort |
Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua. |
| author |
Fagundes, Rubem Dutra Ribeiro |
| author_facet |
Fagundes, Rubem Dutra Ribeiro |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Sanches, Ivandro |
| dc.contributor.author.fl_str_mv |
Fagundes, Rubem Dutra Ribeiro |
| dc.subject.por.fl_str_mv |
Continuous language Linguagem contínua Sistema de reconhecimento de voz Speech recognition system |
| topic |
Continuous language Linguagem contínua Sistema de reconhecimento de voz Speech recognition system |
| description |
O presente trabalho tem como principal meta a descrição de um sistema de reconhecimento de voz de linguagem contínua empregando uma abordagem fonético-fonológica. São apresentadas as técnicas, os métodos e os fundamentos teóricos necessários para elaboração e construção de um sistema de reconhecimento de voz, de linguagem contínua e de extenso vocabulário de cobertura. Para a realização do sistema proposto foi utilizado o audio corpus SWITCHBOARD do idioma inglês, visto não existir até o presente momento um audio corpus com sentenças em linguagem contínua e ainda de extenso vocabulário para o idioma português. Os fundamentos teóricos e as técnicas de implementação apresentadas para o reconhecimento de padrões são as empregadas em estruturas (Hidden Markov Models) HMM. O algoritmo de busca para a construção da sentença reconhecida é o algoritmo um-estágio (one-step) implementado de duas formas diferentes: uma implementação padrão, usual em sistemas de reconhecimento de fala de vocabulário extenso, e uma implementação similar à proposta pelo pesquisador Herman Ney. Os algoritmos dois-estágios (two-steps), construção de níveis (level building) e \'A POT.*\' são também apresentados, de forma a fornecer elementos para a descrição do algoritmo um-estágio, bem como servir de base à proposta de futuros trabalhos. Além disso, procura-se acentuar o enfoque lingüístico, destacando-se os conceitos, definições e correntes de pesquisada lingüística úteis e aplicáveis na construção de um sistema de reconhecimento de fala. Neste sentido, procura-se acentuar os aspectos teóricos das correntes Gerativista e Empirista para extrair novas formas de abordar o problema inerente ao processo de comunicação pela fala, bem como a realização deste processo no conjunto homem-máquina. Adicionalmente procura-se apresentar novos elementos matemáticos existentes quando se realiza uma modelagem fonético-fonológica em sistemas de ) reconhecimento de fala. Esta nova abordagem conduzirá a novas formas de construção, em especial para sistemas que empregarão novas sugestões de implementação ao nível fonético-fonológico. Neste sentido, é proposta neste trabalho uma estrutura fonética estatística que, atuando ao nível fonético-fonológico, melhora o desempenho final dos sistemas de reconhecimento de fala que empregam estruturas fonéticas, ao elevar os escores de similaridade das combinações fonéticas mais frequentes do idiomado sistema. Tal estrutura fonética estatística deve ser considerada como uma base de conhecimento (knowledge base) adicional, com informações referentes a real estrutura fonética interna existente na língua. |
| publishDate |
1998 |
| dc.date.none.fl_str_mv |
1998-08-24 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-02122024-161109/ |
| url |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-02122024-161109/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1818598501039210496 |