Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua.

Detalhes bibliográficos
Ano de defesa: 1998
Autor(a) principal: Fagundes, Rubem Dutra Ribeiro
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-02122024-161109/
Resumo: O presente trabalho tem como principal meta a descrição de um sistema de reconhecimento de voz de linguagem contínua empregando uma abordagem fonético-fonológica. São apresentadas as técnicas, os métodos e os fundamentos teóricos necessários para elaboração e construção de um sistema de reconhecimento de voz, de linguagem contínua e de extenso vocabulário de cobertura. Para a realização do sistema proposto foi utilizado o audio corpus SWITCHBOARD do idioma inglês, visto não existir até o presente momento um audio corpus com sentenças em linguagem contínua e ainda de extenso vocabulário para o idioma português. Os fundamentos teóricos e as técnicas de implementação apresentadas para o reconhecimento de padrões são as empregadas em estruturas (Hidden Markov Models) HMM. O algoritmo de busca para a construção da sentença reconhecida é o algoritmo um-estágio (one-step) implementado de duas formas diferentes: uma implementação padrão, usual em sistemas de reconhecimento de fala de vocabulário extenso, e uma implementação similar à proposta pelo pesquisador Herman Ney. Os algoritmos dois-estágios (two-steps), construção de níveis (level building) e \'A POT.*\' são também apresentados, de forma a fornecer elementos para a descrição do algoritmo um-estágio, bem como servir de base à proposta de futuros trabalhos. Além disso, procura-se acentuar o enfoque lingüístico, destacando-se os conceitos, definições e correntes de pesquisada lingüística úteis e aplicáveis na construção de um sistema de reconhecimento de fala. Neste sentido, procura-se acentuar os aspectos teóricos das correntes Gerativista e Empirista para extrair novas formas de abordar o problema inerente ao processo de comunicação pela fala, bem como a realização deste processo no conjunto homem-máquina. Adicionalmente procura-se apresentar novos elementos matemáticos existentes quando se realiza uma modelagem fonético-fonológica em sistemas de ) reconhecimento de fala. Esta nova abordagem conduzirá a novas formas de construção, em especial para sistemas que empregarão novas sugestões de implementação ao nível fonético-fonológico. Neste sentido, é proposta neste trabalho uma estrutura fonética estatística que, atuando ao nível fonético-fonológico, melhora o desempenho final dos sistemas de reconhecimento de fala que empregam estruturas fonéticas, ao elevar os escores de similaridade das combinações fonéticas mais frequentes do idiomado sistema. Tal estrutura fonética estatística deve ser considerada como uma base de conhecimento (knowledge base) adicional, com informações referentes a real estrutura fonética interna existente na língua.
id USP_3117067053a9777521b2c3c0f26ef554
oai_identifier_str oai:teses.usp.br:tde-02122024-161109
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua.Untitled in englishContinuous languageLinguagem contínuaSistema de reconhecimento de vozSpeech recognition systemO presente trabalho tem como principal meta a descrição de um sistema de reconhecimento de voz de linguagem contínua empregando uma abordagem fonético-fonológica. São apresentadas as técnicas, os métodos e os fundamentos teóricos necessários para elaboração e construção de um sistema de reconhecimento de voz, de linguagem contínua e de extenso vocabulário de cobertura. Para a realização do sistema proposto foi utilizado o audio corpus SWITCHBOARD do idioma inglês, visto não existir até o presente momento um audio corpus com sentenças em linguagem contínua e ainda de extenso vocabulário para o idioma português. Os fundamentos teóricos e as técnicas de implementação apresentadas para o reconhecimento de padrões são as empregadas em estruturas (Hidden Markov Models) HMM. O algoritmo de busca para a construção da sentença reconhecida é o algoritmo um-estágio (one-step) implementado de duas formas diferentes: uma implementação padrão, usual em sistemas de reconhecimento de fala de vocabulário extenso, e uma implementação similar à proposta pelo pesquisador Herman Ney. Os algoritmos dois-estágios (two-steps), construção de níveis (level building) e \'A POT.*\' são também apresentados, de forma a fornecer elementos para a descrição do algoritmo um-estágio, bem como servir de base à proposta de futuros trabalhos. Além disso, procura-se acentuar o enfoque lingüístico, destacando-se os conceitos, definições e correntes de pesquisada lingüística úteis e aplicáveis na construção de um sistema de reconhecimento de fala. Neste sentido, procura-se acentuar os aspectos teóricos das correntes Gerativista e Empirista para extrair novas formas de abordar o problema inerente ao processo de comunicação pela fala, bem como a realização deste processo no conjunto homem-máquina. Adicionalmente procura-se apresentar novos elementos matemáticos existentes quando se realiza uma modelagem fonético-fonológica em sistemas de ) reconhecimento de fala. Esta nova abordagem conduzirá a novas formas de construção, em especial para sistemas que empregarão novas sugestões de implementação ao nível fonético-fonológico. Neste sentido, é proposta neste trabalho uma estrutura fonética estatística que, atuando ao nível fonético-fonológico, melhora o desempenho final dos sistemas de reconhecimento de fala que empregam estruturas fonéticas, ao elevar os escores de similaridade das combinações fonéticas mais frequentes do idiomado sistema. Tal estrutura fonética estatística deve ser considerada como uma base de conhecimento (knowledge base) adicional, com informações referentes a real estrutura fonética interna existente na língua.This work has as main goal a description of a continuous speech recognition system, using a Phonetic-Phonological approach. The techniques, methods and theoretical baselines are presented, for creating and building such Continuous Speech Recognition System covering a large vocabulary. In order to reach this proposal the SWITCHBOARD audio corpus was used, from English Language, because there is no such kind of audio corpus database, with continuous utterances spoken, available for Portuguese language. The basic theory and implementation techniques for the acoustic pattern recognition are the well-known Hidden Markov Models (HMM). The search algorithm applied in the sentence recognition building step is the One step algorithm, using two techniques for implementation: a standard one, usual in speech recognition system, and another one proposed by the researcher Herman Ney. Also, the two-stages algorithm, level-building algorithm and A* algorithm are presented, providing elements to describe the one-step algorithm and to use as a baseline for future works as well. Furthermore, the Linguistic approach is enhanced, spotting the concepts, definitions and research lines in the Linguistic, providing usefull and appliedable elements for building a large vocabulary speech recognition system. In such sense, the Gerativism and Empirism research lines are discussed in order to get new ways to deal with the inerent problems involving the speech communication process, and re-create the same communication process in the man-machine set. Also, some new mathematical elements arise from phonetic-phonological modelling approach in speech recognition system. These new elements will lead to new building ways, using new implementation ideas at phonetic-phonological level. In such sense, this work has as proposal, a statistical phonetic structure, applied at the phonetic-phonological level, toimprove the speech recognition performance in those systems that has phonetic-phonological modeling. The general likelihood scores are increased, and so getting a better recognition performance, because the statistical phonetic structure will enhance some frequent phonetic combinations, those often ones from the idiom itself. Such structure should be considered as a additional knowledge base, refering informations about the real languages phonetic structure.Biblioteca Digitais de Teses e Dissertações da USPSanches, IvandroFagundes, Rubem Dutra Ribeiro1998-08-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-02122024-161109/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-12-02T18:16:02Zoai:teses.usp.br:tde-02122024-161109Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-12-02T18:16:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua.
Untitled in english
title Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua.
spellingShingle Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua.
Fagundes, Rubem Dutra Ribeiro
Continuous language
Linguagem contínua
Sistema de reconhecimento de voz
Speech recognition system
title_short Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua.
title_full Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua.
title_fullStr Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua.
title_full_unstemmed Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua.
title_sort Abordagem fonético-fonológica em sistemas de reconhecimento de voz de linguagem contínua.
author Fagundes, Rubem Dutra Ribeiro
author_facet Fagundes, Rubem Dutra Ribeiro
author_role author
dc.contributor.none.fl_str_mv Sanches, Ivandro
dc.contributor.author.fl_str_mv Fagundes, Rubem Dutra Ribeiro
dc.subject.por.fl_str_mv Continuous language
Linguagem contínua
Sistema de reconhecimento de voz
Speech recognition system
topic Continuous language
Linguagem contínua
Sistema de reconhecimento de voz
Speech recognition system
description O presente trabalho tem como principal meta a descrição de um sistema de reconhecimento de voz de linguagem contínua empregando uma abordagem fonético-fonológica. São apresentadas as técnicas, os métodos e os fundamentos teóricos necessários para elaboração e construção de um sistema de reconhecimento de voz, de linguagem contínua e de extenso vocabulário de cobertura. Para a realização do sistema proposto foi utilizado o audio corpus SWITCHBOARD do idioma inglês, visto não existir até o presente momento um audio corpus com sentenças em linguagem contínua e ainda de extenso vocabulário para o idioma português. Os fundamentos teóricos e as técnicas de implementação apresentadas para o reconhecimento de padrões são as empregadas em estruturas (Hidden Markov Models) HMM. O algoritmo de busca para a construção da sentença reconhecida é o algoritmo um-estágio (one-step) implementado de duas formas diferentes: uma implementação padrão, usual em sistemas de reconhecimento de fala de vocabulário extenso, e uma implementação similar à proposta pelo pesquisador Herman Ney. Os algoritmos dois-estágios (two-steps), construção de níveis (level building) e \'A POT.*\' são também apresentados, de forma a fornecer elementos para a descrição do algoritmo um-estágio, bem como servir de base à proposta de futuros trabalhos. Além disso, procura-se acentuar o enfoque lingüístico, destacando-se os conceitos, definições e correntes de pesquisada lingüística úteis e aplicáveis na construção de um sistema de reconhecimento de fala. Neste sentido, procura-se acentuar os aspectos teóricos das correntes Gerativista e Empirista para extrair novas formas de abordar o problema inerente ao processo de comunicação pela fala, bem como a realização deste processo no conjunto homem-máquina. Adicionalmente procura-se apresentar novos elementos matemáticos existentes quando se realiza uma modelagem fonético-fonológica em sistemas de ) reconhecimento de fala. Esta nova abordagem conduzirá a novas formas de construção, em especial para sistemas que empregarão novas sugestões de implementação ao nível fonético-fonológico. Neste sentido, é proposta neste trabalho uma estrutura fonética estatística que, atuando ao nível fonético-fonológico, melhora o desempenho final dos sistemas de reconhecimento de fala que empregam estruturas fonéticas, ao elevar os escores de similaridade das combinações fonéticas mais frequentes do idiomado sistema. Tal estrutura fonética estatística deve ser considerada como uma base de conhecimento (knowledge base) adicional, com informações referentes a real estrutura fonética interna existente na língua.
publishDate 1998
dc.date.none.fl_str_mv 1998-08-24
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/3/3142/tde-02122024-161109/
url https://www.teses.usp.br/teses/disponiveis/3/3142/tde-02122024-161109/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1818598501039210496