Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro

Detalhes bibliográficos
Ano de defesa: 2011
Autor(a) principal: SAMPAIO NETO, Nelson Cruz lattes
Orientador(a): KLAUTAU JÚNIOR, Aldebaro Barreto da Rocha lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Pará
Programa de Pós-Graduação: Programa de Pós-Graduação em Engenharia Elétrica
Departamento: Instituto de Tecnologia
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.ufpa.br/jspui/handle/2011/2845
Resumo: Sistemas de reconhecimento e síntese de voz são constituídos por módulos que dependem da língua e, enquanto existem muitos recursos públicos para alguns idiomas (p.e. Inglês e Japonês), os recursos para Português Brasileiro (PB) ainda são escassos. Outro aspecto é que, para um grande número de tarefas, a taxa de erro dos sistemas de reconhecimento de voz atuais ainda é elevada, quando comparada à obtida por seres humanos. Assim, apesar do sucesso das cadeias escondidas de Markov (HMM), é necessária a pesquisa por novos métodos. Este trabalho tem como motivação esses dois fatos e se divide em duas partes. A primeira descreve o desenvolvimento de recursos e ferramentas livres para reconhecimento e síntese de voz em PB, consistindo de bases de dados de áudio e texto, um dicionário fonético, um conversor grafema-fone, um separador silábico e modelos acústico e de linguagem. Todos os recursos construídos encontram-se publicamente disponíveis e, junto com uma interface de programação proposta, têm sido usados para o desenvolvimento de várias novas aplicações em tempo-real, incluindo um módulo de reconhecimento de voz para a suíte de aplicativos para escritório OpenOffice.org. São apresentados testes de desempenho dos sistemas desenvolvidos. Os recursos aqui produzidos e disponibilizados facilitam a adoção da tecnologia de voz para PB por outros grupos de pesquisa, desenvolvedores e pela indústria. A segunda parte do trabalho apresenta um novo método para reavaliar (rescoring) o resultado do reconhecimento baseado em HMMs, o qual é organizado em uma estrutura de dados do tipo lattice. Mais especificamente, o sistema utiliza classificadores discriminativos que buscam diminuir a confusão entre pares de fones. Para cada um desses problemas binários, são usadas técnicas de seleção automática de parâmetros para escolher a representaçãao paramétrica mais adequada para o problema em questão.
id UFPA_05842eeadc86096bc215804d047dfe1b
oai_identifier_str oai:repositorio.ufpa.br:2011/2845
network_acronym_str UFPA
network_name_str Repositório Institucional da UFPA
repository_id_str
spelling 2012-06-06T14:13:13Z2012-06-06T14:13:13Z2011-06-17SAMPAIO NETO, Nelson Cruz. Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro. Orientador: Aldebaro Barreto da Rocha Klautau Júnior. 2011. 96 f. Tese (Doutorado em Engenharia Elétrica.) - Instituto de Tecnologia, Universidade Federal do Pará, Belém, 2011. Disponível em: http://repositorio.ufpa.br/jspui/handle/2011/2845. Acesso em:.http://repositorio.ufpa.br/jspui/handle/2011/2845Sistemas de reconhecimento e síntese de voz são constituídos por módulos que dependem da língua e, enquanto existem muitos recursos públicos para alguns idiomas (p.e. Inglês e Japonês), os recursos para Português Brasileiro (PB) ainda são escassos. Outro aspecto é que, para um grande número de tarefas, a taxa de erro dos sistemas de reconhecimento de voz atuais ainda é elevada, quando comparada à obtida por seres humanos. Assim, apesar do sucesso das cadeias escondidas de Markov (HMM), é necessária a pesquisa por novos métodos. Este trabalho tem como motivação esses dois fatos e se divide em duas partes. A primeira descreve o desenvolvimento de recursos e ferramentas livres para reconhecimento e síntese de voz em PB, consistindo de bases de dados de áudio e texto, um dicionário fonético, um conversor grafema-fone, um separador silábico e modelos acústico e de linguagem. Todos os recursos construídos encontram-se publicamente disponíveis e, junto com uma interface de programação proposta, têm sido usados para o desenvolvimento de várias novas aplicações em tempo-real, incluindo um módulo de reconhecimento de voz para a suíte de aplicativos para escritório OpenOffice.org. São apresentados testes de desempenho dos sistemas desenvolvidos. Os recursos aqui produzidos e disponibilizados facilitam a adoção da tecnologia de voz para PB por outros grupos de pesquisa, desenvolvedores e pela indústria. A segunda parte do trabalho apresenta um novo método para reavaliar (rescoring) o resultado do reconhecimento baseado em HMMs, o qual é organizado em uma estrutura de dados do tipo lattice. Mais especificamente, o sistema utiliza classificadores discriminativos que buscam diminuir a confusão entre pares de fones. Para cada um desses problemas binários, são usadas técnicas de seleção automática de parâmetros para escolher a representaçãao paramétrica mais adequada para o problema em questão.Automatic speech recognition and text-to-speech systems have modules that depend on the language and, while there are many public resources for some languages (e.g. English and Japanese), the resources for Brazilian Portuguese (BP) are still limited. Another aspect is that for many tasks the current speech recognition system error rate is still high, when compared to that obtained by humans. Thus, despite the success of hidden Markov models (HMM), it is necessary to investigate new methods. This work has these two facts as motivation and is divided into two parts. The first part describes the resources and free tools developed for BP speech recognition and synthesis, consisting of text and audio databases, phonetic dictionary, grapheme-to-phone converter, syllabification module, language and acoustic models. All of them are publicly available and, together with a proposed application programming interface, have been used for the development of several new real-time applications, including a speech module for the OpenOffice suite. Performance tests are presented for evaluating the developed systems. The resources make easier the adoption of BP speech technologies by other academic groups, developers and industry. The second part of this work presents a new method for rescoring the recognition result obtained via HMMs, with the result being organized as a lattice. More specifically, the system uses discriminative classifiers that aim at reducing the confusability between pairs of phones. For each of these binary problems, automatic feature selection techniques are used to choose the proper parametric representation for the specific problem.Submitted by Samira Prince (prince@ufpa.br) on 2012-06-06T14:12:29Z No. of bitstreams: 2 Tese_FerramentasRecursosLivres.pdf: 1397799 bytes, checksum: d17f058a4d4705205300467cd7b7a59a (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)Approved for entry into archive by Samira Prince(prince@ufpa.br) on 2012-06-06T14:13:13Z (GMT) No. of bitstreams: 2 Tese_FerramentasRecursosLivres.pdf: 1397799 bytes, checksum: d17f058a4d4705205300467cd7b7a59a (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)Made available in DSpace on 2012-06-06T14:13:13Z (GMT). No. of bitstreams: 2 Tese_FerramentasRecursosLivres.pdf: 1397799 bytes, checksum: d17f058a4d4705205300467cd7b7a59a (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Previous issue date: 2011FAPESPA - Fundação Amazônia de Amparo a Estudos e PesquisasporUniversidade Federal do ParáPrograma de Pós-Graduação em Engenharia ElétricaUFPABrasilInstituto de TecnologiaCNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOESReconhecimento automático da vozSíntese da vozAutomatic speech recognitionText-to-speechFerramentas e recursos livres para reconhecimento e síntese de voz em português brasileiroinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisKLAUTAU JÚNIOR, Aldebaro Barreto da Rochahttp://lattes.cnpq.br/1596629769697284http://lattes.cnpq.br/9756167788721062SAMPAIO NETO, Nelson Cruzinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPAinstname:Universidade Federal do Pará (UFPA)instacron:UFPAORIGINALTese_FerramentasRecursosLivres.pdfTese_FerramentasRecursosLivres.pdfapplication/pdf1397799https://repositorio.ufpa.br/oai/bitstream/2011/2845/1/Tese_FerramentasRecursosLivres.pdfd17f058a4d4705205300467cd7b7a59aMD51CC-LICENSElicense_urllicense_urltext/plain; charset=utf-852https://repositorio.ufpa.br/oai/bitstream/2011/2845/2/license_url3d480ae6c91e310daba2020f8787d6f9MD52license_textlicense_texttext/html; charset=utf-80https://repositorio.ufpa.br/oai/bitstream/2011/2845/3/license_textd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/rdf+xml; charset=utf-823898https://repositorio.ufpa.br/oai/bitstream/2011/2845/4/license_rdfe363e809996cf46ada20da1accfcd9c7MD54LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.ufpa.br/oai/bitstream/2011/2845/5/license.txt8a4605be74aa9ea9d79846c1fba20a33MD55TEXTTese_FerramentasRecursosLivres.pdf.txtTese_FerramentasRecursosLivres.pdf.txtExtracted texttext/plain241324https://repositorio.ufpa.br/oai/bitstream/2011/2845/6/Tese_FerramentasRecursosLivres.pdf.txt3f0bb1b344a9ba7caa6cacccdb640f68MD562011/28452021-09-24 11:45:00.263oai:repositorio.ufpa.br:2011/2845Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttp://repositorio.ufpa.br/oai/requestriufpabc@ufpa.bropendoar:21232021-09-24T14:45Repositório Institucional da UFPA - Universidade Federal do Pará (UFPA)false
dc.title.pt_BR.fl_str_mv Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro
title Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro
spellingShingle Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro
SAMPAIO NETO, Nelson Cruz
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOES
Reconhecimento automático da voz
Síntese da voz
Automatic speech recognition
Text-to-speech
title_short Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro
title_full Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro
title_fullStr Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro
title_full_unstemmed Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro
title_sort Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro
author SAMPAIO NETO, Nelson Cruz
author_facet SAMPAIO NETO, Nelson Cruz
author_role author
dc.contributor.advisor1.fl_str_mv KLAUTAU JÚNIOR, Aldebaro Barreto da Rocha
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/1596629769697284
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/9756167788721062
dc.contributor.author.fl_str_mv SAMPAIO NETO, Nelson Cruz
contributor_str_mv KLAUTAU JÚNIOR, Aldebaro Barreto da Rocha
dc.subject.cnpq.fl_str_mv CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOES
topic CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOES
Reconhecimento automático da voz
Síntese da voz
Automatic speech recognition
Text-to-speech
dc.subject.por.fl_str_mv Reconhecimento automático da voz
Síntese da voz
dc.subject.eng.fl_str_mv Automatic speech recognition
Text-to-speech
description Sistemas de reconhecimento e síntese de voz são constituídos por módulos que dependem da língua e, enquanto existem muitos recursos públicos para alguns idiomas (p.e. Inglês e Japonês), os recursos para Português Brasileiro (PB) ainda são escassos. Outro aspecto é que, para um grande número de tarefas, a taxa de erro dos sistemas de reconhecimento de voz atuais ainda é elevada, quando comparada à obtida por seres humanos. Assim, apesar do sucesso das cadeias escondidas de Markov (HMM), é necessária a pesquisa por novos métodos. Este trabalho tem como motivação esses dois fatos e se divide em duas partes. A primeira descreve o desenvolvimento de recursos e ferramentas livres para reconhecimento e síntese de voz em PB, consistindo de bases de dados de áudio e texto, um dicionário fonético, um conversor grafema-fone, um separador silábico e modelos acústico e de linguagem. Todos os recursos construídos encontram-se publicamente disponíveis e, junto com uma interface de programação proposta, têm sido usados para o desenvolvimento de várias novas aplicações em tempo-real, incluindo um módulo de reconhecimento de voz para a suíte de aplicativos para escritório OpenOffice.org. São apresentados testes de desempenho dos sistemas desenvolvidos. Os recursos aqui produzidos e disponibilizados facilitam a adoção da tecnologia de voz para PB por outros grupos de pesquisa, desenvolvedores e pela indústria. A segunda parte do trabalho apresenta um novo método para reavaliar (rescoring) o resultado do reconhecimento baseado em HMMs, o qual é organizado em uma estrutura de dados do tipo lattice. Mais especificamente, o sistema utiliza classificadores discriminativos que buscam diminuir a confusão entre pares de fones. Para cada um desses problemas binários, são usadas técnicas de seleção automática de parâmetros para escolher a representaçãao paramétrica mais adequada para o problema em questão.
publishDate 2011
dc.date.issued.fl_str_mv 2011-06-17
dc.date.accessioned.fl_str_mv 2012-06-06T14:13:13Z
dc.date.available.fl_str_mv 2012-06-06T14:13:13Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SAMPAIO NETO, Nelson Cruz. Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro. Orientador: Aldebaro Barreto da Rocha Klautau Júnior. 2011. 96 f. Tese (Doutorado em Engenharia Elétrica.) - Instituto de Tecnologia, Universidade Federal do Pará, Belém, 2011. Disponível em: http://repositorio.ufpa.br/jspui/handle/2011/2845. Acesso em:.
dc.identifier.uri.fl_str_mv http://repositorio.ufpa.br/jspui/handle/2011/2845
identifier_str_mv SAMPAIO NETO, Nelson Cruz. Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro. Orientador: Aldebaro Barreto da Rocha Klautau Júnior. 2011. 96 f. Tese (Doutorado em Engenharia Elétrica.) - Instituto de Tecnologia, Universidade Federal do Pará, Belém, 2011. Disponível em: http://repositorio.ufpa.br/jspui/handle/2011/2845. Acesso em:.
url http://repositorio.ufpa.br/jspui/handle/2011/2845
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Pará
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Engenharia Elétrica
dc.publisher.initials.fl_str_mv UFPA
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto de Tecnologia
publisher.none.fl_str_mv Universidade Federal do Pará
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPA
instname:Universidade Federal do Pará (UFPA)
instacron:UFPA
instname_str Universidade Federal do Pará (UFPA)
instacron_str UFPA
institution UFPA
reponame_str Repositório Institucional da UFPA
collection Repositório Institucional da UFPA
bitstream.url.fl_str_mv https://repositorio.ufpa.br/oai/bitstream/2011/2845/1/Tese_FerramentasRecursosLivres.pdf
https://repositorio.ufpa.br/oai/bitstream/2011/2845/2/license_url
https://repositorio.ufpa.br/oai/bitstream/2011/2845/3/license_text
https://repositorio.ufpa.br/oai/bitstream/2011/2845/4/license_rdf
https://repositorio.ufpa.br/oai/bitstream/2011/2845/5/license.txt
https://repositorio.ufpa.br/oai/bitstream/2011/2845/6/Tese_FerramentasRecursosLivres.pdf.txt
bitstream.checksum.fl_str_mv d17f058a4d4705205300467cd7b7a59a
3d480ae6c91e310daba2020f8787d6f9
d41d8cd98f00b204e9800998ecf8427e
e363e809996cf46ada20da1accfcd9c7
8a4605be74aa9ea9d79846c1fba20a33
3f0bb1b344a9ba7caa6cacccdb640f68
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPA - Universidade Federal do Pará (UFPA)
repository.mail.fl_str_mv riufpabc@ufpa.br
_version_ 1842907959966826496