Imitação da voz humana através do processo de análise-por-síntese utilizando algoritmo genético e sintetizador de voz por formantes

ARAÚJO, Fabiola Pantoja Oliveira

Imitação da voz humana através do processo de análise-por-síntese utilizando algoritmo genético e sintetizador de voz por formantes

Detalhes bibliográficos
Ano de defesa:	2015
Autor(a) principal:	ARAÚJO, Fabiola Pantoja Oliveira
Orientador(a):	KLAUTAU JÚNIOR, Aldebaro Barreto da Rocha
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal do Pará
Programa de Pós-Graduação:	Programa de Pós-Graduação em Engenharia Elétrica
Departamento:	Instituto de Tecnologia
País:	Brasil
Palavras-chave em Português:	Síntese da voz Sistemas de processamento da fala Algoritmos genéticos
Área do conhecimento CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOES
Link de acesso:	http://repositorio.ufpa.br/jspui/handle/2011/7749
Resumo:	A imitação da voz através do mecanismo de utterance copy consiste em estimar os parâmetros de entrada de um sintetizador de voz para gerar um sinal parecido com o da voz original. Este processo distingue-se da tradicional conversão texto-fala, porém é usado em muitas áreas, especialmente, em Linguística e na Saúde. Imitar a voz humana através deste mecanismo é um problema inverso difícil, pois este mapeamento é não linear e de muitos para um. Por exemplo, existem diferentes combinações dos valores dos parâmetros de entrada do sintetizador que produzem o mesmo sinal de voz sintética. Sendo assim, realizar manualmente a imitação da voz requer uma quantidade considerável de tempo e métodos automáticos, como o proposto aqui, são de interesse. Este trabalho apresenta um arcabouço baseado em algoritmo genético (AG) para estimar automaticamente os valores dos parâmetros de entrada de um sintetizador de voz por formantes, utilizando o processo de análise-por-síntese. Os resultados apresentados compreendem a imitação de vozes sintéticas (geradas por computador) e naturais (geradas por humanos) em inglês americano, para falantes masculinos e femininos. Estes resultados são comparados com os obtidos através do Winsnoori (baseline), o único software disponível atualmente que executa a mesma tarefa. Os experimentos mostraram que o arcabouço desenvolvido (newGASpeech) é uma alternativa eficaz para o trabalhoso processo manual de estimar os valores dos parâmetros de entrada de um sintetizador por formantes, superando a qualidade das vozes geradas pelo baseline em relação à cinco métricas objetivas utilizadas e à avaliação subjetiva aplicada a vinte e sete ouvintes não especialistas na área de voz e nem no idioma adotado.

Metadados do item

id	UFPA_3f2fc67a7d49a05b327b54fedc63357a
oai_identifier_str	oai:repositorio.ufpa.br:2011/7749
network_acronym_str	UFPA
network_name_str	Repositório Institucional da UFPA
repository_id_str
spelling	2017-02-22T16:23:02Z2017-02-22T16:23:02Z2015-12-18ARAUJO, Fabiola Pantoja Oliveira. Imitação da voz humana através do processo de análise-por-síntese utilizando algoritmo genético e sintetizador de voz por formantes. 2015. 107 f. Tese (Doutorado) - Universidade Federal do Pará, Instituto de Tecnologia, Belém, 2015. Programa de Pós-Graduação em Engenharia Elétrica.http://repositorio.ufpa.br/jspui/handle/2011/7749A imitação da voz através do mecanismo de utterance copy consiste em estimar os parâmetros de entrada de um sintetizador de voz para gerar um sinal parecido com o da voz original. Este processo distingue-se da tradicional conversão texto-fala, porém é usado em muitas áreas, especialmente, em Linguística e na Saúde. Imitar a voz humana através deste mecanismo é um problema inverso difícil, pois este mapeamento é não linear e de muitos para um. Por exemplo, existem diferentes combinações dos valores dos parâmetros de entrada do sintetizador que produzem o mesmo sinal de voz sintética. Sendo assim, realizar manualmente a imitação da voz requer uma quantidade considerável de tempo e métodos automáticos, como o proposto aqui, são de interesse. Este trabalho apresenta um arcabouço baseado em algoritmo genético (AG) para estimar automaticamente os valores dos parâmetros de entrada de um sintetizador de voz por formantes, utilizando o processo de análise-por-síntese. Os resultados apresentados compreendem a imitação de vozes sintéticas (geradas por computador) e naturais (geradas por humanos) em inglês americano, para falantes masculinos e femininos. Estes resultados são comparados com os obtidos através do Winsnoori (baseline), o único software disponível atualmente que executa a mesma tarefa. Os experimentos mostraram que o arcabouço desenvolvido (newGASpeech) é uma alternativa eficaz para o trabalhoso processo manual de estimar os valores dos parâmetros de entrada de um sintetizador por formantes, superando a qualidade das vozes geradas pelo baseline em relação à cinco métricas objetivas utilizadas e à avaliação subjetiva aplicada a vinte e sete ouvintes não especialistas na área de voz e nem no idioma adotado.Voice imitation through the utterance copy mechanism is estimating the value of the input parameters of a speech synthesizer to generate a similar signal with the original voice. This process is distinct from the more traditional text-to-speech, but yet used in many areas, especially, Linguistics and Health System. Imitate the human voice through this mechanism is a difficult inverse problem because the mapping is non-linear and from many to one. For instance, there are different combinations of the synthesizer input parameters values that produce the same synthetic voice signal. Therefore, perform voice imitation manually requires a considerable amount of time. In addition to automatic methods are our interest of study as well, as proposed here. This work presents our system based on Genetic Algorithm (GA) to automatically estimate the value of the input parameters of a speech formant synthesizer using the analysis-by-synthesis process. Results are presented for synthetic (computer-generated) and natural (human-generated) speech in American English, for male and female speakers. These results are compared with the ones obtained with Winsnoori, the only currently available software that performs the same task. The experiments showed that the proposed newGASpeech framework is an effective alternative to the laborious manual process of estimating the input parameters values of a formant synthesizer. Besides it has overcome the quality of the generated voices by the baseline if compared to five objective metrics and a subjective evaluation applied to twenty seven no-expert listeners in the speech area neither the adopted language.CNPq - Conselho Nacional de Desenvolvimento Científico e TecnológicoporUniversidade Federal do ParáPrograma de Pós-Graduação em Engenharia ElétricaUFPABrasilInstituto de TecnologiaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOCNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOESSíntese da vozSistemas de processamento da falaAlgoritmos genéticosImitação da voz humana através do processo de análise-por-síntese utilizando algoritmo genético e sintetizador de voz por formantesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisKLAUTAU JÚNIOR, Aldebaro Barreto da Rochahttp://lattes.cnpq.br/1596629769697284http://lattes.cnpq.br/7676631005873564ARAÚJO, Fabiola Pantoja Oliveirainfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPAinstname:Universidade Federal do Pará (UFPA)instacron:UFPAORIGINALTese_ImitacaoVozHumana.pdfTese_ImitacaoVozHumana.pdfapplication/pdf2047573http://repositorio.ufpa.br/oai/bitstream/2011/7749/1/Tese_ImitacaoVozHumana.pdf11e691f48ede5823303b6dbcf466bf63MD51CC-LICENSElicense_urllicense_urltext/plain; charset=utf-849http://repositorio.ufpa.br/oai/bitstream/2011/7749/2/license_url4afdbb8c545fd630ea7db775da747b2fMD52license_textlicense_texttext/html; charset=utf-80http://repositorio.ufpa.br/oai/bitstream/2011/7749/3/license_textd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/rdf+xml; charset=utf-80http://repositorio.ufpa.br/oai/bitstream/2011/7749/4/license_rdfd41d8cd98f00b204e9800998ecf8427eMD54LICENSElicense.txtlicense.txttext/plain; charset=utf-81866http://repositorio.ufpa.br/oai/bitstream/2011/7749/5/license.txt43cd690d6a359e86c1fe3d5b7cba0c9bMD55TEXTTese_ImitacaoVozHumana.pdf.txtTese_ImitacaoVozHumana.pdf.txtExtracted texttext/plain216030http://repositorio.ufpa.br/oai/bitstream/2011/7749/6/Tese_ImitacaoVozHumana.pdf.txt6112db6ae73e7b8eb81792f179b9c7fdMD562011/77492017-10-16 08:38:39.625oai:repositorio.ufpa.br:2011/7749TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIApJbnN0aXR1Y2lvbmFsIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCAgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBhIApzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIApmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIG8gRGVwb3NpdGEgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byAKcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIERlcG9zaXRhIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZSBzdWEgcHVibGljYcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIAplIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIApWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgCmRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSBwdWJsaWNhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgCm9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciBhbyBEZXBvc2l0YSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgCm5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIApvdSBubyBjb250ZcO6ZG8gZGEgcHVibGljYcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0HDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSBBUE9JTyBERSBVTUEgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyAKT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgCkVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpPIERlcG9zaXRhIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIAphdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório InstitucionalPUBhttp://repositorio.ufpa.br/oai/requestriufpabc@ufpa.bropendoar:21232017-10-16T11:38:39Repositório Institucional da UFPA - Universidade Federal do Pará (UFPA)false
dc.title.pt_BR.fl_str_mv	Imitação da voz humana através do processo de análise-por-síntese utilizando algoritmo genético e sintetizador de voz por formantes
title	Imitação da voz humana através do processo de análise-por-síntese utilizando algoritmo genético e sintetizador de voz por formantes
spellingShingle	Imitação da voz humana através do processo de análise-por-síntese utilizando algoritmo genético e sintetizador de voz por formantes ARAÚJO, Fabiola Pantoja Oliveira CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOES Síntese da voz Sistemas de processamento da fala Algoritmos genéticos
title_short	Imitação da voz humana através do processo de análise-por-síntese utilizando algoritmo genético e sintetizador de voz por formantes
title_full	Imitação da voz humana através do processo de análise-por-síntese utilizando algoritmo genético e sintetizador de voz por formantes
title_fullStr	Imitação da voz humana através do processo de análise-por-síntese utilizando algoritmo genético e sintetizador de voz por formantes
title_full_unstemmed	Imitação da voz humana através do processo de análise-por-síntese utilizando algoritmo genético e sintetizador de voz por formantes
title_sort	Imitação da voz humana através do processo de análise-por-síntese utilizando algoritmo genético e sintetizador de voz por formantes
author	ARAÚJO, Fabiola Pantoja Oliveira
author_facet	ARAÚJO, Fabiola Pantoja Oliveira
author_role	author
dc.contributor.advisor1.fl_str_mv	KLAUTAU JÚNIOR, Aldebaro Barreto da Rocha
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/1596629769697284
dc.contributor.authorLattes.fl_str_mv	http://lattes.cnpq.br/7676631005873564
dc.contributor.author.fl_str_mv	ARAÚJO, Fabiola Pantoja Oliveira
contributor_str_mv	KLAUTAU JÚNIOR, Aldebaro Barreto da Rocha
dc.subject.cnpq.fl_str_mv	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOES
topic	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOES Síntese da voz Sistemas de processamento da fala Algoritmos genéticos
dc.subject.por.fl_str_mv	Síntese da voz Sistemas de processamento da fala Algoritmos genéticos
description	A imitação da voz através do mecanismo de utterance copy consiste em estimar os parâmetros de entrada de um sintetizador de voz para gerar um sinal parecido com o da voz original. Este processo distingue-se da tradicional conversão texto-fala, porém é usado em muitas áreas, especialmente, em Linguística e na Saúde. Imitar a voz humana através deste mecanismo é um problema inverso difícil, pois este mapeamento é não linear e de muitos para um. Por exemplo, existem diferentes combinações dos valores dos parâmetros de entrada do sintetizador que produzem o mesmo sinal de voz sintética. Sendo assim, realizar manualmente a imitação da voz requer uma quantidade considerável de tempo e métodos automáticos, como o proposto aqui, são de interesse. Este trabalho apresenta um arcabouço baseado em algoritmo genético (AG) para estimar automaticamente os valores dos parâmetros de entrada de um sintetizador de voz por formantes, utilizando o processo de análise-por-síntese. Os resultados apresentados compreendem a imitação de vozes sintéticas (geradas por computador) e naturais (geradas por humanos) em inglês americano, para falantes masculinos e femininos. Estes resultados são comparados com os obtidos através do Winsnoori (baseline), o único software disponível atualmente que executa a mesma tarefa. Os experimentos mostraram que o arcabouço desenvolvido (newGASpeech) é uma alternativa eficaz para o trabalhoso processo manual de estimar os valores dos parâmetros de entrada de um sintetizador por formantes, superando a qualidade das vozes geradas pelo baseline em relação à cinco métricas objetivas utilizadas e à avaliação subjetiva aplicada a vinte e sete ouvintes não especialistas na área de voz e nem no idioma adotado.
publishDate	2015
dc.date.issued.fl_str_mv	2015-12-18
dc.date.accessioned.fl_str_mv	2017-02-22T16:23:02Z
dc.date.available.fl_str_mv	2017-02-22T16:23:02Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	ARAUJO, Fabiola Pantoja Oliveira. Imitação da voz humana através do processo de análise-por-síntese utilizando algoritmo genético e sintetizador de voz por formantes. 2015. 107 f. Tese (Doutorado) - Universidade Federal do Pará, Instituto de Tecnologia, Belém, 2015. Programa de Pós-Graduação em Engenharia Elétrica.
dc.identifier.uri.fl_str_mv	http://repositorio.ufpa.br/jspui/handle/2011/7749
identifier_str_mv	ARAUJO, Fabiola Pantoja Oliveira. Imitação da voz humana através do processo de análise-por-síntese utilizando algoritmo genético e sintetizador de voz por formantes. 2015. 107 f. Tese (Doutorado) - Universidade Federal do Pará, Instituto de Tecnologia, Belém, 2015. Programa de Pós-Graduação em Engenharia Elétrica.
url	http://repositorio.ufpa.br/jspui/handle/2011/7749
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal do Pará
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Engenharia Elétrica
dc.publisher.initials.fl_str_mv	UFPA
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	Instituto de Tecnologia
publisher.none.fl_str_mv	Universidade Federal do Pará
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFPA instname:Universidade Federal do Pará (UFPA) instacron:UFPA
instname_str	Universidade Federal do Pará (UFPA)
instacron_str	UFPA
institution	UFPA
reponame_str	Repositório Institucional da UFPA
collection	Repositório Institucional da UFPA
bitstream.url.fl_str_mv	http://repositorio.ufpa.br/oai/bitstream/2011/7749/1/Tese_ImitacaoVozHumana.pdf http://repositorio.ufpa.br/oai/bitstream/2011/7749/2/license_url http://repositorio.ufpa.br/oai/bitstream/2011/7749/3/license_text http://repositorio.ufpa.br/oai/bitstream/2011/7749/4/license_rdf http://repositorio.ufpa.br/oai/bitstream/2011/7749/5/license.txt http://repositorio.ufpa.br/oai/bitstream/2011/7749/6/Tese_ImitacaoVozHumana.pdf.txt
bitstream.checksum.fl_str_mv	11e691f48ede5823303b6dbcf466bf63 4afdbb8c545fd630ea7db775da747b2f d41d8cd98f00b204e9800998ecf8427e d41d8cd98f00b204e9800998ecf8427e 43cd690d6a359e86c1fe3d5b7cba0c9b 6112db6ae73e7b8eb81792f179b9c7fd
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFPA - Universidade Federal do Pará (UFPA)
repository.mail.fl_str_mv	riufpabc@ufpa.br
_version_	1793525804918898688

Imitação da voz humana através do processo de análise-por-síntese utilizando algoritmo genético e sintetizador de voz por formantes

Registros relacionados