Conversão de fala sussurrada para fala normal usando modelos neurais
| Ano de defesa: | 2021 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Tecnológica Federal do Paraná
Cornelio Procopio Brasil Programa de Pós-Graduação em Engenharia Elétrica UTFPR |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://repositorio.utfpr.edu.br/jspui/handle/1/30188 |
Resumo: | Whispering is a common and secondary speech mechanism for communicating, however, in some cases, it can also be the main form to communicate, such as cases of people with pathologies of the larynx or who have suffered some type of damage to the vocal folds. Differences in characteristics between normal voice and whispered discussions have raised in speech recognition area, due to the difficulty of converting whispered to normal speech. This work presents the study of the characteristics of normal and whispered speech, and the implementation of the whispered to normal voice conversion system using multilayer perceptron networks and generative adversarial networks. The database used came from the partnership with Faculdade de Porto, which are vowel signs used in European Portuguese. To validate the study, three metrics were analyzed: Mel-Cepstrum Distortion, square root of the mean error of log(F0) and accuracy of the vowel classifier. |
| id |
UTFPR-12_3037f680de6eaac71c9a4026f40caaf8 |
|---|---|
| oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/30188 |
| network_acronym_str |
UTFPR-12 |
| network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository_id_str |
|
| spelling |
Conversão de fala sussurrada para fala normal usando modelos neuraisDistúrbios da falaRedes Neurais (Computação)ComunicaçãoSpeech disordersNeural networks (Computer science)CommunicationCNPQ::ENGENHARIAS::ENGENHARIA ELETRICAEngenharia ElétricaWhispering is a common and secondary speech mechanism for communicating, however, in some cases, it can also be the main form to communicate, such as cases of people with pathologies of the larynx or who have suffered some type of damage to the vocal folds. Differences in characteristics between normal voice and whispered discussions have raised in speech recognition area, due to the difficulty of converting whispered to normal speech. This work presents the study of the characteristics of normal and whispered speech, and the implementation of the whispered to normal voice conversion system using multilayer perceptron networks and generative adversarial networks. The database used came from the partnership with Faculdade de Porto, which are vowel signs used in European Portuguese. To validate the study, three metrics were analyzed: Mel-Cepstrum Distortion, square root of the mean error of log(F0) and accuracy of the vowel classifier.O sussurro é um mecanismo de fala comum e secundário para se comunicar, porém, em alguns casos, pode ser a principal forma de diálogo, como nos casos de pessoas com patologias da laringe ou que sofreram algum tipo de dano nas pregas vocais. As diferenças de características entre a voz normal e a sussurrada têm levantado discussões na área de reconhecimento de fala, pela dificuldade de realizar a conversão de fala sussurrada para fala vozeada. Este trabalho apresenta o estudo das características da fala normal e sussurrada, e a implementação do sistema de conversão de voz normal para sussurrada utilizando redes perceptron multicamadas e redes generativas adversárias. Os dados utilizados foram provenientes pela parceria com Faculdade de Porto, que são sinais de vogais usados no português europeu. Para a validação do estudo, foram analisado três métricas: Mel-Cepstrum Distortion, raiz quadrada do erro médio do log(F0) e acurácia do classificador de vogais.Universidade Tecnológica Federal do ParanáCornelio ProcopioBrasilPrograma de Pós-Graduação em Engenharia ElétricaUTFPRScalassara, Paulo Rogeriohttp://lattes.cnpq.br/5016119298122922Agulhari, Cristiano Marcoshttp://lattes.cnpq.br/4935395556663775Spatti, Danilo Hernanehttp://lattes.cnpq.br/7371885828178292Scalassara, Paulo Rogeriohttp://lattes.cnpq.br/5016119298122922Barbon Junior, SylvioYamamura, Cezar Fumio2022-11-28T13:13:02Z2022-11-28T13:13:02Z2021-11-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfYAMAMURA, Cezar Fumio. Conversão de fala sussurrada para fala normal usando modelos neurais. 2021. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2021.http://repositorio.utfpr.edu.br/jspui/handle/1/30188porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2022-11-29T06:06:34Zoai:repositorio.utfpr.edu.br:1/30188Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2022-11-29T06:06:34Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
| dc.title.none.fl_str_mv |
Conversão de fala sussurrada para fala normal usando modelos neurais |
| title |
Conversão de fala sussurrada para fala normal usando modelos neurais |
| spellingShingle |
Conversão de fala sussurrada para fala normal usando modelos neurais Yamamura, Cezar Fumio Distúrbios da fala Redes Neurais (Computação) Comunicação Speech disorders Neural networks (Computer science) Communication CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA Engenharia Elétrica |
| title_short |
Conversão de fala sussurrada para fala normal usando modelos neurais |
| title_full |
Conversão de fala sussurrada para fala normal usando modelos neurais |
| title_fullStr |
Conversão de fala sussurrada para fala normal usando modelos neurais |
| title_full_unstemmed |
Conversão de fala sussurrada para fala normal usando modelos neurais |
| title_sort |
Conversão de fala sussurrada para fala normal usando modelos neurais |
| author |
Yamamura, Cezar Fumio |
| author_facet |
Yamamura, Cezar Fumio |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Scalassara, Paulo Rogerio http://lattes.cnpq.br/5016119298122922 Agulhari, Cristiano Marcos http://lattes.cnpq.br/4935395556663775 Spatti, Danilo Hernane http://lattes.cnpq.br/7371885828178292 Scalassara, Paulo Rogerio http://lattes.cnpq.br/5016119298122922 Barbon Junior, Sylvio |
| dc.contributor.author.fl_str_mv |
Yamamura, Cezar Fumio |
| dc.subject.por.fl_str_mv |
Distúrbios da fala Redes Neurais (Computação) Comunicação Speech disorders Neural networks (Computer science) Communication CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA Engenharia Elétrica |
| topic |
Distúrbios da fala Redes Neurais (Computação) Comunicação Speech disorders Neural networks (Computer science) Communication CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA Engenharia Elétrica |
| description |
Whispering is a common and secondary speech mechanism for communicating, however, in some cases, it can also be the main form to communicate, such as cases of people with pathologies of the larynx or who have suffered some type of damage to the vocal folds. Differences in characteristics between normal voice and whispered discussions have raised in speech recognition area, due to the difficulty of converting whispered to normal speech. This work presents the study of the characteristics of normal and whispered speech, and the implementation of the whispered to normal voice conversion system using multilayer perceptron networks and generative adversarial networks. The database used came from the partnership with Faculdade de Porto, which are vowel signs used in European Portuguese. To validate the study, three metrics were analyzed: Mel-Cepstrum Distortion, square root of the mean error of log(F0) and accuracy of the vowel classifier. |
| publishDate |
2021 |
| dc.date.none.fl_str_mv |
2021-11-17 2022-11-28T13:13:02Z 2022-11-28T13:13:02Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
YAMAMURA, Cezar Fumio. Conversão de fala sussurrada para fala normal usando modelos neurais. 2021. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2021. http://repositorio.utfpr.edu.br/jspui/handle/1/30188 |
| identifier_str_mv |
YAMAMURA, Cezar Fumio. Conversão de fala sussurrada para fala normal usando modelos neurais. 2021. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2021. |
| url |
http://repositorio.utfpr.edu.br/jspui/handle/1/30188 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Cornelio Procopio Brasil Programa de Pós-Graduação em Engenharia Elétrica UTFPR |
| publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Cornelio Procopio Brasil Programa de Pós-Graduação em Engenharia Elétrica UTFPR |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
| instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
| instacron_str |
UTFPR |
| institution |
UTFPR |
| reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
| repository.mail.fl_str_mv |
riut@utfpr.edu.br || sibi@utfpr.edu.br |
| _version_ |
1850498286556807168 |