Conversão de fala sussurrada para fala normal usando modelos neurais

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Yamamura, Cezar Fumio
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Engenharia Elétrica
UTFPR
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/30188
Resumo: Whispering is a common and secondary speech mechanism for communicating, however, in some cases, it can also be the main form to communicate, such as cases of people with pathologies of the larynx or who have suffered some type of damage to the vocal folds. Differences in characteristics between normal voice and whispered discussions have raised in speech recognition area, due to the difficulty of converting whispered to normal speech. This work presents the study of the characteristics of normal and whispered speech, and the implementation of the whispered to normal voice conversion system using multilayer perceptron networks and generative adversarial networks. The database used came from the partnership with Faculdade de Porto, which are vowel signs used in European Portuguese. To validate the study, three metrics were analyzed: Mel-Cepstrum Distortion, square root of the mean error of log(F0) and accuracy of the vowel classifier.
id UTFPR-12_3037f680de6eaac71c9a4026f40caaf8
oai_identifier_str oai:repositorio.utfpr.edu.br:1/30188
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Conversão de fala sussurrada para fala normal usando modelos neuraisDistúrbios da falaRedes Neurais (Computação)ComunicaçãoSpeech disordersNeural networks (Computer science)CommunicationCNPQ::ENGENHARIAS::ENGENHARIA ELETRICAEngenharia ElétricaWhispering is a common and secondary speech mechanism for communicating, however, in some cases, it can also be the main form to communicate, such as cases of people with pathologies of the larynx or who have suffered some type of damage to the vocal folds. Differences in characteristics between normal voice and whispered discussions have raised in speech recognition area, due to the difficulty of converting whispered to normal speech. This work presents the study of the characteristics of normal and whispered speech, and the implementation of the whispered to normal voice conversion system using multilayer perceptron networks and generative adversarial networks. The database used came from the partnership with Faculdade de Porto, which are vowel signs used in European Portuguese. To validate the study, three metrics were analyzed: Mel-Cepstrum Distortion, square root of the mean error of log(F0) and accuracy of the vowel classifier.O sussurro é um mecanismo de fala comum e secundário para se comunicar, porém, em alguns casos, pode ser a principal forma de diálogo, como nos casos de pessoas com patologias da laringe ou que sofreram algum tipo de dano nas pregas vocais. As diferenças de características entre a voz normal e a sussurrada têm levantado discussões na área de reconhecimento de fala, pela dificuldade de realizar a conversão de fala sussurrada para fala vozeada. Este trabalho apresenta o estudo das características da fala normal e sussurrada, e a implementação do sistema de conversão de voz normal para sussurrada utilizando redes perceptron multicamadas e redes generativas adversárias. Os dados utilizados foram provenientes pela parceria com Faculdade de Porto, que são sinais de vogais usados no português europeu. Para a validação do estudo, foram analisado três métricas: Mel-Cepstrum Distortion, raiz quadrada do erro médio do log(F0) e acurácia do classificador de vogais.Universidade Tecnológica Federal do ParanáCornelio ProcopioBrasilPrograma de Pós-Graduação em Engenharia ElétricaUTFPRScalassara, Paulo Rogeriohttp://lattes.cnpq.br/5016119298122922Agulhari, Cristiano Marcoshttp://lattes.cnpq.br/4935395556663775Spatti, Danilo Hernanehttp://lattes.cnpq.br/7371885828178292Scalassara, Paulo Rogeriohttp://lattes.cnpq.br/5016119298122922Barbon Junior, SylvioYamamura, Cezar Fumio2022-11-28T13:13:02Z2022-11-28T13:13:02Z2021-11-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfYAMAMURA, Cezar Fumio. Conversão de fala sussurrada para fala normal usando modelos neurais. 2021. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2021.http://repositorio.utfpr.edu.br/jspui/handle/1/30188porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2022-11-29T06:06:34Zoai:repositorio.utfpr.edu.br:1/30188Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2022-11-29T06:06:34Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Conversão de fala sussurrada para fala normal usando modelos neurais
title Conversão de fala sussurrada para fala normal usando modelos neurais
spellingShingle Conversão de fala sussurrada para fala normal usando modelos neurais
Yamamura, Cezar Fumio
Distúrbios da fala
Redes Neurais (Computação)
Comunicação
Speech disorders
Neural networks (Computer science)
Communication
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Engenharia Elétrica
title_short Conversão de fala sussurrada para fala normal usando modelos neurais
title_full Conversão de fala sussurrada para fala normal usando modelos neurais
title_fullStr Conversão de fala sussurrada para fala normal usando modelos neurais
title_full_unstemmed Conversão de fala sussurrada para fala normal usando modelos neurais
title_sort Conversão de fala sussurrada para fala normal usando modelos neurais
author Yamamura, Cezar Fumio
author_facet Yamamura, Cezar Fumio
author_role author
dc.contributor.none.fl_str_mv Scalassara, Paulo Rogerio
http://lattes.cnpq.br/5016119298122922
Agulhari, Cristiano Marcos
http://lattes.cnpq.br/4935395556663775
Spatti, Danilo Hernane
http://lattes.cnpq.br/7371885828178292
Scalassara, Paulo Rogerio
http://lattes.cnpq.br/5016119298122922
Barbon Junior, Sylvio
dc.contributor.author.fl_str_mv Yamamura, Cezar Fumio
dc.subject.por.fl_str_mv Distúrbios da fala
Redes Neurais (Computação)
Comunicação
Speech disorders
Neural networks (Computer science)
Communication
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Engenharia Elétrica
topic Distúrbios da fala
Redes Neurais (Computação)
Comunicação
Speech disorders
Neural networks (Computer science)
Communication
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Engenharia Elétrica
description Whispering is a common and secondary speech mechanism for communicating, however, in some cases, it can also be the main form to communicate, such as cases of people with pathologies of the larynx or who have suffered some type of damage to the vocal folds. Differences in characteristics between normal voice and whispered discussions have raised in speech recognition area, due to the difficulty of converting whispered to normal speech. This work presents the study of the characteristics of normal and whispered speech, and the implementation of the whispered to normal voice conversion system using multilayer perceptron networks and generative adversarial networks. The database used came from the partnership with Faculdade de Porto, which are vowel signs used in European Portuguese. To validate the study, three metrics were analyzed: Mel-Cepstrum Distortion, square root of the mean error of log(F0) and accuracy of the vowel classifier.
publishDate 2021
dc.date.none.fl_str_mv 2021-11-17
2022-11-28T13:13:02Z
2022-11-28T13:13:02Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv YAMAMURA, Cezar Fumio. Conversão de fala sussurrada para fala normal usando modelos neurais. 2021. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2021.
http://repositorio.utfpr.edu.br/jspui/handle/1/30188
identifier_str_mv YAMAMURA, Cezar Fumio. Conversão de fala sussurrada para fala normal usando modelos neurais. 2021. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2021.
url http://repositorio.utfpr.edu.br/jspui/handle/1/30188
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Engenharia Elétrica
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Engenharia Elétrica
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850498286556807168