Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesa
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Universidade Tecnológica Federal do Paraná
Cornelio Procopio Brasil Programa de Pós-Graduação em Engenharia Elétrica - Uel/Utpfr UTFPR |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://repositorio.utfpr.edu.br/jspui/handle/1/38936 |
Resumo: | Whispered speech is a common and secondary mechanism of communication. However, individuals with aphonia, such as laryngectomized patients, rely on whispered speech as their primary means of expression. Due to the significant differences between whispered and normal speech, speech recognition and conversion systems face major challenges in achieving accurate transformation between them. This doctoral thesis addresses, discusses, and proposes solutions across three main fronts: i) An evaluation of four voice conversion models without prior training on whispered speech, assessed through the Multiple Stimuli with Hidden Reference and Anchor (MUSHRA) perceptual speech test for whisper-to-normal conversion. The k-nearest neighbors voice conversion model (KNN-VC) outperformed the others in both objective and subjective metrics; ii) The construction of a Brazilian Portuguese whispered speech database, duly approved by the Research Ethics Committee, aiming to address the scarcity of data in this linguistic modality and expand opportunities for scientific experimentation; iii) Enhancements to the KNN-VC model from different perspectives, including: experiments with alternative feature extraction models; transfer learning using the low-rank adaptation (LoRA) algorithm; mapping of parallel whispered and normal speech data with KNN (pKNN-VC), and with MLP (MLP-VC). Finally, the thesis highlights the contributions derived from each study and discusses opportunities and directions for future research. |
| id |
UTFPR-12_7f37d34e84fb59318976ff110a6a2c79 |
|---|---|
| oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/38936 |
| network_acronym_str |
UTFPR-12 |
| network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository_id_str |
|
| spelling |
Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesaAnalysis of voice conversion models for whisper-to-normal portuguese speechBanco de dadosProgramas de aprendizadoFalaDatabasesApprenticeship programsSpeechCNPQ::ENGENHARIASEngenharia ElétricaWhispered speech is a common and secondary mechanism of communication. However, individuals with aphonia, such as laryngectomized patients, rely on whispered speech as their primary means of expression. Due to the significant differences between whispered and normal speech, speech recognition and conversion systems face major challenges in achieving accurate transformation between them. This doctoral thesis addresses, discusses, and proposes solutions across three main fronts: i) An evaluation of four voice conversion models without prior training on whispered speech, assessed through the Multiple Stimuli with Hidden Reference and Anchor (MUSHRA) perceptual speech test for whisper-to-normal conversion. The k-nearest neighbors voice conversion model (KNN-VC) outperformed the others in both objective and subjective metrics; ii) The construction of a Brazilian Portuguese whispered speech database, duly approved by the Research Ethics Committee, aiming to address the scarcity of data in this linguistic modality and expand opportunities for scientific experimentation; iii) Enhancements to the KNN-VC model from different perspectives, including: experiments with alternative feature extraction models; transfer learning using the low-rank adaptation (LoRA) algorithm; mapping of parallel whispered and normal speech data with KNN (pKNN-VC), and with MLP (MLP-VC). Finally, the thesis highlights the contributions derived from each study and discusses opportunities and directions for future research.O sussurro é um mecanismo de fala comum e secundário para a comunicação. Entretanto, indivíduos com afonia, como os laringectomizados, utilizam a fala sussurrada como principal meio de expressão. Devido às diferenças significativas entre a fala sussurrada e a fala normal, os sistemas de reconhecimento e conversão de fala enfrentam grandes desafios para realizar essa transformação de forma precisa. Esta tese de doutorado aborda, discute e propõe soluções em três frentes principais: i) Avaliação de quatro modelos de conversão de voz sem treinamento prévio com fala sussurrada, utilizando o teste perceptual de fala MUSHRA (Multiple Stimuli with Hidden Reference and Anchor) para analisar a conversão de sussurro para fala normal. O modelo de conversão de voz por k-vizinhos mais próximos (KNN-VC) se destacou em métricas objetivas e subjetivas; ii) Construção de um banco de dados de fala sussurrada em português brasileiro, devidamente aprovado pelo Comitê de Ética em Pesquisa, com o objetivo de suprir a escassez de dados nessa modalidade linguística e ampliar as possibilidades de experimentação científica; iii) Aprimoramento do modelo KNN-VC em diferentes perspectivas, incluindo: estudo com modelos alternativos de extração de características; aprendizado por transferência utilizando o algoritmo de adaptação de baixo nível (LoRA); mapeamento de dados paralelos de voz sussurrada e normal com KNN (pKNN-VC), e com MLP (MLP-VC). Por fim, são destacadas as contribuições obtidas em cada estudo, bem como discussões sobre oportunidades e direções para futuros trabalhosUniversidade Tecnológica Federal do ParanáCornelio ProcopioBrasilPrograma de Pós-Graduação em Engenharia Elétrica - Uel/UtpfrUTFPRScalassara, Paulo Rogeriohttps://lattes.cnpq.br/5016119298122922Agulhari, Cristiano Marcoshttps://lattes.cnpq.br/4935395556663775Spatti, Danilo Hernanehttps://orcid.org/0000-0003-4613-4509http://lattes.cnpq.br/7371885828178292Santos, Herman Lucas doshttps://lattes.cnpq.br/5862841460156282Marinello Filho, Jose Carloshttps://lattes.cnpq.br/0539500854426508Scalassara, Paulo Rogeriohttps://lattes.cnpq.br/5016119298122922Yamamura, Cezar Fumio2025-11-18T20:42:35Z2025-11-18T20:42:35Z2025-10-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfYAMAMURA, Cezar Fumio. Análise de modelos de conversão de fala sussurrada para normal em língua portuguesa. 2025. Tese (Doutorado em Engenharia Elétrica - Uel/Utpfr) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.http://repositorio.utfpr.edu.br/jspui/handle/1/38936enginfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2025-11-19T06:21:25Zoai:repositorio.utfpr.edu.br:1/38936Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2025-11-19T06:21:25Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
| dc.title.none.fl_str_mv |
Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesa Analysis of voice conversion models for whisper-to-normal portuguese speech |
| title |
Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesa |
| spellingShingle |
Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesa Yamamura, Cezar Fumio Banco de dados Programas de aprendizado Fala Databases Apprenticeship programs Speech CNPQ::ENGENHARIAS Engenharia Elétrica |
| title_short |
Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesa |
| title_full |
Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesa |
| title_fullStr |
Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesa |
| title_full_unstemmed |
Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesa |
| title_sort |
Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesa |
| author |
Yamamura, Cezar Fumio |
| author_facet |
Yamamura, Cezar Fumio |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Scalassara, Paulo Rogerio https://lattes.cnpq.br/5016119298122922 Agulhari, Cristiano Marcos https://lattes.cnpq.br/4935395556663775 Spatti, Danilo Hernane https://orcid.org/0000-0003-4613-4509 http://lattes.cnpq.br/7371885828178292 Santos, Herman Lucas dos https://lattes.cnpq.br/5862841460156282 Marinello Filho, Jose Carlos https://lattes.cnpq.br/0539500854426508 Scalassara, Paulo Rogerio https://lattes.cnpq.br/5016119298122922 |
| dc.contributor.author.fl_str_mv |
Yamamura, Cezar Fumio |
| dc.subject.por.fl_str_mv |
Banco de dados Programas de aprendizado Fala Databases Apprenticeship programs Speech CNPQ::ENGENHARIAS Engenharia Elétrica |
| topic |
Banco de dados Programas de aprendizado Fala Databases Apprenticeship programs Speech CNPQ::ENGENHARIAS Engenharia Elétrica |
| description |
Whispered speech is a common and secondary mechanism of communication. However, individuals with aphonia, such as laryngectomized patients, rely on whispered speech as their primary means of expression. Due to the significant differences between whispered and normal speech, speech recognition and conversion systems face major challenges in achieving accurate transformation between them. This doctoral thesis addresses, discusses, and proposes solutions across three main fronts: i) An evaluation of four voice conversion models without prior training on whispered speech, assessed through the Multiple Stimuli with Hidden Reference and Anchor (MUSHRA) perceptual speech test for whisper-to-normal conversion. The k-nearest neighbors voice conversion model (KNN-VC) outperformed the others in both objective and subjective metrics; ii) The construction of a Brazilian Portuguese whispered speech database, duly approved by the Research Ethics Committee, aiming to address the scarcity of data in this linguistic modality and expand opportunities for scientific experimentation; iii) Enhancements to the KNN-VC model from different perspectives, including: experiments with alternative feature extraction models; transfer learning using the low-rank adaptation (LoRA) algorithm; mapping of parallel whispered and normal speech data with KNN (pKNN-VC), and with MLP (MLP-VC). Finally, the thesis highlights the contributions derived from each study and discusses opportunities and directions for future research. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-11-18T20:42:35Z 2025-11-18T20:42:35Z 2025-10-22 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
YAMAMURA, Cezar Fumio. Análise de modelos de conversão de fala sussurrada para normal em língua portuguesa. 2025. Tese (Doutorado em Engenharia Elétrica - Uel/Utpfr) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025. http://repositorio.utfpr.edu.br/jspui/handle/1/38936 |
| identifier_str_mv |
YAMAMURA, Cezar Fumio. Análise de modelos de conversão de fala sussurrada para normal em língua portuguesa. 2025. Tese (Doutorado em Engenharia Elétrica - Uel/Utpfr) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025. |
| url |
http://repositorio.utfpr.edu.br/jspui/handle/1/38936 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Cornelio Procopio Brasil Programa de Pós-Graduação em Engenharia Elétrica - Uel/Utpfr UTFPR |
| publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Cornelio Procopio Brasil Programa de Pós-Graduação em Engenharia Elétrica - Uel/Utpfr UTFPR |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
| instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
| instacron_str |
UTFPR |
| institution |
UTFPR |
| reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
| repository.mail.fl_str_mv |
riut@utfpr.edu.br || sibi@utfpr.edu.br |
| _version_ |
1850498368911966208 |