Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesa

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Yamamura, Cezar Fumio
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Engenharia Elétrica - Uel/Utpfr
UTFPR
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/38936
Resumo: Whispered speech is a common and secondary mechanism of communication. However, individuals with aphonia, such as laryngectomized patients, rely on whispered speech as their primary means of expression. Due to the significant differences between whispered and normal speech, speech recognition and conversion systems face major challenges in achieving accurate transformation between them. This doctoral thesis addresses, discusses, and proposes solutions across three main fronts: i) An evaluation of four voice conversion models without prior training on whispered speech, assessed through the Multiple Stimuli with Hidden Reference and Anchor (MUSHRA) perceptual speech test for whisper-to-normal conversion. The k-nearest neighbors voice conversion model (KNN-VC) outperformed the others in both objective and subjective metrics; ii) The construction of a Brazilian Portuguese whispered speech database, duly approved by the Research Ethics Committee, aiming to address the scarcity of data in this linguistic modality and expand opportunities for scientific experimentation; iii) Enhancements to the KNN-VC model from different perspectives, including: experiments with alternative feature extraction models; transfer learning using the low-rank adaptation (LoRA) algorithm; mapping of parallel whispered and normal speech data with KNN (pKNN-VC), and with MLP (MLP-VC). Finally, the thesis highlights the contributions derived from each study and discusses opportunities and directions for future research.
id UTFPR-12_7f37d34e84fb59318976ff110a6a2c79
oai_identifier_str oai:repositorio.utfpr.edu.br:1/38936
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesaAnalysis of voice conversion models for whisper-to-normal portuguese speechBanco de dadosProgramas de aprendizadoFalaDatabasesApprenticeship programsSpeechCNPQ::ENGENHARIASEngenharia ElétricaWhispered speech is a common and secondary mechanism of communication. However, individuals with aphonia, such as laryngectomized patients, rely on whispered speech as their primary means of expression. Due to the significant differences between whispered and normal speech, speech recognition and conversion systems face major challenges in achieving accurate transformation between them. This doctoral thesis addresses, discusses, and proposes solutions across three main fronts: i) An evaluation of four voice conversion models without prior training on whispered speech, assessed through the Multiple Stimuli with Hidden Reference and Anchor (MUSHRA) perceptual speech test for whisper-to-normal conversion. The k-nearest neighbors voice conversion model (KNN-VC) outperformed the others in both objective and subjective metrics; ii) The construction of a Brazilian Portuguese whispered speech database, duly approved by the Research Ethics Committee, aiming to address the scarcity of data in this linguistic modality and expand opportunities for scientific experimentation; iii) Enhancements to the KNN-VC model from different perspectives, including: experiments with alternative feature extraction models; transfer learning using the low-rank adaptation (LoRA) algorithm; mapping of parallel whispered and normal speech data with KNN (pKNN-VC), and with MLP (MLP-VC). Finally, the thesis highlights the contributions derived from each study and discusses opportunities and directions for future research.O sussurro é um mecanismo de fala comum e secundário para a comunicação. Entretanto, indivíduos com afonia, como os laringectomizados, utilizam a fala sussurrada como principal meio de expressão. Devido às diferenças significativas entre a fala sussurrada e a fala normal, os sistemas de reconhecimento e conversão de fala enfrentam grandes desafios para realizar essa transformação de forma precisa. Esta tese de doutorado aborda, discute e propõe soluções em três frentes principais: i) Avaliação de quatro modelos de conversão de voz sem treinamento prévio com fala sussurrada, utilizando o teste perceptual de fala MUSHRA (Multiple Stimuli with Hidden Reference and Anchor) para analisar a conversão de sussurro para fala normal. O modelo de conversão de voz por k-vizinhos mais próximos (KNN-VC) se destacou em métricas objetivas e subjetivas; ii) Construção de um banco de dados de fala sussurrada em português brasileiro, devidamente aprovado pelo Comitê de Ética em Pesquisa, com o objetivo de suprir a escassez de dados nessa modalidade linguística e ampliar as possibilidades de experimentação científica; iii) Aprimoramento do modelo KNN-VC em diferentes perspectivas, incluindo: estudo com modelos alternativos de extração de características; aprendizado por transferência utilizando o algoritmo de adaptação de baixo nível (LoRA); mapeamento de dados paralelos de voz sussurrada e normal com KNN (pKNN-VC), e com MLP (MLP-VC). Por fim, são destacadas as contribuições obtidas em cada estudo, bem como discussões sobre oportunidades e direções para futuros trabalhosUniversidade Tecnológica Federal do ParanáCornelio ProcopioBrasilPrograma de Pós-Graduação em Engenharia Elétrica - Uel/UtpfrUTFPRScalassara, Paulo Rogeriohttps://lattes.cnpq.br/5016119298122922Agulhari, Cristiano Marcoshttps://lattes.cnpq.br/4935395556663775Spatti, Danilo Hernanehttps://orcid.org/0000-0003-4613-4509http://lattes.cnpq.br/7371885828178292Santos, Herman Lucas doshttps://lattes.cnpq.br/5862841460156282Marinello Filho, Jose Carloshttps://lattes.cnpq.br/0539500854426508Scalassara, Paulo Rogeriohttps://lattes.cnpq.br/5016119298122922Yamamura, Cezar Fumio2025-11-18T20:42:35Z2025-11-18T20:42:35Z2025-10-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfYAMAMURA, Cezar Fumio. Análise de modelos de conversão de fala sussurrada para normal em língua portuguesa. 2025. Tese (Doutorado em Engenharia Elétrica - Uel/Utpfr) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.http://repositorio.utfpr.edu.br/jspui/handle/1/38936enginfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2025-11-19T06:21:25Zoai:repositorio.utfpr.edu.br:1/38936Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2025-11-19T06:21:25Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesa
Analysis of voice conversion models for whisper-to-normal portuguese speech
title Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesa
spellingShingle Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesa
Yamamura, Cezar Fumio
Banco de dados
Programas de aprendizado
Fala
Databases
Apprenticeship programs
Speech
CNPQ::ENGENHARIAS
Engenharia Elétrica
title_short Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesa
title_full Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesa
title_fullStr Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesa
title_full_unstemmed Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesa
title_sort Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesa
author Yamamura, Cezar Fumio
author_facet Yamamura, Cezar Fumio
author_role author
dc.contributor.none.fl_str_mv Scalassara, Paulo Rogerio
https://lattes.cnpq.br/5016119298122922
Agulhari, Cristiano Marcos
https://lattes.cnpq.br/4935395556663775
Spatti, Danilo Hernane
https://orcid.org/0000-0003-4613-4509
http://lattes.cnpq.br/7371885828178292
Santos, Herman Lucas dos
https://lattes.cnpq.br/5862841460156282
Marinello Filho, Jose Carlos
https://lattes.cnpq.br/0539500854426508
Scalassara, Paulo Rogerio
https://lattes.cnpq.br/5016119298122922
dc.contributor.author.fl_str_mv Yamamura, Cezar Fumio
dc.subject.por.fl_str_mv Banco de dados
Programas de aprendizado
Fala
Databases
Apprenticeship programs
Speech
CNPQ::ENGENHARIAS
Engenharia Elétrica
topic Banco de dados
Programas de aprendizado
Fala
Databases
Apprenticeship programs
Speech
CNPQ::ENGENHARIAS
Engenharia Elétrica
description Whispered speech is a common and secondary mechanism of communication. However, individuals with aphonia, such as laryngectomized patients, rely on whispered speech as their primary means of expression. Due to the significant differences between whispered and normal speech, speech recognition and conversion systems face major challenges in achieving accurate transformation between them. This doctoral thesis addresses, discusses, and proposes solutions across three main fronts: i) An evaluation of four voice conversion models without prior training on whispered speech, assessed through the Multiple Stimuli with Hidden Reference and Anchor (MUSHRA) perceptual speech test for whisper-to-normal conversion. The k-nearest neighbors voice conversion model (KNN-VC) outperformed the others in both objective and subjective metrics; ii) The construction of a Brazilian Portuguese whispered speech database, duly approved by the Research Ethics Committee, aiming to address the scarcity of data in this linguistic modality and expand opportunities for scientific experimentation; iii) Enhancements to the KNN-VC model from different perspectives, including: experiments with alternative feature extraction models; transfer learning using the low-rank adaptation (LoRA) algorithm; mapping of parallel whispered and normal speech data with KNN (pKNN-VC), and with MLP (MLP-VC). Finally, the thesis highlights the contributions derived from each study and discusses opportunities and directions for future research.
publishDate 2025
dc.date.none.fl_str_mv 2025-11-18T20:42:35Z
2025-11-18T20:42:35Z
2025-10-22
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv YAMAMURA, Cezar Fumio. Análise de modelos de conversão de fala sussurrada para normal em língua portuguesa. 2025. Tese (Doutorado em Engenharia Elétrica - Uel/Utpfr) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.
http://repositorio.utfpr.edu.br/jspui/handle/1/38936
identifier_str_mv YAMAMURA, Cezar Fumio. Análise de modelos de conversão de fala sussurrada para normal em língua portuguesa. 2025. Tese (Doutorado em Engenharia Elétrica - Uel/Utpfr) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.
url http://repositorio.utfpr.edu.br/jspui/handle/1/38936
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Engenharia Elétrica - Uel/Utpfr
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Engenharia Elétrica - Uel/Utpfr
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850498368911966208