Reconhecimento automático de locutor utilizando medidas de invariantes dinâmicas não-lineares
| Ano de defesa: | 2002 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://hdl.handle.net/10183/3111 |
Resumo: | As técnicas utilizadas em sistemas de reconhecimento automático de locutor (RAL) objetivam identificar uma pessoa através de sua voz, utilizando recursos computacionais. Isso é feito a partir de um modelamento para o processo de produção da voz. A modelagem detalhada desse processo deve levar em consideração a variação temporal da forma do trato vocal, as ressonâncias associadas à sua fisiologia, perdas devidas ao atrito viscoso nas paredes internas do trato vocal, suavidade dessas paredes internas, radiação do som nos lábios, acoplamento nasal, flexibilidade associada à vibração das cordas vocais, etc. Alguns desses fatores são modelados por um sistema que combina uma fonte de excitação periódica e outra de ruído branco, aplicadas a um filtro digital variante no tempo. Entretanto, outros fatores são desconsiderados nesse modelamento, pela simples dificuldade ou até impossibilidade de descrevê-los em termos de combinações de sinais, filtros digitais, ou equações diferenciais. Por outro lado, a Teoria dos Sistemas Dinâmicos Não-Lineares ou Teoria do Caos oferece técnicas para a análise de sinais onde não se sabe, ou não é conhecido, o modelo detalhado do mecanismo de produção desses sinais. A análise através dessa teoria procura avaliar a dinâmica do sinal e, assumindo-se que tais amostras provêm de um sistema dinâmico não-linear, medidas qualitativas podem ser obtidas desse sistema. Essas medidas não fornecem informações precisas quanto ao modelamento do processo de produção do sinal avaliado, isto é, o modelo analítico é ainda inacessível. Entretanto, pode-se aferir a respeito de suaO problema analisado ao longo deste trabalho trata da busca de novos métodos para extrair informações úteis a respeito do locutor que produziu um determinado sinal de voz. Com isso, espera-se conceber sistemas que realizem a tarefa de reconhecer um pessoa automaticamente através de sua voz de forma mais exata, segura e robusta, contribuindo para o surgimento de sistemas de RAL com aplicação prática. Para isso, este trabalho propõe a utilização de novas ferramentas, baseadas na Teoria dos Sistemas Dinâmicos Não-Lineares, para melhorar a caracterização de uma pessoa através de sua voz. Assim, o mecanismo de produção do sinal de voz é analisado sob outro ponto de vista, como sendo o produto de um sistema dinâmico que evolui em um espaço de fases apropriado. Primeiramente, a possibilidade de utilização dessas técnicas em sinais de voz é verificada. A seguir, demonstra-se como as técnicas para estimação de invariantes dinâmicas não-lineares podem ser adaptadas para que possam ser utilizadas em sistemas de RAL. Por fim, adaptações e automatizações algorítmicas para extração de invariantes dinâmicas são sugeridas para o tratamento de sinais de voz. A comprovação da eficácia dessa metodologia se deu pela realização de testes comparativos de exatidão que, de forma estatisticamente significativa, mostraram o benefício advindo das modificações sugeridas. A melhora obtida com o acréscimo de invariantes dinâmicas da forma proposta no sistema de RAL utilizado nos testes resultou na diminuição da taxa de erro igual (EER) em 17,65%, acarretando um intrínseco aumento de processamento. Para sinais de voz contaminados com ruído, o benefício atingido com o sistema proposto foi verificado para relações sinal ruído (SNRs) maiores que aproximadamente 5 dB. O avanço científico potencial advindo dos resultados alcançados com este trabalho não se limita às invariantes dinâmicas utilizadas, e nem mesmo à caracterização de locutores. A comprovação da possibilidade de utilização de técnicas da Teoria do Caos em sinais de voz permitirá expandir os conceitos utilizados em qualquer sistema que processe digitalmente sinais de voz. O avanço das técnicas de Sistemas Dinâmicos Não-Lineares, como a concepção de invariantes dinâmicas mais representativas e robustas, implicará também no avanço dos sistemas que utilizarem esse novo conceito para tratamento de sinais vocais. |
| id |
URGS_bb3490a6de67db172db8644cb4ed0f40 |
|---|---|
| oai_identifier_str |
oai:www.lume.ufrgs.br:10183/3111 |
| network_acronym_str |
URGS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| repository_id_str |
|
| spelling |
Petry, AdrianoBarone, Dante Augusto Couto2007-06-06T17:26:24Z2002http://hdl.handle.net/10183/3111000332318As técnicas utilizadas em sistemas de reconhecimento automático de locutor (RAL) objetivam identificar uma pessoa através de sua voz, utilizando recursos computacionais. Isso é feito a partir de um modelamento para o processo de produção da voz. A modelagem detalhada desse processo deve levar em consideração a variação temporal da forma do trato vocal, as ressonâncias associadas à sua fisiologia, perdas devidas ao atrito viscoso nas paredes internas do trato vocal, suavidade dessas paredes internas, radiação do som nos lábios, acoplamento nasal, flexibilidade associada à vibração das cordas vocais, etc. Alguns desses fatores são modelados por um sistema que combina uma fonte de excitação periódica e outra de ruído branco, aplicadas a um filtro digital variante no tempo. Entretanto, outros fatores são desconsiderados nesse modelamento, pela simples dificuldade ou até impossibilidade de descrevê-los em termos de combinações de sinais, filtros digitais, ou equações diferenciais. Por outro lado, a Teoria dos Sistemas Dinâmicos Não-Lineares ou Teoria do Caos oferece técnicas para a análise de sinais onde não se sabe, ou não é conhecido, o modelo detalhado do mecanismo de produção desses sinais. A análise através dessa teoria procura avaliar a dinâmica do sinal e, assumindo-se que tais amostras provêm de um sistema dinâmico não-linear, medidas qualitativas podem ser obtidas desse sistema. Essas medidas não fornecem informações precisas quanto ao modelamento do processo de produção do sinal avaliado, isto é, o modelo analítico é ainda inacessível. Entretanto, pode-se aferir a respeito de suaO problema analisado ao longo deste trabalho trata da busca de novos métodos para extrair informações úteis a respeito do locutor que produziu um determinado sinal de voz. Com isso, espera-se conceber sistemas que realizem a tarefa de reconhecer um pessoa automaticamente através de sua voz de forma mais exata, segura e robusta, contribuindo para o surgimento de sistemas de RAL com aplicação prática. Para isso, este trabalho propõe a utilização de novas ferramentas, baseadas na Teoria dos Sistemas Dinâmicos Não-Lineares, para melhorar a caracterização de uma pessoa através de sua voz. Assim, o mecanismo de produção do sinal de voz é analisado sob outro ponto de vista, como sendo o produto de um sistema dinâmico que evolui em um espaço de fases apropriado. Primeiramente, a possibilidade de utilização dessas técnicas em sinais de voz é verificada. A seguir, demonstra-se como as técnicas para estimação de invariantes dinâmicas não-lineares podem ser adaptadas para que possam ser utilizadas em sistemas de RAL. Por fim, adaptações e automatizações algorítmicas para extração de invariantes dinâmicas são sugeridas para o tratamento de sinais de voz. A comprovação da eficácia dessa metodologia se deu pela realização de testes comparativos de exatidão que, de forma estatisticamente significativa, mostraram o benefício advindo das modificações sugeridas. A melhora obtida com o acréscimo de invariantes dinâmicas da forma proposta no sistema de RAL utilizado nos testes resultou na diminuição da taxa de erro igual (EER) em 17,65%, acarretando um intrínseco aumento de processamento. Para sinais de voz contaminados com ruído, o benefício atingido com o sistema proposto foi verificado para relações sinal ruído (SNRs) maiores que aproximadamente 5 dB. O avanço científico potencial advindo dos resultados alcançados com este trabalho não se limita às invariantes dinâmicas utilizadas, e nem mesmo à caracterização de locutores. A comprovação da possibilidade de utilização de técnicas da Teoria do Caos em sinais de voz permitirá expandir os conceitos utilizados em qualquer sistema que processe digitalmente sinais de voz. O avanço das técnicas de Sistemas Dinâmicos Não-Lineares, como a concepção de invariantes dinâmicas mais representativas e robustas, implicará também no avanço dos sistemas que utilizarem esse novo conceito para tratamento de sinais vocais.application/pdfporReconhecimento : PadroesReconhecimento : VozProcessamento : SinaisReconhecimento automático de locutor utilizando medidas de invariantes dinâmicas não-linearesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2002doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000332318.pdf000332318.pdfTexto completoapplication/pdf1120340http://www.lume.ufrgs.br/bitstream/10183/3111/1/000332318.pdf946f12a39c99788ac34c59eeeeaa1541MD51TEXT000332318.pdf.txt000332318.pdf.txtExtracted Texttext/plain350499http://www.lume.ufrgs.br/bitstream/10183/3111/2/000332318.pdf.txt885f4b203c2980e9f0982e44cb9397e2MD52THUMBNAIL000332318.pdf.jpg000332318.pdf.jpgGenerated Thumbnailimage/jpeg1042http://www.lume.ufrgs.br/bitstream/10183/3111/3/000332318.pdf.jpg46105fd64c1ed85889d1500fb0796871MD5310183/31112018-10-15 09:02:56.952oai:www.lume.ufrgs.br:10183/3111Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532018-10-15T12:02:56Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
| dc.title.pt_BR.fl_str_mv |
Reconhecimento automático de locutor utilizando medidas de invariantes dinâmicas não-lineares |
| title |
Reconhecimento automático de locutor utilizando medidas de invariantes dinâmicas não-lineares |
| spellingShingle |
Reconhecimento automático de locutor utilizando medidas de invariantes dinâmicas não-lineares Petry, Adriano Reconhecimento : Padroes Reconhecimento : Voz Processamento : Sinais |
| title_short |
Reconhecimento automático de locutor utilizando medidas de invariantes dinâmicas não-lineares |
| title_full |
Reconhecimento automático de locutor utilizando medidas de invariantes dinâmicas não-lineares |
| title_fullStr |
Reconhecimento automático de locutor utilizando medidas de invariantes dinâmicas não-lineares |
| title_full_unstemmed |
Reconhecimento automático de locutor utilizando medidas de invariantes dinâmicas não-lineares |
| title_sort |
Reconhecimento automático de locutor utilizando medidas de invariantes dinâmicas não-lineares |
| author |
Petry, Adriano |
| author_facet |
Petry, Adriano |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Petry, Adriano |
| dc.contributor.advisor1.fl_str_mv |
Barone, Dante Augusto Couto |
| contributor_str_mv |
Barone, Dante Augusto Couto |
| dc.subject.por.fl_str_mv |
Reconhecimento : Padroes Reconhecimento : Voz Processamento : Sinais |
| topic |
Reconhecimento : Padroes Reconhecimento : Voz Processamento : Sinais |
| description |
As técnicas utilizadas em sistemas de reconhecimento automático de locutor (RAL) objetivam identificar uma pessoa através de sua voz, utilizando recursos computacionais. Isso é feito a partir de um modelamento para o processo de produção da voz. A modelagem detalhada desse processo deve levar em consideração a variação temporal da forma do trato vocal, as ressonâncias associadas à sua fisiologia, perdas devidas ao atrito viscoso nas paredes internas do trato vocal, suavidade dessas paredes internas, radiação do som nos lábios, acoplamento nasal, flexibilidade associada à vibração das cordas vocais, etc. Alguns desses fatores são modelados por um sistema que combina uma fonte de excitação periódica e outra de ruído branco, aplicadas a um filtro digital variante no tempo. Entretanto, outros fatores são desconsiderados nesse modelamento, pela simples dificuldade ou até impossibilidade de descrevê-los em termos de combinações de sinais, filtros digitais, ou equações diferenciais. Por outro lado, a Teoria dos Sistemas Dinâmicos Não-Lineares ou Teoria do Caos oferece técnicas para a análise de sinais onde não se sabe, ou não é conhecido, o modelo detalhado do mecanismo de produção desses sinais. A análise através dessa teoria procura avaliar a dinâmica do sinal e, assumindo-se que tais amostras provêm de um sistema dinâmico não-linear, medidas qualitativas podem ser obtidas desse sistema. Essas medidas não fornecem informações precisas quanto ao modelamento do processo de produção do sinal avaliado, isto é, o modelo analítico é ainda inacessível. Entretanto, pode-se aferir a respeito de suaO problema analisado ao longo deste trabalho trata da busca de novos métodos para extrair informações úteis a respeito do locutor que produziu um determinado sinal de voz. Com isso, espera-se conceber sistemas que realizem a tarefa de reconhecer um pessoa automaticamente através de sua voz de forma mais exata, segura e robusta, contribuindo para o surgimento de sistemas de RAL com aplicação prática. Para isso, este trabalho propõe a utilização de novas ferramentas, baseadas na Teoria dos Sistemas Dinâmicos Não-Lineares, para melhorar a caracterização de uma pessoa através de sua voz. Assim, o mecanismo de produção do sinal de voz é analisado sob outro ponto de vista, como sendo o produto de um sistema dinâmico que evolui em um espaço de fases apropriado. Primeiramente, a possibilidade de utilização dessas técnicas em sinais de voz é verificada. A seguir, demonstra-se como as técnicas para estimação de invariantes dinâmicas não-lineares podem ser adaptadas para que possam ser utilizadas em sistemas de RAL. Por fim, adaptações e automatizações algorítmicas para extração de invariantes dinâmicas são sugeridas para o tratamento de sinais de voz. A comprovação da eficácia dessa metodologia se deu pela realização de testes comparativos de exatidão que, de forma estatisticamente significativa, mostraram o benefício advindo das modificações sugeridas. A melhora obtida com o acréscimo de invariantes dinâmicas da forma proposta no sistema de RAL utilizado nos testes resultou na diminuição da taxa de erro igual (EER) em 17,65%, acarretando um intrínseco aumento de processamento. Para sinais de voz contaminados com ruído, o benefício atingido com o sistema proposto foi verificado para relações sinal ruído (SNRs) maiores que aproximadamente 5 dB. O avanço científico potencial advindo dos resultados alcançados com este trabalho não se limita às invariantes dinâmicas utilizadas, e nem mesmo à caracterização de locutores. A comprovação da possibilidade de utilização de técnicas da Teoria do Caos em sinais de voz permitirá expandir os conceitos utilizados em qualquer sistema que processe digitalmente sinais de voz. O avanço das técnicas de Sistemas Dinâmicos Não-Lineares, como a concepção de invariantes dinâmicas mais representativas e robustas, implicará também no avanço dos sistemas que utilizarem esse novo conceito para tratamento de sinais vocais. |
| publishDate |
2002 |
| dc.date.issued.fl_str_mv |
2002 |
| dc.date.accessioned.fl_str_mv |
2007-06-06T17:26:24Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/3111 |
| dc.identifier.nrb.pt_BR.fl_str_mv |
000332318 |
| url |
http://hdl.handle.net/10183/3111 |
| identifier_str_mv |
000332318 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
| instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
| instacron_str |
UFRGS |
| institution |
UFRGS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/3111/1/000332318.pdf http://www.lume.ufrgs.br/bitstream/10183/3111/2/000332318.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/3111/3/000332318.pdf.jpg |
| bitstream.checksum.fl_str_mv |
946f12a39c99788ac34c59eeeeaa1541 885f4b203c2980e9f0982e44cb9397e2 46105fd64c1ed85889d1500fb0796871 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
| repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
| _version_ |
1831315791671197696 |