Redes neurais profundas com fusão de características na verificação biométrica pela voz

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Virgilli, Rafaello lattes
Orientador(a): Soares, Anderson da Silva lattes
Banca de defesa: Galvão Filho, Arlindo Rodrigues, Soares, Anderson da Silva, Cândido Júnior, Arnaldo
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Goiás
Programa de Pós-Graduação: Programa de Pós-graduação em Ciência da Computação (INF)
Departamento: Instituto de Informática - INF (RG)
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.bc.ufg.br/tede/handle/tede/12071
Resumo: The voice spoken by a person has a considerable variability which is due both to factors related to the speaker himself, such as accent, emotional state, and voice transition over age, as well as on factors external to the speaker, such as background noise, reverberation, capture equipment, and the digitalization process. Therefore, there are many challenges present in the task of biometric verification by voice. The use of neural networks to tackle this problem brought a big leap in performance when compared to previous techniques, and the main input format used is the spectrogram. For voices, the spectrogram can emphasize different characteristics depending on the generation parameters. The purpose of this work is to explore feature fusion in biometric verification by voice, particularly with by using dual spectrograms as input to the model. This approach is justified by the existence of works that also use it in other tasks related to voice and speech, such as keyword spotting, detection of voiced excerpts and musical classification. From the results, it was possible to validate the hypothesis that the use of dual spectrograms allows a performance gain in existing models, implying that certain types of spectrogram carry complementary information. The Equal Error Rate obtained was 1.61 for the model trained with dual spectrograms, which is 26% less than the EER rate of 2.22 obtained by the reference work [Chung et al. 2020]. Furthermore, the model proposed in this work has better performance for any decision threshold when compared to the reference work, either to minimize false positives or false negatives.
id UFG-2_a7bb4f7343d5951e4ac51f834530bbc3
oai_identifier_str oai:repositorio.bc.ufg.br:tede/12071
network_acronym_str UFG-2
network_name_str Repositório Institucional da UFG
repository_id_str
spelling Soares, Anderson da Silvahttp://lattes.cnpq.br/1096941114079527Galvão Filho, Arlindo RodriguesSoares, Anderson da SilvaCândido Júnior, Arnaldohttp://lattes.cnpq.br/0625389300835349Virgilli, Rafaello2022-05-17T15:32:02Z2022-05-17T15:32:02Z2022-04-14VIRGILLI, R. Redes neurais profundas com fusão de características na verificação biométrica pela voz. 2022. 63 f. Dissertação (Metrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2022.http://repositorio.bc.ufg.br/tede/handle/tede/12071The voice spoken by a person has a considerable variability which is due both to factors related to the speaker himself, such as accent, emotional state, and voice transition over age, as well as on factors external to the speaker, such as background noise, reverberation, capture equipment, and the digitalization process. Therefore, there are many challenges present in the task of biometric verification by voice. The use of neural networks to tackle this problem brought a big leap in performance when compared to previous techniques, and the main input format used is the spectrogram. For voices, the spectrogram can emphasize different characteristics depending on the generation parameters. The purpose of this work is to explore feature fusion in biometric verification by voice, particularly with by using dual spectrograms as input to the model. This approach is justified by the existence of works that also use it in other tasks related to voice and speech, such as keyword spotting, detection of voiced excerpts and musical classification. From the results, it was possible to validate the hypothesis that the use of dual spectrograms allows a performance gain in existing models, implying that certain types of spectrogram carry complementary information. The Equal Error Rate obtained was 1.61 for the model trained with dual spectrograms, which is 26% less than the EER rate of 2.22 obtained by the reference work [Chung et al. 2020]. Furthermore, the model proposed in this work has better performance for any decision threshold when compared to the reference work, either to minimize false positives or false negatives.A voz emitida por um falante possui grande variabilidade e isto se deve tanto a fatores relacionados ao próprio falante, como o sotaque, estado emocional e a mudança da voz com a idade, quanto a fatores externos, como ruídos de fundo ruídos de fundo, reverberação, equipamento de captura e formato de digitalização. Sendo assim, são muitos os desafios presentes na tarefa de reconhecimento biométrico por voz. O uso de redes neurais para atacar esse problema trouxe um grande salto em performance quando comparado a técnicas anteriores, e o principal formato de entrada utilizado é o espectrograma. Para vozes, o espectrograma pode enfatizar diferentes características a depender dos parâmetros de geração. Sendo assim, a proposta deste trabalho é explorar a fusão de características na verificação biométrica por voz, particularmente com o emprego de um espectrograma duplo como entrada do modelo. A escolha dessa técnica se justifica pela existência de trabalhos que também a utilizam em outras tarefas relacionadas à voz e fala, como detecção de palavra chave, detecção de trechos vozeados e classificação musical. A partir dos resultados foi possível validar a hipótese de que a utilização de espectrogramas duplos permite um ganho de performance nos modelos existentes, indicando que os tipos de espectrograma considerados portam informações complementares. A Equal Error Rate obtida foi de 1,61 para o modelo treinado com espectrogramas duplos, valor 26% menor que a taxa EER de 2,22, obtida no trabalho utilizado como referência neste texto [Chung et al. 2020]. Além disso, o modelo proposto possui melhor desempenho para qualquer escolha do limiar de decisão quando comparado com o trabalho de referência, tanto para minimizar falsos positivos como para minimizar falsos negativos.Fundação de Apoio à PesquisaporUniversidade Federal de GoiásPrograma de Pós-graduação em Ciência da Computação (INF)UFGBrasilInstituto de Informática - INF (RG)Attribution-NonCommercial-NoDerivatives 4.0 Internationalinfo:eu-repo/semantics/openAccessVerificação de falanteEspectrograma multi resoluçãoBanda largaBanda estreitaSpeaker verificationMultiresolution spectrogramBroadbandNarrowbandCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAORedes neurais profundas com fusão de características na verificação biométrica pela vozDeep neural networks with feature fusion in biometric verification by voiceinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis20500500500500261842reponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGLICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.bc.ufg.br/tede/bitstreams/85825108-3009-4143-8526-d0df4a602bfe/download8a4605be74aa9ea9d79846c1fba20a33MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8805http://repositorio.bc.ufg.br/tede/bitstreams/b085b105-ecac-4982-9205-3248824a32a7/download4460e5956bc1d1639be9ae6146a50347MD52ORIGINALDissertação - Rafaello Virgilli - 2022.pdfDissertação - Rafaello Virgilli - 2022.pdfapplication/pdf10439802http://repositorio.bc.ufg.br/tede/bitstreams/5f7442d1-fc9f-41fe-992a-b535d9f51530/download1e8334f1f1607f426639954751f1a50fMD53tede/120712022-05-17 12:32:02.242http://creativecommons.org/licenses/by-nc-nd/4.0/Attribution-NonCommercial-NoDerivatives 4.0 Internationalopen.accessoai:repositorio.bc.ufg.br:tede/12071http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttps://repositorio.bc.ufg.br/tedeserver/oai/requestgrt.bc@ufg.bropendoar:oai:repositorio.bc.ufg.br:tede/12342022-05-17T15:32:02Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)falseTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
dc.title.pt_BR.fl_str_mv Redes neurais profundas com fusão de características na verificação biométrica pela voz
dc.title.alternative.eng.fl_str_mv Deep neural networks with feature fusion in biometric verification by voice
title Redes neurais profundas com fusão de características na verificação biométrica pela voz
spellingShingle Redes neurais profundas com fusão de características na verificação biométrica pela voz
Virgilli, Rafaello
Verificação de falante
Espectrograma multi resolução
Banda larga
Banda estreita
Speaker verification
Multiresolution spectrogram
Broadband
Narrowband
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Redes neurais profundas com fusão de características na verificação biométrica pela voz
title_full Redes neurais profundas com fusão de características na verificação biométrica pela voz
title_fullStr Redes neurais profundas com fusão de características na verificação biométrica pela voz
title_full_unstemmed Redes neurais profundas com fusão de características na verificação biométrica pela voz
title_sort Redes neurais profundas com fusão de características na verificação biométrica pela voz
author Virgilli, Rafaello
author_facet Virgilli, Rafaello
author_role author
dc.contributor.advisor1.fl_str_mv Soares, Anderson da Silva
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/1096941114079527
dc.contributor.referee1.fl_str_mv Galvão Filho, Arlindo Rodrigues
dc.contributor.referee2.fl_str_mv Soares, Anderson da Silva
dc.contributor.referee3.fl_str_mv Cândido Júnior, Arnaldo
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/0625389300835349
dc.contributor.author.fl_str_mv Virgilli, Rafaello
contributor_str_mv Soares, Anderson da Silva
Galvão Filho, Arlindo Rodrigues
Soares, Anderson da Silva
Cândido Júnior, Arnaldo
dc.subject.por.fl_str_mv Verificação de falante
Espectrograma multi resolução
Banda larga
Banda estreita
topic Verificação de falante
Espectrograma multi resolução
Banda larga
Banda estreita
Speaker verification
Multiresolution spectrogram
Broadband
Narrowband
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Speaker verification
Multiresolution spectrogram
Broadband
Narrowband
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description The voice spoken by a person has a considerable variability which is due both to factors related to the speaker himself, such as accent, emotional state, and voice transition over age, as well as on factors external to the speaker, such as background noise, reverberation, capture equipment, and the digitalization process. Therefore, there are many challenges present in the task of biometric verification by voice. The use of neural networks to tackle this problem brought a big leap in performance when compared to previous techniques, and the main input format used is the spectrogram. For voices, the spectrogram can emphasize different characteristics depending on the generation parameters. The purpose of this work is to explore feature fusion in biometric verification by voice, particularly with by using dual spectrograms as input to the model. This approach is justified by the existence of works that also use it in other tasks related to voice and speech, such as keyword spotting, detection of voiced excerpts and musical classification. From the results, it was possible to validate the hypothesis that the use of dual spectrograms allows a performance gain in existing models, implying that certain types of spectrogram carry complementary information. The Equal Error Rate obtained was 1.61 for the model trained with dual spectrograms, which is 26% less than the EER rate of 2.22 obtained by the reference work [Chung et al. 2020]. Furthermore, the model proposed in this work has better performance for any decision threshold when compared to the reference work, either to minimize false positives or false negatives.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-05-17T15:32:02Z
dc.date.available.fl_str_mv 2022-05-17T15:32:02Z
dc.date.issued.fl_str_mv 2022-04-14
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv VIRGILLI, R. Redes neurais profundas com fusão de características na verificação biométrica pela voz. 2022. 63 f. Dissertação (Metrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2022.
dc.identifier.uri.fl_str_mv http://repositorio.bc.ufg.br/tede/handle/tede/12071
identifier_str_mv VIRGILLI, R. Redes neurais profundas com fusão de características na verificação biométrica pela voz. 2022. 63 f. Dissertação (Metrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2022.
url http://repositorio.bc.ufg.br/tede/handle/tede/12071
dc.language.iso.fl_str_mv por
language por
dc.relation.program.fl_str_mv 20
dc.relation.confidence.fl_str_mv 500
500
500
500
dc.relation.department.fl_str_mv 26
dc.relation.cnpq.fl_str_mv 184
dc.relation.sponsorship.fl_str_mv 2
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Goiás
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Ciência da Computação (INF)
dc.publisher.initials.fl_str_mv UFG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto de Informática - INF (RG)
publisher.none.fl_str_mv Universidade Federal de Goiás
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFG
instname:Universidade Federal de Goiás (UFG)
instacron:UFG
instname_str Universidade Federal de Goiás (UFG)
instacron_str UFG
institution UFG
reponame_str Repositório Institucional da UFG
collection Repositório Institucional da UFG
bitstream.url.fl_str_mv http://repositorio.bc.ufg.br/tede/bitstreams/85825108-3009-4143-8526-d0df4a602bfe/download
http://repositorio.bc.ufg.br/tede/bitstreams/b085b105-ecac-4982-9205-3248824a32a7/download
http://repositorio.bc.ufg.br/tede/bitstreams/5f7442d1-fc9f-41fe-992a-b535d9f51530/download
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
4460e5956bc1d1639be9ae6146a50347
1e8334f1f1607f426639954751f1a50f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)
repository.mail.fl_str_mv grt.bc@ufg.br
_version_ 1861293905947918336