Redes neurais profundas com fusão de características na verificação biométrica pela voz
| Ano de defesa: | 2022 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | , , |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de Goiás
|
| Programa de Pós-Graduação: |
Programa de Pós-graduação em Ciência da Computação (INF)
|
| Departamento: |
Instituto de Informática - INF (RG)
|
| País: |
Brasil
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | http://repositorio.bc.ufg.br/tede/handle/tede/12071 |
Resumo: | The voice spoken by a person has a considerable variability which is due both to factors related to the speaker himself, such as accent, emotional state, and voice transition over age, as well as on factors external to the speaker, such as background noise, reverberation, capture equipment, and the digitalization process. Therefore, there are many challenges present in the task of biometric verification by voice. The use of neural networks to tackle this problem brought a big leap in performance when compared to previous techniques, and the main input format used is the spectrogram. For voices, the spectrogram can emphasize different characteristics depending on the generation parameters. The purpose of this work is to explore feature fusion in biometric verification by voice, particularly with by using dual spectrograms as input to the model. This approach is justified by the existence of works that also use it in other tasks related to voice and speech, such as keyword spotting, detection of voiced excerpts and musical classification. From the results, it was possible to validate the hypothesis that the use of dual spectrograms allows a performance gain in existing models, implying that certain types of spectrogram carry complementary information. The Equal Error Rate obtained was 1.61 for the model trained with dual spectrograms, which is 26% less than the EER rate of 2.22 obtained by the reference work [Chung et al. 2020]. Furthermore, the model proposed in this work has better performance for any decision threshold when compared to the reference work, either to minimize false positives or false negatives. |
| id |
UFG-2_a7bb4f7343d5951e4ac51f834530bbc3 |
|---|---|
| oai_identifier_str |
oai:repositorio.bc.ufg.br:tede/12071 |
| network_acronym_str |
UFG-2 |
| network_name_str |
Repositório Institucional da UFG |
| repository_id_str |
|
| spelling |
Soares, Anderson da Silvahttp://lattes.cnpq.br/1096941114079527Galvão Filho, Arlindo RodriguesSoares, Anderson da SilvaCândido Júnior, Arnaldohttp://lattes.cnpq.br/0625389300835349Virgilli, Rafaello2022-05-17T15:32:02Z2022-05-17T15:32:02Z2022-04-14VIRGILLI, R. Redes neurais profundas com fusão de características na verificação biométrica pela voz. 2022. 63 f. Dissertação (Metrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2022.http://repositorio.bc.ufg.br/tede/handle/tede/12071The voice spoken by a person has a considerable variability which is due both to factors related to the speaker himself, such as accent, emotional state, and voice transition over age, as well as on factors external to the speaker, such as background noise, reverberation, capture equipment, and the digitalization process. Therefore, there are many challenges present in the task of biometric verification by voice. The use of neural networks to tackle this problem brought a big leap in performance when compared to previous techniques, and the main input format used is the spectrogram. For voices, the spectrogram can emphasize different characteristics depending on the generation parameters. The purpose of this work is to explore feature fusion in biometric verification by voice, particularly with by using dual spectrograms as input to the model. This approach is justified by the existence of works that also use it in other tasks related to voice and speech, such as keyword spotting, detection of voiced excerpts and musical classification. From the results, it was possible to validate the hypothesis that the use of dual spectrograms allows a performance gain in existing models, implying that certain types of spectrogram carry complementary information. The Equal Error Rate obtained was 1.61 for the model trained with dual spectrograms, which is 26% less than the EER rate of 2.22 obtained by the reference work [Chung et al. 2020]. Furthermore, the model proposed in this work has better performance for any decision threshold when compared to the reference work, either to minimize false positives or false negatives.A voz emitida por um falante possui grande variabilidade e isto se deve tanto a fatores relacionados ao próprio falante, como o sotaque, estado emocional e a mudança da voz com a idade, quanto a fatores externos, como ruídos de fundo ruídos de fundo, reverberação, equipamento de captura e formato de digitalização. Sendo assim, são muitos os desafios presentes na tarefa de reconhecimento biométrico por voz. O uso de redes neurais para atacar esse problema trouxe um grande salto em performance quando comparado a técnicas anteriores, e o principal formato de entrada utilizado é o espectrograma. Para vozes, o espectrograma pode enfatizar diferentes características a depender dos parâmetros de geração. Sendo assim, a proposta deste trabalho é explorar a fusão de características na verificação biométrica por voz, particularmente com o emprego de um espectrograma duplo como entrada do modelo. A escolha dessa técnica se justifica pela existência de trabalhos que também a utilizam em outras tarefas relacionadas à voz e fala, como detecção de palavra chave, detecção de trechos vozeados e classificação musical. A partir dos resultados foi possível validar a hipótese de que a utilização de espectrogramas duplos permite um ganho de performance nos modelos existentes, indicando que os tipos de espectrograma considerados portam informações complementares. A Equal Error Rate obtida foi de 1,61 para o modelo treinado com espectrogramas duplos, valor 26% menor que a taxa EER de 2,22, obtida no trabalho utilizado como referência neste texto [Chung et al. 2020]. Além disso, o modelo proposto possui melhor desempenho para qualquer escolha do limiar de decisão quando comparado com o trabalho de referência, tanto para minimizar falsos positivos como para minimizar falsos negativos.Fundação de Apoio à PesquisaporUniversidade Federal de GoiásPrograma de Pós-graduação em Ciência da Computação (INF)UFGBrasilInstituto de Informática - INF (RG)Attribution-NonCommercial-NoDerivatives 4.0 Internationalinfo:eu-repo/semantics/openAccessVerificação de falanteEspectrograma multi resoluçãoBanda largaBanda estreitaSpeaker verificationMultiresolution spectrogramBroadbandNarrowbandCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAORedes neurais profundas com fusão de características na verificação biométrica pela vozDeep neural networks with feature fusion in biometric verification by voiceinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis20500500500500261842reponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGLICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.bc.ufg.br/tede/bitstreams/85825108-3009-4143-8526-d0df4a602bfe/download8a4605be74aa9ea9d79846c1fba20a33MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8805http://repositorio.bc.ufg.br/tede/bitstreams/b085b105-ecac-4982-9205-3248824a32a7/download4460e5956bc1d1639be9ae6146a50347MD52ORIGINALDissertação - Rafaello Virgilli - 2022.pdfDissertação - Rafaello Virgilli - 2022.pdfapplication/pdf10439802http://repositorio.bc.ufg.br/tede/bitstreams/5f7442d1-fc9f-41fe-992a-b535d9f51530/download1e8334f1f1607f426639954751f1a50fMD53tede/120712022-05-17 12:32:02.242http://creativecommons.org/licenses/by-nc-nd/4.0/Attribution-NonCommercial-NoDerivatives 4.0 Internationalopen.accessoai:repositorio.bc.ufg.br:tede/12071http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttps://repositorio.bc.ufg.br/tedeserver/oai/requestgrt.bc@ufg.bropendoar:oai:repositorio.bc.ufg.br:tede/12342022-05-17T15:32:02Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)falseTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
| dc.title.pt_BR.fl_str_mv |
Redes neurais profundas com fusão de características na verificação biométrica pela voz |
| dc.title.alternative.eng.fl_str_mv |
Deep neural networks with feature fusion in biometric verification by voice |
| title |
Redes neurais profundas com fusão de características na verificação biométrica pela voz |
| spellingShingle |
Redes neurais profundas com fusão de características na verificação biométrica pela voz Virgilli, Rafaello Verificação de falante Espectrograma multi resolução Banda larga Banda estreita Speaker verification Multiresolution spectrogram Broadband Narrowband CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| title_short |
Redes neurais profundas com fusão de características na verificação biométrica pela voz |
| title_full |
Redes neurais profundas com fusão de características na verificação biométrica pela voz |
| title_fullStr |
Redes neurais profundas com fusão de características na verificação biométrica pela voz |
| title_full_unstemmed |
Redes neurais profundas com fusão de características na verificação biométrica pela voz |
| title_sort |
Redes neurais profundas com fusão de características na verificação biométrica pela voz |
| author |
Virgilli, Rafaello |
| author_facet |
Virgilli, Rafaello |
| author_role |
author |
| dc.contributor.advisor1.fl_str_mv |
Soares, Anderson da Silva |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/1096941114079527 |
| dc.contributor.referee1.fl_str_mv |
Galvão Filho, Arlindo Rodrigues |
| dc.contributor.referee2.fl_str_mv |
Soares, Anderson da Silva |
| dc.contributor.referee3.fl_str_mv |
Cândido Júnior, Arnaldo |
| dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/0625389300835349 |
| dc.contributor.author.fl_str_mv |
Virgilli, Rafaello |
| contributor_str_mv |
Soares, Anderson da Silva Galvão Filho, Arlindo Rodrigues Soares, Anderson da Silva Cândido Júnior, Arnaldo |
| dc.subject.por.fl_str_mv |
Verificação de falante Espectrograma multi resolução Banda larga Banda estreita |
| topic |
Verificação de falante Espectrograma multi resolução Banda larga Banda estreita Speaker verification Multiresolution spectrogram Broadband Narrowband CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| dc.subject.eng.fl_str_mv |
Speaker verification Multiresolution spectrogram Broadband Narrowband |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| description |
The voice spoken by a person has a considerable variability which is due both to factors related to the speaker himself, such as accent, emotional state, and voice transition over age, as well as on factors external to the speaker, such as background noise, reverberation, capture equipment, and the digitalization process. Therefore, there are many challenges present in the task of biometric verification by voice. The use of neural networks to tackle this problem brought a big leap in performance when compared to previous techniques, and the main input format used is the spectrogram. For voices, the spectrogram can emphasize different characteristics depending on the generation parameters. The purpose of this work is to explore feature fusion in biometric verification by voice, particularly with by using dual spectrograms as input to the model. This approach is justified by the existence of works that also use it in other tasks related to voice and speech, such as keyword spotting, detection of voiced excerpts and musical classification. From the results, it was possible to validate the hypothesis that the use of dual spectrograms allows a performance gain in existing models, implying that certain types of spectrogram carry complementary information. The Equal Error Rate obtained was 1.61 for the model trained with dual spectrograms, which is 26% less than the EER rate of 2.22 obtained by the reference work [Chung et al. 2020]. Furthermore, the model proposed in this work has better performance for any decision threshold when compared to the reference work, either to minimize false positives or false negatives. |
| publishDate |
2022 |
| dc.date.accessioned.fl_str_mv |
2022-05-17T15:32:02Z |
| dc.date.available.fl_str_mv |
2022-05-17T15:32:02Z |
| dc.date.issued.fl_str_mv |
2022-04-14 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
VIRGILLI, R. Redes neurais profundas com fusão de características na verificação biométrica pela voz. 2022. 63 f. Dissertação (Metrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2022. |
| dc.identifier.uri.fl_str_mv |
http://repositorio.bc.ufg.br/tede/handle/tede/12071 |
| identifier_str_mv |
VIRGILLI, R. Redes neurais profundas com fusão de características na verificação biométrica pela voz. 2022. 63 f. Dissertação (Metrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2022. |
| url |
http://repositorio.bc.ufg.br/tede/handle/tede/12071 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.program.fl_str_mv |
20 |
| dc.relation.confidence.fl_str_mv |
500 500 500 500 |
| dc.relation.department.fl_str_mv |
26 |
| dc.relation.cnpq.fl_str_mv |
184 |
| dc.relation.sponsorship.fl_str_mv |
2 |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 International info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 International |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Goiás |
| dc.publisher.program.fl_str_mv |
Programa de Pós-graduação em Ciência da Computação (INF) |
| dc.publisher.initials.fl_str_mv |
UFG |
| dc.publisher.country.fl_str_mv |
Brasil |
| dc.publisher.department.fl_str_mv |
Instituto de Informática - INF (RG) |
| publisher.none.fl_str_mv |
Universidade Federal de Goiás |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFG instname:Universidade Federal de Goiás (UFG) instacron:UFG |
| instname_str |
Universidade Federal de Goiás (UFG) |
| instacron_str |
UFG |
| institution |
UFG |
| reponame_str |
Repositório Institucional da UFG |
| collection |
Repositório Institucional da UFG |
| bitstream.url.fl_str_mv |
http://repositorio.bc.ufg.br/tede/bitstreams/85825108-3009-4143-8526-d0df4a602bfe/download http://repositorio.bc.ufg.br/tede/bitstreams/b085b105-ecac-4982-9205-3248824a32a7/download http://repositorio.bc.ufg.br/tede/bitstreams/5f7442d1-fc9f-41fe-992a-b535d9f51530/download |
| bitstream.checksum.fl_str_mv |
8a4605be74aa9ea9d79846c1fba20a33 4460e5956bc1d1639be9ae6146a50347 1e8334f1f1607f426639954751f1a50f |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFG - Universidade Federal de Goiás (UFG) |
| repository.mail.fl_str_mv |
grt.bc@ufg.br |
| _version_ |
1861293905947918336 |