Meta-aprendizado para a verificação de falante com áudios de curta duração

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Souza, Lucas Alcântara lattes
Orientador(a): Soares, Anderson da Silva lattes
Banca de defesa: Soares, Anderson da Silva, Cândido Júnior, Arnaldo, Galvão Filho, Arlindo Rodrigues
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Goiás
Programa de Pós-Graduação: Programa de Pós-graduação em Ciência da Computação (INF)
Departamento: Instituto de Informática - INF (RG)
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.bc.ufg.br/tede/handle/tede/12072
Resumo: In practical scenarios, a speaker verification model system must be able to identify a person given audios of any durations. However, existing speaker verification systems have low performance when dealing with short-length audios. To face this problem, the MLVL (Meta-Learning Variable-Length) approach was proposed, which consists of using audios with different durations within the same episode in the meta-learning of a prototypical network. The objective is to become text-independent speaker verification more robust to the context in which the verification audio is short-length. Models trained with the MLVL approach were evaluated in three different scenarios of short-length audios, obtaining 2.55% as the lowest EER (Equal Error Rate) value. Evaluating such models in audios with longer durations, the lowest EER value obtained was 2.40%. The results surpassed those obtained by several studies in the same scenarios, demonstrating the potential practical application of the proposed MLVL approach in a voice biometrics system.
id UFG-2_6cdcdabb982873977866034a1df908a8
oai_identifier_str oai:repositorio.bc.ufg.br:tede/12072
network_acronym_str UFG-2
network_name_str Repositório Institucional da UFG
repository_id_str
spelling Soares, Anderson da SilvaLink do currículo Lattes: http://lattes.cnpq.br/1096941114079527Soares, Anderson da SilvaCândido Júnior, ArnaldoGalvão Filho, Arlindo Rodrigueshttp://lattes.cnpq.br/9436330957771918Souza, Lucas Alcântara2022-05-17T15:34:22Z2022-05-17T15:34:22Z2022-04-18SOUZA, L. A. Meta-aprendizado para a verificação de falante com áudios de curta duração. 2022. 74 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2022.http://repositorio.bc.ufg.br/tede/handle/tede/12072In practical scenarios, a speaker verification model system must be able to identify a person given audios of any durations. However, existing speaker verification systems have low performance when dealing with short-length audios. To face this problem, the MLVL (Meta-Learning Variable-Length) approach was proposed, which consists of using audios with different durations within the same episode in the meta-learning of a prototypical network. The objective is to become text-independent speaker verification more robust to the context in which the verification audio is short-length. Models trained with the MLVL approach were evaluated in three different scenarios of short-length audios, obtaining 2.55% as the lowest EER (Equal Error Rate) value. Evaluating such models in audios with longer durations, the lowest EER value obtained was 2.40%. The results surpassed those obtained by several studies in the same scenarios, demonstrating the potential practical application of the proposed MLVL approach in a voice biometrics system.Um sistema de biometria por voz deve ser capaz de identificar, na prática, um indivíduo através de áudios de quaisquer durações. Entretanto, os modelos existentes de verificação de falante tem redução de desempenho ao operar com áudios de durações reduzidas. Para enfrentar este problema, foi proposta a abordagem MLVL (Meta-Learning Variable-Length), que consiste em utilizar áudios com durações distintas dentro de um mesmo episódio durante o meta-aprendizado de uma rede prototypical. O objetivo é tornar a verificação de falante, independente do conteúdo, mais robusta ao contexto em que o áudio de confirmação possui curta duração. Os modelos treinados com a abordagem MLVL foram avaliados em três cenários distintos de áudios com curta duração, obtendo 2,55% como menor valor de EER (Equal Error Rate). Avaliando tais modelos em áudios com durações maiores, o menor valor de EER obtido foi de 2,40%. Os resultados superaram os obtidos por diversas pesquisas comparadas nos mesmos cenários, mostrando o potencial de aplicação prática da abordagem MLVL proposta em um sistema de biometria por voz.Fundação de Apoio à PesquisaporUniversidade Federal de GoiásPrograma de Pós-graduação em Ciência da Computação (INF)UFGBrasilInstituto de Informática - INF (RG)Attribution-NonCommercial-NoDerivatives 4.0 Internationalinfo:eu-repo/semantics/openAccessVerificação de falanteBiometria por vozMeta-aprendizadoCurta duraçãoIndependente do conteúdoVoice biometricsSpeaker verificationMeta-learningShort durationText-independentCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOMeta-aprendizado para a verificação de falante com áudios de curta duraçãoMeta-learning for speaker verification with short-length audiosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis20500500500500261842reponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGLICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.bc.ufg.br/tede/bitstreams/d6e5f6cc-2058-48f4-a2d1-dc284a53fdb9/download8a4605be74aa9ea9d79846c1fba20a33MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8805http://repositorio.bc.ufg.br/tede/bitstreams/dcefa83a-bf5a-4f22-a142-fc64a0ba7e99/download4460e5956bc1d1639be9ae6146a50347MD52ORIGINALDissertação - Lucas Alcântara Souza - 2022.pdfDissertação - Lucas Alcântara Souza - 2022.pdfapplication/pdf7052229http://repositorio.bc.ufg.br/tede/bitstreams/4ffba62e-d1d0-4b05-8a6d-34b1e70e4477/download46d2727ec8f26525e7ad692e4c10727dMD53tede/120722022-05-17 12:34:24.964http://creativecommons.org/licenses/by-nc-nd/4.0/Attribution-NonCommercial-NoDerivatives 4.0 Internationalopen.accessoai:repositorio.bc.ufg.br:tede/12072http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttps://repositorio.bc.ufg.br/tedeserver/oai/requestgrt.bc@ufg.bropendoar:oai:repositorio.bc.ufg.br:tede/12342022-05-17T15:34:24Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)falseTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
dc.title.pt_BR.fl_str_mv Meta-aprendizado para a verificação de falante com áudios de curta duração
dc.title.alternative.eng.fl_str_mv Meta-learning for speaker verification with short-length audios
title Meta-aprendizado para a verificação de falante com áudios de curta duração
spellingShingle Meta-aprendizado para a verificação de falante com áudios de curta duração
Souza, Lucas Alcântara
Verificação de falante
Biometria por voz
Meta-aprendizado
Curta duração
Independente do conteúdo
Voice biometrics
Speaker verification
Meta-learning
Short duration
Text-independent
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Meta-aprendizado para a verificação de falante com áudios de curta duração
title_full Meta-aprendizado para a verificação de falante com áudios de curta duração
title_fullStr Meta-aprendizado para a verificação de falante com áudios de curta duração
title_full_unstemmed Meta-aprendizado para a verificação de falante com áudios de curta duração
title_sort Meta-aprendizado para a verificação de falante com áudios de curta duração
author Souza, Lucas Alcântara
author_facet Souza, Lucas Alcântara
author_role author
dc.contributor.advisor1.fl_str_mv Soares, Anderson da Silva
dc.contributor.advisor1Lattes.fl_str_mv Link do currículo Lattes: http://lattes.cnpq.br/1096941114079527
dc.contributor.referee1.fl_str_mv Soares, Anderson da Silva
dc.contributor.referee2.fl_str_mv Cândido Júnior, Arnaldo
dc.contributor.referee3.fl_str_mv Galvão Filho, Arlindo Rodrigues
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/9436330957771918
dc.contributor.author.fl_str_mv Souza, Lucas Alcântara
contributor_str_mv Soares, Anderson da Silva
Soares, Anderson da Silva
Cândido Júnior, Arnaldo
Galvão Filho, Arlindo Rodrigues
dc.subject.por.fl_str_mv Verificação de falante
Biometria por voz
Meta-aprendizado
Curta duração
Independente do conteúdo
topic Verificação de falante
Biometria por voz
Meta-aprendizado
Curta duração
Independente do conteúdo
Voice biometrics
Speaker verification
Meta-learning
Short duration
Text-independent
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Voice biometrics
Speaker verification
Meta-learning
Short duration
Text-independent
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description In practical scenarios, a speaker verification model system must be able to identify a person given audios of any durations. However, existing speaker verification systems have low performance when dealing with short-length audios. To face this problem, the MLVL (Meta-Learning Variable-Length) approach was proposed, which consists of using audios with different durations within the same episode in the meta-learning of a prototypical network. The objective is to become text-independent speaker verification more robust to the context in which the verification audio is short-length. Models trained with the MLVL approach were evaluated in three different scenarios of short-length audios, obtaining 2.55% as the lowest EER (Equal Error Rate) value. Evaluating such models in audios with longer durations, the lowest EER value obtained was 2.40%. The results surpassed those obtained by several studies in the same scenarios, demonstrating the potential practical application of the proposed MLVL approach in a voice biometrics system.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-05-17T15:34:22Z
dc.date.available.fl_str_mv 2022-05-17T15:34:22Z
dc.date.issued.fl_str_mv 2022-04-18
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SOUZA, L. A. Meta-aprendizado para a verificação de falante com áudios de curta duração. 2022. 74 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2022.
dc.identifier.uri.fl_str_mv http://repositorio.bc.ufg.br/tede/handle/tede/12072
identifier_str_mv SOUZA, L. A. Meta-aprendizado para a verificação de falante com áudios de curta duração. 2022. 74 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2022.
url http://repositorio.bc.ufg.br/tede/handle/tede/12072
dc.language.iso.fl_str_mv por
language por
dc.relation.program.fl_str_mv 20
dc.relation.confidence.fl_str_mv 500
500
500
500
dc.relation.department.fl_str_mv 26
dc.relation.cnpq.fl_str_mv 184
dc.relation.sponsorship.fl_str_mv 2
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Goiás
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Ciência da Computação (INF)
dc.publisher.initials.fl_str_mv UFG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto de Informática - INF (RG)
publisher.none.fl_str_mv Universidade Federal de Goiás
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFG
instname:Universidade Federal de Goiás (UFG)
instacron:UFG
instname_str Universidade Federal de Goiás (UFG)
instacron_str UFG
institution UFG
reponame_str Repositório Institucional da UFG
collection Repositório Institucional da UFG
bitstream.url.fl_str_mv http://repositorio.bc.ufg.br/tede/bitstreams/d6e5f6cc-2058-48f4-a2d1-dc284a53fdb9/download
http://repositorio.bc.ufg.br/tede/bitstreams/dcefa83a-bf5a-4f22-a142-fc64a0ba7e99/download
http://repositorio.bc.ufg.br/tede/bitstreams/4ffba62e-d1d0-4b05-8a6d-34b1e70e4477/download
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
4460e5956bc1d1639be9ae6146a50347
46d2727ec8f26525e7ad692e4c10727d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)
repository.mail.fl_str_mv grt.bc@ufg.br
_version_ 1861293847858905088