Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Vieira, Patrícia Gabriel
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/11449/215776
Resumo: Este trabalho apresenta uma metodologia para identificação de locutores baseada na inserção de um novo atributo de áudio, denominado Média Máxima dos Líderes Wavelet (Maximum Mean Wavelet Leaders – MMWL), extraídos e concatenados com os Coeficientes Mel-Cepstrais (Mel-Frequency Cepstrum Coefficients – MFCC) em modelos de aprendizado de máquina. A extração de características dos sinais de voz é fundamental para o reconhecimento de locutor, tanto para a identificação, como para a verificação. Independentemente da aplicação, é essencial ter um sistema que seja capaz de reunir, distinguir e classificar características extraídas dos sinais de voz com alta taxa de acurácia. Neste sentido, o principal objetivo deste trabalho é propor uma metodologia usando atributos confiáveis de sinais de voz para a identificação. A base do trabalho é a extração dos atributos da MMWL aliada a um processo de aprendizado de máquina. Os resultados indicam que a inserção da MMWL destaca características multifractais dos sinais de voz, aumenta a precisão dos modelos baseados nos MFCC e melhora o percentual de confiança na identificação de locutores. Para validar o método proposto, um estudo detalhado é realizado envolvendo atributos clássicos de sinais de voz para comparação com os resultados obtidos usando MMWL Espectral + MFCC.
id UNSP_61dd2f9e20052705c0de0becd680e292
oai_identifier_str oai:repositorio.unesp.br:11449/215776
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str
spelling Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquinaIdentification of persons using wavelet leaders attributes extracted from speech signals in machine learning modelsReconhecimento de locutorAnálise multifractalWaveletSpeaker recognitionMultifractal analysisEste trabalho apresenta uma metodologia para identificação de locutores baseada na inserção de um novo atributo de áudio, denominado Média Máxima dos Líderes Wavelet (Maximum Mean Wavelet Leaders – MMWL), extraídos e concatenados com os Coeficientes Mel-Cepstrais (Mel-Frequency Cepstrum Coefficients – MFCC) em modelos de aprendizado de máquina. A extração de características dos sinais de voz é fundamental para o reconhecimento de locutor, tanto para a identificação, como para a verificação. Independentemente da aplicação, é essencial ter um sistema que seja capaz de reunir, distinguir e classificar características extraídas dos sinais de voz com alta taxa de acurácia. Neste sentido, o principal objetivo deste trabalho é propor uma metodologia usando atributos confiáveis de sinais de voz para a identificação. A base do trabalho é a extração dos atributos da MMWL aliada a um processo de aprendizado de máquina. Os resultados indicam que a inserção da MMWL destaca características multifractais dos sinais de voz, aumenta a precisão dos modelos baseados nos MFCC e melhora o percentual de confiança na identificação de locutores. Para validar o método proposto, um estudo detalhado é realizado envolvendo atributos clássicos de sinais de voz para comparação com os resultados obtidos usando MMWL Espectral + MFCC.This work presents a methodology for speaker identification based on the insertion of a new audio attribute, called Maximum Mean Wavelet Leaders (MMWL), extracted and concatenated with Mel-Frequency Cepstrum Coefficients (MFCC) in machine learning models. Feature extraction from speech signals is crucial for speaker recognition, both for identification and verification. Regardless of the application, a speaker identification system must be able to gather, distinguish and classify features extracted from speech signals with a high accuracy rate. Therefore, the main objective of this work is to propose a methodology using reliable attributes of speech signals for identification. The basis of the work is the extraction of MMWL attributes associated to a machine learning process. The results indicate that the insertion of MMWL highlights multifractal features of speech signals, increases the accuracy of MFCC-based models, and improves the percentage of confidence in speaker identification. To validate the proposed method, a detailed study is conducted involving classical attributes of speech signals for comparison with the results obtained using Spectral MMWL + MFCC.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: 001Universidade Estadual Paulista (Unesp)Vieira Filho, Jozue [UNESP]Universidade Estadual Paulista (Unesp)Vieira, Patrícia Gabriel2022-01-07T13:39:38Z2022-01-07T13:39:38Z2021-09-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://hdl.handle.net/11449/21577633004099080P0porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-08-05T17:58:11Zoai:repositorio.unesp.br:11449/215776Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462024-08-05T17:58:11Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina
Identification of persons using wavelet leaders attributes extracted from speech signals in machine learning models
title Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina
spellingShingle Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina
Vieira, Patrícia Gabriel
Reconhecimento de locutor
Análise multifractal
Wavelet
Speaker recognition
Multifractal analysis
title_short Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina
title_full Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina
title_fullStr Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina
title_full_unstemmed Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina
title_sort Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina
author Vieira, Patrícia Gabriel
author_facet Vieira, Patrícia Gabriel
author_role author
dc.contributor.none.fl_str_mv Vieira Filho, Jozue [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Vieira, Patrícia Gabriel
dc.subject.por.fl_str_mv Reconhecimento de locutor
Análise multifractal
Wavelet
Speaker recognition
Multifractal analysis
topic Reconhecimento de locutor
Análise multifractal
Wavelet
Speaker recognition
Multifractal analysis
description Este trabalho apresenta uma metodologia para identificação de locutores baseada na inserção de um novo atributo de áudio, denominado Média Máxima dos Líderes Wavelet (Maximum Mean Wavelet Leaders – MMWL), extraídos e concatenados com os Coeficientes Mel-Cepstrais (Mel-Frequency Cepstrum Coefficients – MFCC) em modelos de aprendizado de máquina. A extração de características dos sinais de voz é fundamental para o reconhecimento de locutor, tanto para a identificação, como para a verificação. Independentemente da aplicação, é essencial ter um sistema que seja capaz de reunir, distinguir e classificar características extraídas dos sinais de voz com alta taxa de acurácia. Neste sentido, o principal objetivo deste trabalho é propor uma metodologia usando atributos confiáveis de sinais de voz para a identificação. A base do trabalho é a extração dos atributos da MMWL aliada a um processo de aprendizado de máquina. Os resultados indicam que a inserção da MMWL destaca características multifractais dos sinais de voz, aumenta a precisão dos modelos baseados nos MFCC e melhora o percentual de confiança na identificação de locutores. Para validar o método proposto, um estudo detalhado é realizado envolvendo atributos clássicos de sinais de voz para comparação com os resultados obtidos usando MMWL Espectral + MFCC.
publishDate 2021
dc.date.none.fl_str_mv 2021-09-09
2022-01-07T13:39:38Z
2022-01-07T13:39:38Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/215776
33004099080P0
url http://hdl.handle.net/11449/215776
identifier_str_mv 33004099080P0
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv repositoriounesp@unesp.br
_version_ 1854954701060046848