Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina

Vieira, Patrícia Gabriel

Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina

Detalhes bibliográficos
Ano de defesa:	2021
Autor(a) principal:	Vieira, Patrícia Gabriel
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Reconhecimento de locutor Análise multifractal Wavelet Speaker recognition Multifractal analysis
Link de acesso:	http://hdl.handle.net/11449/215776
Resumo:	Este trabalho apresenta uma metodologia para identificação de locutores baseada na inserção de um novo atributo de áudio, denominado Média Máxima dos Líderes Wavelet (Maximum Mean Wavelet Leaders – MMWL), extraídos e concatenados com os Coeficientes Mel-Cepstrais (Mel-Frequency Cepstrum Coefficients – MFCC) em modelos de aprendizado de máquina. A extração de características dos sinais de voz é fundamental para o reconhecimento de locutor, tanto para a identificação, como para a verificação. Independentemente da aplicação, é essencial ter um sistema que seja capaz de reunir, distinguir e classificar características extraídas dos sinais de voz com alta taxa de acurácia. Neste sentido, o principal objetivo deste trabalho é propor uma metodologia usando atributos confiáveis de sinais de voz para a identificação. A base do trabalho é a extração dos atributos da MMWL aliada a um processo de aprendizado de máquina. Os resultados indicam que a inserção da MMWL destaca características multifractais dos sinais de voz, aumenta a precisão dos modelos baseados nos MFCC e melhora o percentual de confiança na identificação de locutores. Para validar o método proposto, um estudo detalhado é realizado envolvendo atributos clássicos de sinais de voz para comparação com os resultados obtidos usando MMWL Espectral + MFCC.

Metadados do item

id	UNSP_61dd2f9e20052705c0de0becd680e292
oai_identifier_str	oai:repositorio.unesp.br:11449/215776
network_acronym_str	UNSP
network_name_str	Repositório Institucional da UNESP
repository_id_str
spelling	Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquinaIdentification of persons using wavelet leaders attributes extracted from speech signals in machine learning modelsReconhecimento de locutorAnálise multifractalWaveletSpeaker recognitionMultifractal analysisEste trabalho apresenta uma metodologia para identificação de locutores baseada na inserção de um novo atributo de áudio, denominado Média Máxima dos Líderes Wavelet (Maximum Mean Wavelet Leaders – MMWL), extraídos e concatenados com os Coeficientes Mel-Cepstrais (Mel-Frequency Cepstrum Coefficients – MFCC) em modelos de aprendizado de máquina. A extração de características dos sinais de voz é fundamental para o reconhecimento de locutor, tanto para a identificação, como para a verificação. Independentemente da aplicação, é essencial ter um sistema que seja capaz de reunir, distinguir e classificar características extraídas dos sinais de voz com alta taxa de acurácia. Neste sentido, o principal objetivo deste trabalho é propor uma metodologia usando atributos confiáveis de sinais de voz para a identificação. A base do trabalho é a extração dos atributos da MMWL aliada a um processo de aprendizado de máquina. Os resultados indicam que a inserção da MMWL destaca características multifractais dos sinais de voz, aumenta a precisão dos modelos baseados nos MFCC e melhora o percentual de confiança na identificação de locutores. Para validar o método proposto, um estudo detalhado é realizado envolvendo atributos clássicos de sinais de voz para comparação com os resultados obtidos usando MMWL Espectral + MFCC.This work presents a methodology for speaker identification based on the insertion of a new audio attribute, called Maximum Mean Wavelet Leaders (MMWL), extracted and concatenated with Mel-Frequency Cepstrum Coefficients (MFCC) in machine learning models. Feature extraction from speech signals is crucial for speaker recognition, both for identification and verification. Regardless of the application, a speaker identification system must be able to gather, distinguish and classify features extracted from speech signals with a high accuracy rate. Therefore, the main objective of this work is to propose a methodology using reliable attributes of speech signals for identification. The basis of the work is the extraction of MMWL attributes associated to a machine learning process. The results indicate that the insertion of MMWL highlights multifractal features of speech signals, increases the accuracy of MFCC-based models, and improves the percentage of confidence in speaker identification. To validate the proposed method, a detailed study is conducted involving classical attributes of speech signals for comparison with the results obtained using Spectral MMWL + MFCC.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: 001Universidade Estadual Paulista (Unesp)Vieira Filho, Jozue [UNESP]Universidade Estadual Paulista (Unesp)Vieira, Patrícia Gabriel2022-01-07T13:39:38Z2022-01-07T13:39:38Z2021-09-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://hdl.handle.net/11449/21577633004099080P0porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-08-05T17:58:11Zoai:repositorio.unesp.br:11449/215776Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462024-08-05T17:58:11Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv	Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina Identification of persons using wavelet leaders attributes extracted from speech signals in machine learning models
title	Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina
spellingShingle	Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina Vieira, Patrícia Gabriel Reconhecimento de locutor Análise multifractal Wavelet Speaker recognition Multifractal analysis
title_short	Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina
title_full	Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina
title_fullStr	Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina
title_full_unstemmed	Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina
title_sort	Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina
author	Vieira, Patrícia Gabriel
author_facet	Vieira, Patrícia Gabriel
author_role	author
dc.contributor.none.fl_str_mv	Vieira Filho, Jozue [UNESP] Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv	Vieira, Patrícia Gabriel
dc.subject.por.fl_str_mv	Reconhecimento de locutor Análise multifractal Wavelet Speaker recognition Multifractal analysis
topic	Reconhecimento de locutor Análise multifractal Wavelet Speaker recognition Multifractal analysis
description	Este trabalho apresenta uma metodologia para identificação de locutores baseada na inserção de um novo atributo de áudio, denominado Média Máxima dos Líderes Wavelet (Maximum Mean Wavelet Leaders – MMWL), extraídos e concatenados com os Coeficientes Mel-Cepstrais (Mel-Frequency Cepstrum Coefficients – MFCC) em modelos de aprendizado de máquina. A extração de características dos sinais de voz é fundamental para o reconhecimento de locutor, tanto para a identificação, como para a verificação. Independentemente da aplicação, é essencial ter um sistema que seja capaz de reunir, distinguir e classificar características extraídas dos sinais de voz com alta taxa de acurácia. Neste sentido, o principal objetivo deste trabalho é propor uma metodologia usando atributos confiáveis de sinais de voz para a identificação. A base do trabalho é a extração dos atributos da MMWL aliada a um processo de aprendizado de máquina. Os resultados indicam que a inserção da MMWL destaca características multifractais dos sinais de voz, aumenta a precisão dos modelos baseados nos MFCC e melhora o percentual de confiança na identificação de locutores. Para validar o método proposto, um estudo detalhado é realizado envolvendo atributos clássicos de sinais de voz para comparação com os resultados obtidos usando MMWL Espectral + MFCC.
publishDate	2021
dc.date.none.fl_str_mv	2021-09-09 2022-01-07T13:39:38Z 2022-01-07T13:39:38Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/11449/215776 33004099080P0
url	http://hdl.handle.net/11449/215776
identifier_str_mv	33004099080P0
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP
instname_str	Universidade Estadual Paulista (UNESP)
instacron_str	UNESP
institution	UNESP
reponame_str	Repositório Institucional da UNESP
collection	Repositório Institucional da UNESP
repository.name.fl_str_mv	Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv	repositoriounesp@unesp.br
_version_	1854954701060046848

Identificação de pessoas utilizando atributos de líderes wavelet extraídos dos sinais de voz em modelos de aprendizado de máquina

Registros relacionados