Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI).

Detalhes bibliográficos
Ano de defesa: 1998
Autor(a) principal: Timoszczuk, Antonio Pedro
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-08102024-151732/
Resumo: As Redes Neurais Artificiais- RNAs- aplicadas ao Reconhecimento Automático do Locutor- RAL- são objeto de constante pesquisa na atualidade. Neste trabalho é avaliado o potencial de aplicação da rede neural do tipo Radial Basis Function- RBF- como classificador na tarefa de reconhecimento do locutor. Após uma exposição de tópicos considerados importantes para o entendimento do RAL e das RNAs, é definida a configuração do reconhecedor que utiliza como características extraídas das locuções, os coeficientes Mel-Cepstrais. Uma nova forma de organização dos segmentos temporais do sinal de voz denominada de Minimal Temporal Information- MTI - é definida e utilizada para a montagem dos padrões apresentados para o classificador. Para a realização dos testes são utilizadas duas bases de dados distintas, contendo frases foneticamente balanceadas e formadas por dezesseis e dez locutores respectivamente. Uma rede neural do tipo perceptron multicamada (MLP) é utilizada como classificador clássico para a comparação dos resultados obtidos com a RBF nas tarefas de reconhecimento do locutor de forma dependente e independente do texto. A viabilidade da RBF como classificador foi constatada e os resultados obtidos apontam como vantagens o menor tempo gasto para o treinamento e menor complexidade da rede, quando comparada com o método clássico. A utilização das MTIs em conjunto com a RBF proporcionou umamelhoria nas taxas de acerto do reconhecedor e na capacidade de discriminação, tornando-as promissoras como representações temporais dos locutores.
id USP_dec078cea9bb86dcbc51bbd7121dfe20
oai_identifier_str oai:teses.usp.br:tde-08102024-151732
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI).Untitled in englishArtificial neural networks (Applications)Automatic speaker recognitionReconhecimento automático do locutorRedes neurais artificiais (Aplicações)As Redes Neurais Artificiais- RNAs- aplicadas ao Reconhecimento Automático do Locutor- RAL- são objeto de constante pesquisa na atualidade. Neste trabalho é avaliado o potencial de aplicação da rede neural do tipo Radial Basis Function- RBF- como classificador na tarefa de reconhecimento do locutor. Após uma exposição de tópicos considerados importantes para o entendimento do RAL e das RNAs, é definida a configuração do reconhecedor que utiliza como características extraídas das locuções, os coeficientes Mel-Cepstrais. Uma nova forma de organização dos segmentos temporais do sinal de voz denominada de Minimal Temporal Information- MTI - é definida e utilizada para a montagem dos padrões apresentados para o classificador. Para a realização dos testes são utilizadas duas bases de dados distintas, contendo frases foneticamente balanceadas e formadas por dezesseis e dez locutores respectivamente. Uma rede neural do tipo perceptron multicamada (MLP) é utilizada como classificador clássico para a comparação dos resultados obtidos com a RBF nas tarefas de reconhecimento do locutor de forma dependente e independente do texto. A viabilidade da RBF como classificador foi constatada e os resultados obtidos apontam como vantagens o menor tempo gasto para o treinamento e menor complexidade da rede, quando comparada com o método clássico. A utilização das MTIs em conjunto com a RBF proporcionou umamelhoria nas taxas de acerto do reconhecedor e na capacidade de discriminação, tornando-as promissoras como representações temporais dos locutores.Nowadays Artificial Neural Networks ANN applied to Automatic Speaker Recognition task ASR have received a lot of attention from researchers. This work aims to verify the capabilities of the Radial Basis Function neural network when applied as a classifier to the speaker recognition task. After a description of the ASR and ANN fundamentals, a speaker recognition system is defined using the Mel-Frequency Cepstral Coefficients to represent the speech segments. The Minimal Temporal Information MTI is defined as a novel way to organize the speech segments in order to be presented to the ANN classifier. Text dependent and text independent tests are performed using two different data bases with sixteen and ten speakers. A multilayer perceptron is used as a classical method in order to compare the results obtained with de RBF. The use of RBF neural networks as classifiers in ASR has been found promising. The main advantages of the RBF are the short training time required and the reduced network complexity. The use of MTI strategy to organize the speech segments improved the recognition rate and discrimination capability of the RBF, indicating that the MTI representation is useful and deserves further investigations.Biblioteca Digitais de Teses e Dissertações da USPCabral Junior, Euvaldo FerreiraTimoszczuk, Antonio Pedro1998-03-16info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-08102024-151732/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-08T18:24:02Zoai:teses.usp.br:tde-08102024-151732Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-08T18:24:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI).
Untitled in english
title Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI).
spellingShingle Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI).
Timoszczuk, Antonio Pedro
Artificial neural networks (Applications)
Automatic speaker recognition
Reconhecimento automático do locutor
Redes neurais artificiais (Aplicações)
title_short Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI).
title_full Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI).
title_fullStr Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI).
title_full_unstemmed Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI).
title_sort Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI).
author Timoszczuk, Antonio Pedro
author_facet Timoszczuk, Antonio Pedro
author_role author
dc.contributor.none.fl_str_mv Cabral Junior, Euvaldo Ferreira
dc.contributor.author.fl_str_mv Timoszczuk, Antonio Pedro
dc.subject.por.fl_str_mv Artificial neural networks (Applications)
Automatic speaker recognition
Reconhecimento automático do locutor
Redes neurais artificiais (Aplicações)
topic Artificial neural networks (Applications)
Automatic speaker recognition
Reconhecimento automático do locutor
Redes neurais artificiais (Aplicações)
description As Redes Neurais Artificiais- RNAs- aplicadas ao Reconhecimento Automático do Locutor- RAL- são objeto de constante pesquisa na atualidade. Neste trabalho é avaliado o potencial de aplicação da rede neural do tipo Radial Basis Function- RBF- como classificador na tarefa de reconhecimento do locutor. Após uma exposição de tópicos considerados importantes para o entendimento do RAL e das RNAs, é definida a configuração do reconhecedor que utiliza como características extraídas das locuções, os coeficientes Mel-Cepstrais. Uma nova forma de organização dos segmentos temporais do sinal de voz denominada de Minimal Temporal Information- MTI - é definida e utilizada para a montagem dos padrões apresentados para o classificador. Para a realização dos testes são utilizadas duas bases de dados distintas, contendo frases foneticamente balanceadas e formadas por dezesseis e dez locutores respectivamente. Uma rede neural do tipo perceptron multicamada (MLP) é utilizada como classificador clássico para a comparação dos resultados obtidos com a RBF nas tarefas de reconhecimento do locutor de forma dependente e independente do texto. A viabilidade da RBF como classificador foi constatada e os resultados obtidos apontam como vantagens o menor tempo gasto para o treinamento e menor complexidade da rede, quando comparada com o método clássico. A utilização das MTIs em conjunto com a RBF proporcionou umamelhoria nas taxas de acerto do reconhecedor e na capacidade de discriminação, tornando-as promissoras como representações temporais dos locutores.
publishDate 1998
dc.date.none.fl_str_mv 1998-03-16
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/3/3142/tde-08102024-151732/
url https://www.teses.usp.br/teses/disponiveis/3/3142/tde-08102024-151732/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1818279181250723840