Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI).
| Ano de defesa: | 1998 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/3/3142/tde-08102024-151732/ |
Resumo: | As Redes Neurais Artificiais- RNAs- aplicadas ao Reconhecimento Automático do Locutor- RAL- são objeto de constante pesquisa na atualidade. Neste trabalho é avaliado o potencial de aplicação da rede neural do tipo Radial Basis Function- RBF- como classificador na tarefa de reconhecimento do locutor. Após uma exposição de tópicos considerados importantes para o entendimento do RAL e das RNAs, é definida a configuração do reconhecedor que utiliza como características extraídas das locuções, os coeficientes Mel-Cepstrais. Uma nova forma de organização dos segmentos temporais do sinal de voz denominada de Minimal Temporal Information- MTI - é definida e utilizada para a montagem dos padrões apresentados para o classificador. Para a realização dos testes são utilizadas duas bases de dados distintas, contendo frases foneticamente balanceadas e formadas por dezesseis e dez locutores respectivamente. Uma rede neural do tipo perceptron multicamada (MLP) é utilizada como classificador clássico para a comparação dos resultados obtidos com a RBF nas tarefas de reconhecimento do locutor de forma dependente e independente do texto. A viabilidade da RBF como classificador foi constatada e os resultados obtidos apontam como vantagens o menor tempo gasto para o treinamento e menor complexidade da rede, quando comparada com o método clássico. A utilização das MTIs em conjunto com a RBF proporcionou umamelhoria nas taxas de acerto do reconhecedor e na capacidade de discriminação, tornando-as promissoras como representações temporais dos locutores. |
| id |
USP_dec078cea9bb86dcbc51bbd7121dfe20 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-08102024-151732 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI).Untitled in englishArtificial neural networks (Applications)Automatic speaker recognitionReconhecimento automático do locutorRedes neurais artificiais (Aplicações)As Redes Neurais Artificiais- RNAs- aplicadas ao Reconhecimento Automático do Locutor- RAL- são objeto de constante pesquisa na atualidade. Neste trabalho é avaliado o potencial de aplicação da rede neural do tipo Radial Basis Function- RBF- como classificador na tarefa de reconhecimento do locutor. Após uma exposição de tópicos considerados importantes para o entendimento do RAL e das RNAs, é definida a configuração do reconhecedor que utiliza como características extraídas das locuções, os coeficientes Mel-Cepstrais. Uma nova forma de organização dos segmentos temporais do sinal de voz denominada de Minimal Temporal Information- MTI - é definida e utilizada para a montagem dos padrões apresentados para o classificador. Para a realização dos testes são utilizadas duas bases de dados distintas, contendo frases foneticamente balanceadas e formadas por dezesseis e dez locutores respectivamente. Uma rede neural do tipo perceptron multicamada (MLP) é utilizada como classificador clássico para a comparação dos resultados obtidos com a RBF nas tarefas de reconhecimento do locutor de forma dependente e independente do texto. A viabilidade da RBF como classificador foi constatada e os resultados obtidos apontam como vantagens o menor tempo gasto para o treinamento e menor complexidade da rede, quando comparada com o método clássico. A utilização das MTIs em conjunto com a RBF proporcionou umamelhoria nas taxas de acerto do reconhecedor e na capacidade de discriminação, tornando-as promissoras como representações temporais dos locutores.Nowadays Artificial Neural Networks ANN applied to Automatic Speaker Recognition task ASR have received a lot of attention from researchers. This work aims to verify the capabilities of the Radial Basis Function neural network when applied as a classifier to the speaker recognition task. After a description of the ASR and ANN fundamentals, a speaker recognition system is defined using the Mel-Frequency Cepstral Coefficients to represent the speech segments. The Minimal Temporal Information MTI is defined as a novel way to organize the speech segments in order to be presented to the ANN classifier. Text dependent and text independent tests are performed using two different data bases with sixteen and ten speakers. A multilayer perceptron is used as a classical method in order to compare the results obtained with de RBF. The use of RBF neural networks as classifiers in ASR has been found promising. The main advantages of the RBF are the short training time required and the reduced network complexity. The use of MTI strategy to organize the speech segments improved the recognition rate and discrimination capability of the RBF, indicating that the MTI representation is useful and deserves further investigations.Biblioteca Digitais de Teses e Dissertações da USPCabral Junior, Euvaldo FerreiraTimoszczuk, Antonio Pedro1998-03-16info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-08102024-151732/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-08T18:24:02Zoai:teses.usp.br:tde-08102024-151732Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-08T18:24:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI). Untitled in english |
| title |
Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI). |
| spellingShingle |
Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI). Timoszczuk, Antonio Pedro Artificial neural networks (Applications) Automatic speaker recognition Reconhecimento automático do locutor Redes neurais artificiais (Aplicações) |
| title_short |
Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI). |
| title_full |
Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI). |
| title_fullStr |
Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI). |
| title_full_unstemmed |
Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI). |
| title_sort |
Reconhecimento automático do locutor com redes neurais artificiais do tipo Radial Basis Function (RBF) e Minimal Temporal Information (MTI). |
| author |
Timoszczuk, Antonio Pedro |
| author_facet |
Timoszczuk, Antonio Pedro |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Cabral Junior, Euvaldo Ferreira |
| dc.contributor.author.fl_str_mv |
Timoszczuk, Antonio Pedro |
| dc.subject.por.fl_str_mv |
Artificial neural networks (Applications) Automatic speaker recognition Reconhecimento automático do locutor Redes neurais artificiais (Aplicações) |
| topic |
Artificial neural networks (Applications) Automatic speaker recognition Reconhecimento automático do locutor Redes neurais artificiais (Aplicações) |
| description |
As Redes Neurais Artificiais- RNAs- aplicadas ao Reconhecimento Automático do Locutor- RAL- são objeto de constante pesquisa na atualidade. Neste trabalho é avaliado o potencial de aplicação da rede neural do tipo Radial Basis Function- RBF- como classificador na tarefa de reconhecimento do locutor. Após uma exposição de tópicos considerados importantes para o entendimento do RAL e das RNAs, é definida a configuração do reconhecedor que utiliza como características extraídas das locuções, os coeficientes Mel-Cepstrais. Uma nova forma de organização dos segmentos temporais do sinal de voz denominada de Minimal Temporal Information- MTI - é definida e utilizada para a montagem dos padrões apresentados para o classificador. Para a realização dos testes são utilizadas duas bases de dados distintas, contendo frases foneticamente balanceadas e formadas por dezesseis e dez locutores respectivamente. Uma rede neural do tipo perceptron multicamada (MLP) é utilizada como classificador clássico para a comparação dos resultados obtidos com a RBF nas tarefas de reconhecimento do locutor de forma dependente e independente do texto. A viabilidade da RBF como classificador foi constatada e os resultados obtidos apontam como vantagens o menor tempo gasto para o treinamento e menor complexidade da rede, quando comparada com o método clássico. A utilização das MTIs em conjunto com a RBF proporcionou umamelhoria nas taxas de acerto do reconhecedor e na capacidade de discriminação, tornando-as promissoras como representações temporais dos locutores. |
| publishDate |
1998 |
| dc.date.none.fl_str_mv |
1998-03-16 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-08102024-151732/ |
| url |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-08102024-151732/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1818279181250723840 |