Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.

Detalhes bibliográficos
Ano de defesa: 2016
Autor(a) principal: Cardona, Diana Alejandra Bonilla
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade do Estado do Rio de Janeiro
Centro de Tecnologia e Ciências::Faculdade de Engenharia
BR
UERJ
Programa de Pós-Graduação em Engenharia Eletrônica
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.bdtd.uerj.br/handle/1/11840
Resumo: Os sistemas de reconhecimento automático de fala para a detecção de fonemas proporcionam vantagens para o reconhecimento online de fala representada por um sinal de som. Os estudos na área de inteligência computacional tem permitido associar as vantagens do processamento paralelo de informação à distribuição da carga computacional visando simplificar o uso de modelos complexos de sistemas. O desenvolvimento de um sistema de reconhecimento automático de fala envolve vários processos que abrangem várias áreas da pesquisa, tais como a linguística, o processamento de sinais e a inteligência computacional. Nesta dissertação, o processo inicia-se com o pré-processamento do sinal de fala fornecido na entrada do sistema, visando extrair e representar de modo mais sucinto as características principais relacionadas ao sinal em um dado instante de tempo. Inspirado pelo preceito que recomenda "dividir para conquistar", um modelo de composição de redes neurais especialistas é explorado, permitindo dividir o espaço de decisão do problema complexo de reconhecimento de fala para que cada especialista cuide somente de uma área bem delimitada deste espaço de decisão. Vale ressaltar que cada especialista incluído no modelo composto precisa tratar e tomar uma decisão a respeito de cada uma das amostras pré-processadas. O conjunto de decisões assim obtidas pelos especialistas são ponderadas. Desse modo, o sistema especialista que estiver com maior peso na saída acaba determinando o resultado final da classificação a respeito da amostra considerada. Em seguida, uma etapa de pós-processamento dinâmico, implementado através de uma rede recorrente é realizada. Esta permite mitigar os efeitos de oscilação que ocorre durante o reconhecimento de classes com características semelhantes. Nesta dissertação são investigados dois modelos de composição de especialistas. O primeiro é baseado no agrupamento de classes associadas a fonéticas semelhantes enquanto o segundo leva em conta a distribuição desequilibrada das amostras apresentadas nos dados de treinamento. A comparação do modelo proposto nesta dissertação com os trabalhos relacionados ao reconhecimento automático de fala indica um ganho de 7,62% em termos de acurácia.
id UERJ_50990f2aa3e8156eb6eae56af2d2108d
oai_identifier_str oai:www.bdtd.uerj.br:1/11840
network_acronym_str UERJ
network_name_str Biblioteca Digital de Teses e Dissertações da UERJ
repository_id_str
spelling Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.Automatic Speech Recognition of Phonemes in Portuguese Using Mixtures of Neural Networks Experts.Automatic speech recognitionPhonetic recognitionArtificial neural networksMixture of expertsRecorrent neural networksEngenharia eletrônicaReconhecimento automático de falaReconhecimento fonéticoRedes neurais artificiaisComposição de especialistasRedes neurais recorrentesReconhecimento automático da vozCNPQ::ENGENHARIASOs sistemas de reconhecimento automático de fala para a detecção de fonemas proporcionam vantagens para o reconhecimento online de fala representada por um sinal de som. Os estudos na área de inteligência computacional tem permitido associar as vantagens do processamento paralelo de informação à distribuição da carga computacional visando simplificar o uso de modelos complexos de sistemas. O desenvolvimento de um sistema de reconhecimento automático de fala envolve vários processos que abrangem várias áreas da pesquisa, tais como a linguística, o processamento de sinais e a inteligência computacional. Nesta dissertação, o processo inicia-se com o pré-processamento do sinal de fala fornecido na entrada do sistema, visando extrair e representar de modo mais sucinto as características principais relacionadas ao sinal em um dado instante de tempo. Inspirado pelo preceito que recomenda "dividir para conquistar", um modelo de composição de redes neurais especialistas é explorado, permitindo dividir o espaço de decisão do problema complexo de reconhecimento de fala para que cada especialista cuide somente de uma área bem delimitada deste espaço de decisão. Vale ressaltar que cada especialista incluído no modelo composto precisa tratar e tomar uma decisão a respeito de cada uma das amostras pré-processadas. O conjunto de decisões assim obtidas pelos especialistas são ponderadas. Desse modo, o sistema especialista que estiver com maior peso na saída acaba determinando o resultado final da classificação a respeito da amostra considerada. Em seguida, uma etapa de pós-processamento dinâmico, implementado através de uma rede recorrente é realizada. Esta permite mitigar os efeitos de oscilação que ocorre durante o reconhecimento de classes com características semelhantes. Nesta dissertação são investigados dois modelos de composição de especialistas. O primeiro é baseado no agrupamento de classes associadas a fonéticas semelhantes enquanto o segundo leva em conta a distribuição desequilibrada das amostras apresentadas nos dados de treinamento. A comparação do modelo proposto nesta dissertação com os trabalhos relacionados ao reconhecimento automático de fala indica um ganho de 7,62% em termos de acurácia.The automatic speech recognition based on detection of phonemes provides advantages for online recognition of a speech represented by a sound signal. Studies in computational intelligence have allowed associating the advantages of information parallel processing to the computational workload distribution, aiming at simplifying the use of complex models. The development of a system for automatic speech recognition involves various processes, covering several areas of research, such as linguistics, signal processing and computational intelligence. In this dissertation, the process starts with a speech signal pre-processing to extract and represent more succinctly, the main characteristics of the speech signal at a given instant of time. Inspired by the principle that recommends to "divide and conquer", a model of mixture of neural network experts is explored, allowing to divide the decision space of the complex problem of speech recognition so that each expert takes care only of a delimited area of this decision space. It is noteworthy to point out that each expert included in the composed model takes handles in the decision regarding each one of the preprocessed input sample. This set of decisions thus obtained is weighted. So, the expert system with the highest weight for the output will determine the final classification of the considered sample. After that, a dynamic post-processing step, implemented as a recurrent network, is executed. It aims at mitigating the oscillatory effect that occurs during the recognition of classes with similar characteristics. In this dissertation, two models of mixture of experts are investigated. The first is based on the grouping of similar phonetics classes while the second considers the imbalanced distribution of samples in the training set. The comparison of the model proposed in this dissertation with the work related to automatic speech recognition indicates a gain of 7.62% in terms of accuracy.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade do Estado do Rio de JaneiroCentro de Tecnologia e Ciências::Faculdade de EngenhariaBRUERJPrograma de Pós-Graduação em Engenharia EletrônicaNedjah, Nadiahttp://lattes.cnpq.br/5417946704251656Mourelle, Luiza de Macedohttp://lattes.cnpq.br/4189604454431782Flauzino, Rogério Andradehttp://lattes.cnpq.br/4487681434814567Gomes, José Gabriel Rodriguez Carneirohttp://lattes.cnpq.br/0167354254513842Szwarcfiter, Jayme Luizhttp://lattes.cnpq.br/2002515486942024Cardona, Diana Alejandra Bonilla2021-01-06T19:19:12Z2016-09-262016-08-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfCARDONA, Diana Alejandra Bonilla. Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.. 2016. 156 f. Dissertação (Mestrado em Redes de Telecomunicações; Sistemas Inteligentes e Automação) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2016.http://www.bdtd.uerj.br/handle/1/11840porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UERJinstname:Universidade do Estado do Rio de Janeiro (UERJ)instacron:UERJ2024-02-27T18:16:52Zoai:www.bdtd.uerj.br:1/11840Biblioteca Digital de Teses e Dissertaçõeshttp://www.bdtd.uerj.br/PUBhttps://www.bdtd.uerj.br:8443/oai/requestbdtd.suporte@uerj.bropendoar:29032024-02-27T18:16:52Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ)false
dc.title.none.fl_str_mv Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.
Automatic Speech Recognition of Phonemes in Portuguese Using Mixtures of Neural Networks Experts.
title Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.
spellingShingle Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.
Cardona, Diana Alejandra Bonilla
Automatic speech recognition
Phonetic recognition
Artificial neural networks
Mixture of experts
Recorrent neural networks
Engenharia eletrônica
Reconhecimento automático de fala
Reconhecimento fonético
Redes neurais artificiais
Composição de especialistas
Redes neurais recorrentes
Reconhecimento automático da voz
CNPQ::ENGENHARIAS
title_short Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.
title_full Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.
title_fullStr Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.
title_full_unstemmed Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.
title_sort Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.
author Cardona, Diana Alejandra Bonilla
author_facet Cardona, Diana Alejandra Bonilla
author_role author
dc.contributor.none.fl_str_mv Nedjah, Nadia
http://lattes.cnpq.br/5417946704251656
Mourelle, Luiza de Macedo
http://lattes.cnpq.br/4189604454431782
Flauzino, Rogério Andrade
http://lattes.cnpq.br/4487681434814567
Gomes, José Gabriel Rodriguez Carneiro
http://lattes.cnpq.br/0167354254513842
Szwarcfiter, Jayme Luiz
http://lattes.cnpq.br/2002515486942024
dc.contributor.author.fl_str_mv Cardona, Diana Alejandra Bonilla
dc.subject.por.fl_str_mv Automatic speech recognition
Phonetic recognition
Artificial neural networks
Mixture of experts
Recorrent neural networks
Engenharia eletrônica
Reconhecimento automático de fala
Reconhecimento fonético
Redes neurais artificiais
Composição de especialistas
Redes neurais recorrentes
Reconhecimento automático da voz
CNPQ::ENGENHARIAS
topic Automatic speech recognition
Phonetic recognition
Artificial neural networks
Mixture of experts
Recorrent neural networks
Engenharia eletrônica
Reconhecimento automático de fala
Reconhecimento fonético
Redes neurais artificiais
Composição de especialistas
Redes neurais recorrentes
Reconhecimento automático da voz
CNPQ::ENGENHARIAS
description Os sistemas de reconhecimento automático de fala para a detecção de fonemas proporcionam vantagens para o reconhecimento online de fala representada por um sinal de som. Os estudos na área de inteligência computacional tem permitido associar as vantagens do processamento paralelo de informação à distribuição da carga computacional visando simplificar o uso de modelos complexos de sistemas. O desenvolvimento de um sistema de reconhecimento automático de fala envolve vários processos que abrangem várias áreas da pesquisa, tais como a linguística, o processamento de sinais e a inteligência computacional. Nesta dissertação, o processo inicia-se com o pré-processamento do sinal de fala fornecido na entrada do sistema, visando extrair e representar de modo mais sucinto as características principais relacionadas ao sinal em um dado instante de tempo. Inspirado pelo preceito que recomenda "dividir para conquistar", um modelo de composição de redes neurais especialistas é explorado, permitindo dividir o espaço de decisão do problema complexo de reconhecimento de fala para que cada especialista cuide somente de uma área bem delimitada deste espaço de decisão. Vale ressaltar que cada especialista incluído no modelo composto precisa tratar e tomar uma decisão a respeito de cada uma das amostras pré-processadas. O conjunto de decisões assim obtidas pelos especialistas são ponderadas. Desse modo, o sistema especialista que estiver com maior peso na saída acaba determinando o resultado final da classificação a respeito da amostra considerada. Em seguida, uma etapa de pós-processamento dinâmico, implementado através de uma rede recorrente é realizada. Esta permite mitigar os efeitos de oscilação que ocorre durante o reconhecimento de classes com características semelhantes. Nesta dissertação são investigados dois modelos de composição de especialistas. O primeiro é baseado no agrupamento de classes associadas a fonéticas semelhantes enquanto o segundo leva em conta a distribuição desequilibrada das amostras apresentadas nos dados de treinamento. A comparação do modelo proposto nesta dissertação com os trabalhos relacionados ao reconhecimento automático de fala indica um ganho de 7,62% em termos de acurácia.
publishDate 2016
dc.date.none.fl_str_mv 2016-09-26
2016-08-30
2021-01-06T19:19:12Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv CARDONA, Diana Alejandra Bonilla. Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.. 2016. 156 f. Dissertação (Mestrado em Redes de Telecomunicações; Sistemas Inteligentes e Automação) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2016.
http://www.bdtd.uerj.br/handle/1/11840
identifier_str_mv CARDONA, Diana Alejandra Bonilla. Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.. 2016. 156 f. Dissertação (Mestrado em Redes de Telecomunicações; Sistemas Inteligentes e Automação) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2016.
url http://www.bdtd.uerj.br/handle/1/11840
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Estado do Rio de Janeiro
Centro de Tecnologia e Ciências::Faculdade de Engenharia
BR
UERJ
Programa de Pós-Graduação em Engenharia Eletrônica
publisher.none.fl_str_mv Universidade do Estado do Rio de Janeiro
Centro de Tecnologia e Ciências::Faculdade de Engenharia
BR
UERJ
Programa de Pós-Graduação em Engenharia Eletrônica
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UERJ
instname:Universidade do Estado do Rio de Janeiro (UERJ)
instacron:UERJ
instname_str Universidade do Estado do Rio de Janeiro (UERJ)
instacron_str UERJ
institution UERJ
reponame_str Biblioteca Digital de Teses e Dissertações da UERJ
collection Biblioteca Digital de Teses e Dissertações da UERJ
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ)
repository.mail.fl_str_mv bdtd.suporte@uerj.br
_version_ 1829133602046083072