Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.

Cardona, Diana Alejandra Bonilla

Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.

Detalhes bibliográficos
Ano de defesa:	2016
Autor(a) principal:	Cardona, Diana Alejandra Bonilla
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade do Estado do Rio de Janeiro Centro de Tecnologia e Ciências::Faculdade de Engenharia BR UERJ Programa de Pós-Graduação em Engenharia Eletrônica
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Automatic speech recognition Phonetic recognition Artificial neural networks Mixture of experts Recorrent neural networks Engenharia eletrônica Reconhecimento automático de fala Reconhecimento fonético Redes neurais artificiais Composição de especialistas Redes neurais recorrentes Reconhecimento automático da voz CNPQ::ENGENHARIAS
Link de acesso:	http://www.bdtd.uerj.br/handle/1/11840
Resumo:	Os sistemas de reconhecimento automático de fala para a detecção de fonemas proporcionam vantagens para o reconhecimento online de fala representada por um sinal de som. Os estudos na área de inteligência computacional tem permitido associar as vantagens do processamento paralelo de informação à distribuição da carga computacional visando simplificar o uso de modelos complexos de sistemas. O desenvolvimento de um sistema de reconhecimento automático de fala envolve vários processos que abrangem várias áreas da pesquisa, tais como a linguística, o processamento de sinais e a inteligência computacional. Nesta dissertação, o processo inicia-se com o pré-processamento do sinal de fala fornecido na entrada do sistema, visando extrair e representar de modo mais sucinto as características principais relacionadas ao sinal em um dado instante de tempo. Inspirado pelo preceito que recomenda "dividir para conquistar", um modelo de composição de redes neurais especialistas é explorado, permitindo dividir o espaço de decisão do problema complexo de reconhecimento de fala para que cada especialista cuide somente de uma área bem delimitada deste espaço de decisão. Vale ressaltar que cada especialista incluído no modelo composto precisa tratar e tomar uma decisão a respeito de cada uma das amostras pré-processadas. O conjunto de decisões assim obtidas pelos especialistas são ponderadas. Desse modo, o sistema especialista que estiver com maior peso na saída acaba determinando o resultado final da classificação a respeito da amostra considerada. Em seguida, uma etapa de pós-processamento dinâmico, implementado através de uma rede recorrente é realizada. Esta permite mitigar os efeitos de oscilação que ocorre durante o reconhecimento de classes com características semelhantes. Nesta dissertação são investigados dois modelos de composição de especialistas. O primeiro é baseado no agrupamento de classes associadas a fonéticas semelhantes enquanto o segundo leva em conta a distribuição desequilibrada das amostras apresentadas nos dados de treinamento. A comparação do modelo proposto nesta dissertação com os trabalhos relacionados ao reconhecimento automático de fala indica um ganho de 7,62% em termos de acurácia.

Metadados do item

id	UERJ_50990f2aa3e8156eb6eae56af2d2108d
oai_identifier_str	oai:www.bdtd.uerj.br:1/11840
network_acronym_str	UERJ
network_name_str	Biblioteca Digital de Teses e Dissertações da UERJ
repository_id_str
spelling	Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.Automatic Speech Recognition of Phonemes in Portuguese Using Mixtures of Neural Networks Experts.Automatic speech recognitionPhonetic recognitionArtificial neural networksMixture of expertsRecorrent neural networksEngenharia eletrônicaReconhecimento automático de falaReconhecimento fonéticoRedes neurais artificiaisComposição de especialistasRedes neurais recorrentesReconhecimento automático da vozCNPQ::ENGENHARIASOs sistemas de reconhecimento automático de fala para a detecção de fonemas proporcionam vantagens para o reconhecimento online de fala representada por um sinal de som. Os estudos na área de inteligência computacional tem permitido associar as vantagens do processamento paralelo de informação à distribuição da carga computacional visando simplificar o uso de modelos complexos de sistemas. O desenvolvimento de um sistema de reconhecimento automático de fala envolve vários processos que abrangem várias áreas da pesquisa, tais como a linguística, o processamento de sinais e a inteligência computacional. Nesta dissertação, o processo inicia-se com o pré-processamento do sinal de fala fornecido na entrada do sistema, visando extrair e representar de modo mais sucinto as características principais relacionadas ao sinal em um dado instante de tempo. Inspirado pelo preceito que recomenda "dividir para conquistar", um modelo de composição de redes neurais especialistas é explorado, permitindo dividir o espaço de decisão do problema complexo de reconhecimento de fala para que cada especialista cuide somente de uma área bem delimitada deste espaço de decisão. Vale ressaltar que cada especialista incluído no modelo composto precisa tratar e tomar uma decisão a respeito de cada uma das amostras pré-processadas. O conjunto de decisões assim obtidas pelos especialistas são ponderadas. Desse modo, o sistema especialista que estiver com maior peso na saída acaba determinando o resultado final da classificação a respeito da amostra considerada. Em seguida, uma etapa de pós-processamento dinâmico, implementado através de uma rede recorrente é realizada. Esta permite mitigar os efeitos de oscilação que ocorre durante o reconhecimento de classes com características semelhantes. Nesta dissertação são investigados dois modelos de composição de especialistas. O primeiro é baseado no agrupamento de classes associadas a fonéticas semelhantes enquanto o segundo leva em conta a distribuição desequilibrada das amostras apresentadas nos dados de treinamento. A comparação do modelo proposto nesta dissertação com os trabalhos relacionados ao reconhecimento automático de fala indica um ganho de 7,62% em termos de acurácia.The automatic speech recognition based on detection of phonemes provides advantages for online recognition of a speech represented by a sound signal. Studies in computational intelligence have allowed associating the advantages of information parallel processing to the computational workload distribution, aiming at simplifying the use of complex models. The development of a system for automatic speech recognition involves various processes, covering several areas of research, such as linguistics, signal processing and computational intelligence. In this dissertation, the process starts with a speech signal pre-processing to extract and represent more succinctly, the main characteristics of the speech signal at a given instant of time. Inspired by the principle that recommends to "divide and conquer", a model of mixture of neural network experts is explored, allowing to divide the decision space of the complex problem of speech recognition so that each expert takes care only of a delimited area of this decision space. It is noteworthy to point out that each expert included in the composed model takes handles in the decision regarding each one of the preprocessed input sample. This set of decisions thus obtained is weighted. So, the expert system with the highest weight for the output will determine the final classification of the considered sample. After that, a dynamic post-processing step, implemented as a recurrent network, is executed. It aims at mitigating the oscillatory effect that occurs during the recognition of classes with similar characteristics. In this dissertation, two models of mixture of experts are investigated. The first is based on the grouping of similar phonetics classes while the second considers the imbalanced distribution of samples in the training set. The comparison of the model proposed in this dissertation with the work related to automatic speech recognition indicates a gain of 7.62% in terms of accuracy.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade do Estado do Rio de JaneiroCentro de Tecnologia e Ciências::Faculdade de EngenhariaBRUERJPrograma de Pós-Graduação em Engenharia EletrônicaNedjah, Nadiahttp://lattes.cnpq.br/5417946704251656Mourelle, Luiza de Macedohttp://lattes.cnpq.br/4189604454431782Flauzino, Rogério Andradehttp://lattes.cnpq.br/4487681434814567Gomes, José Gabriel Rodriguez Carneirohttp://lattes.cnpq.br/0167354254513842Szwarcfiter, Jayme Luizhttp://lattes.cnpq.br/2002515486942024Cardona, Diana Alejandra Bonilla2021-01-06T19:19:12Z2016-09-262016-08-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfCARDONA, Diana Alejandra Bonilla. Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.. 2016. 156 f. Dissertação (Mestrado em Redes de Telecomunicações; Sistemas Inteligentes e Automação) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2016.http://www.bdtd.uerj.br/handle/1/11840porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UERJinstname:Universidade do Estado do Rio de Janeiro (UERJ)instacron:UERJ2024-02-27T18:16:52Zoai:www.bdtd.uerj.br:1/11840Biblioteca Digital de Teses e Dissertaçõeshttp://www.bdtd.uerj.br/PUBhttps://www.bdtd.uerj.br:8443/oai/requestbdtd.suporte@uerj.bropendoar:29032024-02-27T18:16:52Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ)false
dc.title.none.fl_str_mv	Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas. Automatic Speech Recognition of Phonemes in Portuguese Using Mixtures of Neural Networks Experts.
title	Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.
spellingShingle	Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas. Cardona, Diana Alejandra Bonilla Automatic speech recognition Phonetic recognition Artificial neural networks Mixture of experts Recorrent neural networks Engenharia eletrônica Reconhecimento automático de fala Reconhecimento fonético Redes neurais artificiais Composição de especialistas Redes neurais recorrentes Reconhecimento automático da voz CNPQ::ENGENHARIAS
title_short	Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.
title_full	Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.
title_fullStr	Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.
title_full_unstemmed	Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.
title_sort	Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.
author	Cardona, Diana Alejandra Bonilla
author_facet	Cardona, Diana Alejandra Bonilla
author_role	author
dc.contributor.none.fl_str_mv	Nedjah, Nadia http://lattes.cnpq.br/5417946704251656 Mourelle, Luiza de Macedo http://lattes.cnpq.br/4189604454431782 Flauzino, Rogério Andrade http://lattes.cnpq.br/4487681434814567 Gomes, José Gabriel Rodriguez Carneiro http://lattes.cnpq.br/0167354254513842 Szwarcfiter, Jayme Luiz http://lattes.cnpq.br/2002515486942024
dc.contributor.author.fl_str_mv	Cardona, Diana Alejandra Bonilla
dc.subject.por.fl_str_mv	Automatic speech recognition Phonetic recognition Artificial neural networks Mixture of experts Recorrent neural networks Engenharia eletrônica Reconhecimento automático de fala Reconhecimento fonético Redes neurais artificiais Composição de especialistas Redes neurais recorrentes Reconhecimento automático da voz CNPQ::ENGENHARIAS
topic	Automatic speech recognition Phonetic recognition Artificial neural networks Mixture of experts Recorrent neural networks Engenharia eletrônica Reconhecimento automático de fala Reconhecimento fonético Redes neurais artificiais Composição de especialistas Redes neurais recorrentes Reconhecimento automático da voz CNPQ::ENGENHARIAS
description	Os sistemas de reconhecimento automático de fala para a detecção de fonemas proporcionam vantagens para o reconhecimento online de fala representada por um sinal de som. Os estudos na área de inteligência computacional tem permitido associar as vantagens do processamento paralelo de informação à distribuição da carga computacional visando simplificar o uso de modelos complexos de sistemas. O desenvolvimento de um sistema de reconhecimento automático de fala envolve vários processos que abrangem várias áreas da pesquisa, tais como a linguística, o processamento de sinais e a inteligência computacional. Nesta dissertação, o processo inicia-se com o pré-processamento do sinal de fala fornecido na entrada do sistema, visando extrair e representar de modo mais sucinto as características principais relacionadas ao sinal em um dado instante de tempo. Inspirado pelo preceito que recomenda "dividir para conquistar", um modelo de composição de redes neurais especialistas é explorado, permitindo dividir o espaço de decisão do problema complexo de reconhecimento de fala para que cada especialista cuide somente de uma área bem delimitada deste espaço de decisão. Vale ressaltar que cada especialista incluído no modelo composto precisa tratar e tomar uma decisão a respeito de cada uma das amostras pré-processadas. O conjunto de decisões assim obtidas pelos especialistas são ponderadas. Desse modo, o sistema especialista que estiver com maior peso na saída acaba determinando o resultado final da classificação a respeito da amostra considerada. Em seguida, uma etapa de pós-processamento dinâmico, implementado através de uma rede recorrente é realizada. Esta permite mitigar os efeitos de oscilação que ocorre durante o reconhecimento de classes com características semelhantes. Nesta dissertação são investigados dois modelos de composição de especialistas. O primeiro é baseado no agrupamento de classes associadas a fonéticas semelhantes enquanto o segundo leva em conta a distribuição desequilibrada das amostras apresentadas nos dados de treinamento. A comparação do modelo proposto nesta dissertação com os trabalhos relacionados ao reconhecimento automático de fala indica um ganho de 7,62% em termos de acurácia.
publishDate	2016
dc.date.none.fl_str_mv	2016-09-26 2016-08-30 2021-01-06T19:19:12Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	CARDONA, Diana Alejandra Bonilla. Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.. 2016. 156 f. Dissertação (Mestrado em Redes de Telecomunicações; Sistemas Inteligentes e Automação) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2016. http://www.bdtd.uerj.br/handle/1/11840
identifier_str_mv	CARDONA, Diana Alejandra Bonilla. Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.. 2016. 156 f. Dissertação (Mestrado em Redes de Telecomunicações; Sistemas Inteligentes e Automação) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2016.
url	http://www.bdtd.uerj.br/handle/1/11840
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade do Estado do Rio de Janeiro Centro de Tecnologia e Ciências::Faculdade de Engenharia BR UERJ Programa de Pós-Graduação em Engenharia Eletrônica
publisher.none.fl_str_mv	Universidade do Estado do Rio de Janeiro Centro de Tecnologia e Ciências::Faculdade de Engenharia BR UERJ Programa de Pós-Graduação em Engenharia Eletrônica
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UERJ instname:Universidade do Estado do Rio de Janeiro (UERJ) instacron:UERJ
instname_str	Universidade do Estado do Rio de Janeiro (UERJ)
instacron_str	UERJ
institution	UERJ
reponame_str	Biblioteca Digital de Teses e Dissertações da UERJ
collection	Biblioteca Digital de Teses e Dissertações da UERJ
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ)
repository.mail.fl_str_mv	bdtd.suporte@uerj.br
_version_	1829133602046083072

Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.

Registros relacionados