Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.
| Ano de defesa: | 2016 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade do Estado do Rio de Janeiro
Centro de Tecnologia e Ciências::Faculdade de Engenharia BR UERJ Programa de Pós-Graduação em Engenharia Eletrônica |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://www.bdtd.uerj.br/handle/1/11840 |
Resumo: | Os sistemas de reconhecimento automático de fala para a detecção de fonemas proporcionam vantagens para o reconhecimento online de fala representada por um sinal de som. Os estudos na área de inteligência computacional tem permitido associar as vantagens do processamento paralelo de informação à distribuição da carga computacional visando simplificar o uso de modelos complexos de sistemas. O desenvolvimento de um sistema de reconhecimento automático de fala envolve vários processos que abrangem várias áreas da pesquisa, tais como a linguística, o processamento de sinais e a inteligência computacional. Nesta dissertação, o processo inicia-se com o pré-processamento do sinal de fala fornecido na entrada do sistema, visando extrair e representar de modo mais sucinto as características principais relacionadas ao sinal em um dado instante de tempo. Inspirado pelo preceito que recomenda "dividir para conquistar", um modelo de composição de redes neurais especialistas é explorado, permitindo dividir o espaço de decisão do problema complexo de reconhecimento de fala para que cada especialista cuide somente de uma área bem delimitada deste espaço de decisão. Vale ressaltar que cada especialista incluído no modelo composto precisa tratar e tomar uma decisão a respeito de cada uma das amostras pré-processadas. O conjunto de decisões assim obtidas pelos especialistas são ponderadas. Desse modo, o sistema especialista que estiver com maior peso na saída acaba determinando o resultado final da classificação a respeito da amostra considerada. Em seguida, uma etapa de pós-processamento dinâmico, implementado através de uma rede recorrente é realizada. Esta permite mitigar os efeitos de oscilação que ocorre durante o reconhecimento de classes com características semelhantes. Nesta dissertação são investigados dois modelos de composição de especialistas. O primeiro é baseado no agrupamento de classes associadas a fonéticas semelhantes enquanto o segundo leva em conta a distribuição desequilibrada das amostras apresentadas nos dados de treinamento. A comparação do modelo proposto nesta dissertação com os trabalhos relacionados ao reconhecimento automático de fala indica um ganho de 7,62% em termos de acurácia. |
| id |
UERJ_50990f2aa3e8156eb6eae56af2d2108d |
|---|---|
| oai_identifier_str |
oai:www.bdtd.uerj.br:1/11840 |
| network_acronym_str |
UERJ |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UERJ |
| repository_id_str |
|
| spelling |
Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.Automatic Speech Recognition of Phonemes in Portuguese Using Mixtures of Neural Networks Experts.Automatic speech recognitionPhonetic recognitionArtificial neural networksMixture of expertsRecorrent neural networksEngenharia eletrônicaReconhecimento automático de falaReconhecimento fonéticoRedes neurais artificiaisComposição de especialistasRedes neurais recorrentesReconhecimento automático da vozCNPQ::ENGENHARIASOs sistemas de reconhecimento automático de fala para a detecção de fonemas proporcionam vantagens para o reconhecimento online de fala representada por um sinal de som. Os estudos na área de inteligência computacional tem permitido associar as vantagens do processamento paralelo de informação à distribuição da carga computacional visando simplificar o uso de modelos complexos de sistemas. O desenvolvimento de um sistema de reconhecimento automático de fala envolve vários processos que abrangem várias áreas da pesquisa, tais como a linguística, o processamento de sinais e a inteligência computacional. Nesta dissertação, o processo inicia-se com o pré-processamento do sinal de fala fornecido na entrada do sistema, visando extrair e representar de modo mais sucinto as características principais relacionadas ao sinal em um dado instante de tempo. Inspirado pelo preceito que recomenda "dividir para conquistar", um modelo de composição de redes neurais especialistas é explorado, permitindo dividir o espaço de decisão do problema complexo de reconhecimento de fala para que cada especialista cuide somente de uma área bem delimitada deste espaço de decisão. Vale ressaltar que cada especialista incluído no modelo composto precisa tratar e tomar uma decisão a respeito de cada uma das amostras pré-processadas. O conjunto de decisões assim obtidas pelos especialistas são ponderadas. Desse modo, o sistema especialista que estiver com maior peso na saída acaba determinando o resultado final da classificação a respeito da amostra considerada. Em seguida, uma etapa de pós-processamento dinâmico, implementado através de uma rede recorrente é realizada. Esta permite mitigar os efeitos de oscilação que ocorre durante o reconhecimento de classes com características semelhantes. Nesta dissertação são investigados dois modelos de composição de especialistas. O primeiro é baseado no agrupamento de classes associadas a fonéticas semelhantes enquanto o segundo leva em conta a distribuição desequilibrada das amostras apresentadas nos dados de treinamento. A comparação do modelo proposto nesta dissertação com os trabalhos relacionados ao reconhecimento automático de fala indica um ganho de 7,62% em termos de acurácia.The automatic speech recognition based on detection of phonemes provides advantages for online recognition of a speech represented by a sound signal. Studies in computational intelligence have allowed associating the advantages of information parallel processing to the computational workload distribution, aiming at simplifying the use of complex models. The development of a system for automatic speech recognition involves various processes, covering several areas of research, such as linguistics, signal processing and computational intelligence. In this dissertation, the process starts with a speech signal pre-processing to extract and represent more succinctly, the main characteristics of the speech signal at a given instant of time. Inspired by the principle that recommends to "divide and conquer", a model of mixture of neural network experts is explored, allowing to divide the decision space of the complex problem of speech recognition so that each expert takes care only of a delimited area of this decision space. It is noteworthy to point out that each expert included in the composed model takes handles in the decision regarding each one of the preprocessed input sample. This set of decisions thus obtained is weighted. So, the expert system with the highest weight for the output will determine the final classification of the considered sample. After that, a dynamic post-processing step, implemented as a recurrent network, is executed. It aims at mitigating the oscillatory effect that occurs during the recognition of classes with similar characteristics. In this dissertation, two models of mixture of experts are investigated. The first is based on the grouping of similar phonetics classes while the second considers the imbalanced distribution of samples in the training set. The comparison of the model proposed in this dissertation with the work related to automatic speech recognition indicates a gain of 7.62% in terms of accuracy.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade do Estado do Rio de JaneiroCentro de Tecnologia e Ciências::Faculdade de EngenhariaBRUERJPrograma de Pós-Graduação em Engenharia EletrônicaNedjah, Nadiahttp://lattes.cnpq.br/5417946704251656Mourelle, Luiza de Macedohttp://lattes.cnpq.br/4189604454431782Flauzino, Rogério Andradehttp://lattes.cnpq.br/4487681434814567Gomes, José Gabriel Rodriguez Carneirohttp://lattes.cnpq.br/0167354254513842Szwarcfiter, Jayme Luizhttp://lattes.cnpq.br/2002515486942024Cardona, Diana Alejandra Bonilla2021-01-06T19:19:12Z2016-09-262016-08-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfCARDONA, Diana Alejandra Bonilla. Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.. 2016. 156 f. Dissertação (Mestrado em Redes de Telecomunicações; Sistemas Inteligentes e Automação) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2016.http://www.bdtd.uerj.br/handle/1/11840porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UERJinstname:Universidade do Estado do Rio de Janeiro (UERJ)instacron:UERJ2024-02-27T18:16:52Zoai:www.bdtd.uerj.br:1/11840Biblioteca Digital de Teses e Dissertaçõeshttp://www.bdtd.uerj.br/PUBhttps://www.bdtd.uerj.br:8443/oai/requestbdtd.suporte@uerj.bropendoar:29032024-02-27T18:16:52Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ)false |
| dc.title.none.fl_str_mv |
Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas. Automatic Speech Recognition of Phonemes in Portuguese Using Mixtures of Neural Networks Experts. |
| title |
Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas. |
| spellingShingle |
Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas. Cardona, Diana Alejandra Bonilla Automatic speech recognition Phonetic recognition Artificial neural networks Mixture of experts Recorrent neural networks Engenharia eletrônica Reconhecimento automático de fala Reconhecimento fonético Redes neurais artificiais Composição de especialistas Redes neurais recorrentes Reconhecimento automático da voz CNPQ::ENGENHARIAS |
| title_short |
Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas. |
| title_full |
Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas. |
| title_fullStr |
Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas. |
| title_full_unstemmed |
Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas. |
| title_sort |
Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas. |
| author |
Cardona, Diana Alejandra Bonilla |
| author_facet |
Cardona, Diana Alejandra Bonilla |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Nedjah, Nadia http://lattes.cnpq.br/5417946704251656 Mourelle, Luiza de Macedo http://lattes.cnpq.br/4189604454431782 Flauzino, Rogério Andrade http://lattes.cnpq.br/4487681434814567 Gomes, José Gabriel Rodriguez Carneiro http://lattes.cnpq.br/0167354254513842 Szwarcfiter, Jayme Luiz http://lattes.cnpq.br/2002515486942024 |
| dc.contributor.author.fl_str_mv |
Cardona, Diana Alejandra Bonilla |
| dc.subject.por.fl_str_mv |
Automatic speech recognition Phonetic recognition Artificial neural networks Mixture of experts Recorrent neural networks Engenharia eletrônica Reconhecimento automático de fala Reconhecimento fonético Redes neurais artificiais Composição de especialistas Redes neurais recorrentes Reconhecimento automático da voz CNPQ::ENGENHARIAS |
| topic |
Automatic speech recognition Phonetic recognition Artificial neural networks Mixture of experts Recorrent neural networks Engenharia eletrônica Reconhecimento automático de fala Reconhecimento fonético Redes neurais artificiais Composição de especialistas Redes neurais recorrentes Reconhecimento automático da voz CNPQ::ENGENHARIAS |
| description |
Os sistemas de reconhecimento automático de fala para a detecção de fonemas proporcionam vantagens para o reconhecimento online de fala representada por um sinal de som. Os estudos na área de inteligência computacional tem permitido associar as vantagens do processamento paralelo de informação à distribuição da carga computacional visando simplificar o uso de modelos complexos de sistemas. O desenvolvimento de um sistema de reconhecimento automático de fala envolve vários processos que abrangem várias áreas da pesquisa, tais como a linguística, o processamento de sinais e a inteligência computacional. Nesta dissertação, o processo inicia-se com o pré-processamento do sinal de fala fornecido na entrada do sistema, visando extrair e representar de modo mais sucinto as características principais relacionadas ao sinal em um dado instante de tempo. Inspirado pelo preceito que recomenda "dividir para conquistar", um modelo de composição de redes neurais especialistas é explorado, permitindo dividir o espaço de decisão do problema complexo de reconhecimento de fala para que cada especialista cuide somente de uma área bem delimitada deste espaço de decisão. Vale ressaltar que cada especialista incluído no modelo composto precisa tratar e tomar uma decisão a respeito de cada uma das amostras pré-processadas. O conjunto de decisões assim obtidas pelos especialistas são ponderadas. Desse modo, o sistema especialista que estiver com maior peso na saída acaba determinando o resultado final da classificação a respeito da amostra considerada. Em seguida, uma etapa de pós-processamento dinâmico, implementado através de uma rede recorrente é realizada. Esta permite mitigar os efeitos de oscilação que ocorre durante o reconhecimento de classes com características semelhantes. Nesta dissertação são investigados dois modelos de composição de especialistas. O primeiro é baseado no agrupamento de classes associadas a fonéticas semelhantes enquanto o segundo leva em conta a distribuição desequilibrada das amostras apresentadas nos dados de treinamento. A comparação do modelo proposto nesta dissertação com os trabalhos relacionados ao reconhecimento automático de fala indica um ganho de 7,62% em termos de acurácia. |
| publishDate |
2016 |
| dc.date.none.fl_str_mv |
2016-09-26 2016-08-30 2021-01-06T19:19:12Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
CARDONA, Diana Alejandra Bonilla. Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.. 2016. 156 f. Dissertação (Mestrado em Redes de Telecomunicações; Sistemas Inteligentes e Automação) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2016. http://www.bdtd.uerj.br/handle/1/11840 |
| identifier_str_mv |
CARDONA, Diana Alejandra Bonilla. Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.. 2016. 156 f. Dissertação (Mestrado em Redes de Telecomunicações; Sistemas Inteligentes e Automação) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2016. |
| url |
http://www.bdtd.uerj.br/handle/1/11840 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade do Estado do Rio de Janeiro Centro de Tecnologia e Ciências::Faculdade de Engenharia BR UERJ Programa de Pós-Graduação em Engenharia Eletrônica |
| publisher.none.fl_str_mv |
Universidade do Estado do Rio de Janeiro Centro de Tecnologia e Ciências::Faculdade de Engenharia BR UERJ Programa de Pós-Graduação em Engenharia Eletrônica |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UERJ instname:Universidade do Estado do Rio de Janeiro (UERJ) instacron:UERJ |
| instname_str |
Universidade do Estado do Rio de Janeiro (UERJ) |
| instacron_str |
UERJ |
| institution |
UERJ |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UERJ |
| collection |
Biblioteca Digital de Teses e Dissertações da UERJ |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ) |
| repository.mail.fl_str_mv |
bdtd.suporte@uerj.br |
| _version_ |
1829133602046083072 |