Modelos de Tópicos baseados em Autocodificadores Variacionais utilizando as distribuições Gumbel-Softmax e mistura de Normais-Logísticas

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: Silveira, Denys Dionísio Bezerra
Outros Autores: http://lattes.cnpq.br/0002624116190554
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Amazonas
Instituto de Computação
Brasil
UFAM
Programa de Pós-graduação em Informática
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://tede.ufam.edu.br/handle/tede/7439
Resumo: Modelos probabilísticos de tópicos são modelos estatísticos capazes de identificar tópicos em uma coleção de texto. Eles são amplamente aplicados em tarefas relacionadas à área de Processamento de Linguagem Natural, uma vez que capturam com sucesso relações latentes por meio da análise de dados não rotulados. Entretanto, soluções analíticas para a inferência Bayesiana desses modelos são geralmente intratáveis, dificultando a proposta de modelos probabilísticos que sejam mais expressivos. Neste cenário, os Autocodificadores Variacionais (ACVs), métodos que empregam uma rede de inferência baseada em redes neurais responsável por estimar a distribuição a posteriori, tornaram-se uma alternativa promissora para inferir distribuições de tópicos em coleções de texto. Estes modelos, contudo, também introduzem novos desafios, tal como a necessidade de distribuições contínuas e reparametrizáveis que podem não se ajustar às distribuições reais dos tópicos. Além disso, redes de inferência tendem a apresentar um problema conhecido como colapso de componentes, onde apenas alguns tópicos contendo poucos termos correlacionados são efetivamente extraídos. Para tentar evitar estes problemas, propõem-se dois novos métodos de tópicos. O primeiro (GSDTM) é baseado em uma distribuição contínua pseudocategórica denominada Gumbel-Softmax, capaz de gerar amostras aproximadamente categóricas, enquanto o segundo (LMDTM) adota uma mistura de distribuições Normais-logísticas, que pode ser adequada em cenários onde a distribuição dos dados é complexa. Apresenta-se também um estudo sobre o impacto que diferentes escolhas de modelagem têm sobre os tópicos gerados, observando um compromisso entre coerência dos tópicos e a qualidade do modelo gerador. Por meio de experimentos usando duas coleções de dados de referência, três métricas distintas de avaliação quantitativa e uma inspeção qualitativa, mostra-se que o modelo GSDTM supera de forma significativa os modelos de tópicos considerados estado da arte em grande parte dos cenários de teste, em termos de coerência média de tópicos e perplexidade.
id UFAM_7989baea0ab2bef361de7e82b776417a
oai_identifier_str oai:https://tede.ufam.edu.br/handle/:tede/7439
network_acronym_str UFAM
network_name_str Biblioteca Digital de Teses e Dissertações da UFAM
repository_id_str
spelling Modelos de Tópicos baseados em Autocodificadores Variacionais utilizando as distribuições Gumbel-Softmax e mistura de Normais-LogísticasRedes neurais (Computação)Teoria bayesiana de decisão estatísticaCIÊNCIAS EXATAS E DA TERRACIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃOModelos de TópicosAutocodificadores VariacionaisInferência BayesianaAprendizagem ProfundaModelos probabilísticos de tópicos são modelos estatísticos capazes de identificar tópicos em uma coleção de texto. Eles são amplamente aplicados em tarefas relacionadas à área de Processamento de Linguagem Natural, uma vez que capturam com sucesso relações latentes por meio da análise de dados não rotulados. Entretanto, soluções analíticas para a inferência Bayesiana desses modelos são geralmente intratáveis, dificultando a proposta de modelos probabilísticos que sejam mais expressivos. Neste cenário, os Autocodificadores Variacionais (ACVs), métodos que empregam uma rede de inferência baseada em redes neurais responsável por estimar a distribuição a posteriori, tornaram-se uma alternativa promissora para inferir distribuições de tópicos em coleções de texto. Estes modelos, contudo, também introduzem novos desafios, tal como a necessidade de distribuições contínuas e reparametrizáveis que podem não se ajustar às distribuições reais dos tópicos. Além disso, redes de inferência tendem a apresentar um problema conhecido como colapso de componentes, onde apenas alguns tópicos contendo poucos termos correlacionados são efetivamente extraídos. Para tentar evitar estes problemas, propõem-se dois novos métodos de tópicos. O primeiro (GSDTM) é baseado em uma distribuição contínua pseudocategórica denominada Gumbel-Softmax, capaz de gerar amostras aproximadamente categóricas, enquanto o segundo (LMDTM) adota uma mistura de distribuições Normais-logísticas, que pode ser adequada em cenários onde a distribuição dos dados é complexa. Apresenta-se também um estudo sobre o impacto que diferentes escolhas de modelagem têm sobre os tópicos gerados, observando um compromisso entre coerência dos tópicos e a qualidade do modelo gerador. Por meio de experimentos usando duas coleções de dados de referência, três métricas distintas de avaliação quantitativa e uma inspeção qualitativa, mostra-se que o modelo GSDTM supera de forma significativa os modelos de tópicos considerados estado da arte em grande parte dos cenários de teste, em termos de coerência média de tópicos e perplexidade.Probabilistic topic models are statistical models which are able to identify topics on textual data. They are widely applied in many tasks related to Natural Language Processing due to their effective use of unlabeled data to capture latent relations. Analytical solutions for Bayesian inference of such models, however, are usually intractable, hindering the proposition of highly expressive text models. In this scenario, Variational Auto-Encoders (VAEs), where an artificial neural-based inference network is used to approximate the posterior distribution, became a promising alternative for inferring latent topic distributions of text documents. These models, however, also pose new challenges such as the requirement of continuous and reparameterizable distributions which may not fit so well the true latent topic distributions. Moreover, inference networks are prone to a well-known problem called component collapsing, where a little number of topics are effectively retrieved. To overcome these problems, we propose two new text topic models. The first (GSDTM) is based on the pseudo-categorical continuous distribution called Gumbel-Softmax which is able to generate categorical-like samples, while the second (LMDTM) adopts a mixture of Normal-Logistic distributions which can fits well in scenarios where the data distribution is complex. We also provide a study on the impact of different modeling choices on the generated topics, observing a trade-off between topic coherence and generative model quality. Through experiments using two reference datasets, three different quantitative metrics and one qualitative inspection, we show that GSDTM largely outperforms previous state-of-the-art baselines in most of scenarios, when considering average topic coherence and perplexity.CNPq - Conselho Nacional de Desenvolvimento Científico e TecnológicoCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorFAPEAM - Fundação de Amparo à Pesquisa do Estado do AmazonasUniversidade Federal do AmazonasInstituto de ComputaçãoBrasilUFAMPrograma de Pós-graduação em InformáticaCristo, Marco Antônio Pinheiro dehttp://lattes.cnpq.br/6261175351521953Colonna, Juan Gabrielhttp://lattes.cnpq.br/9535853909210803Pappa, Gisele Lobohttp://lattes.cnpq.br/5936682335701497Carvalho, André Luiz da Costahttp://lattes.cnpq.br/4863447798119856Silveira, Denys Dionísio Bezerrahttp://lattes.cnpq.br/00026241161905542019-10-23T15:15:59Z2018-12-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSILVEIRA, Denys Dionísio Bezerra. Modelos de Tópicos baseados em Autocodificadores Variacionais utilizando as distribuições Gumbel-Softmax e mistura de Normais-Logísticas. 2018. 115 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2018.https://tede.ufam.edu.br/handle/tede/7439porhttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2019-10-24T05:03:53Zoai:https://tede.ufam.edu.br/handle/:tede/7439Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br||ddbc@ufam.edu.bropendoar:65922019-10-24T05:03:53Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false
dc.title.none.fl_str_mv Modelos de Tópicos baseados em Autocodificadores Variacionais utilizando as distribuições Gumbel-Softmax e mistura de Normais-Logísticas
title Modelos de Tópicos baseados em Autocodificadores Variacionais utilizando as distribuições Gumbel-Softmax e mistura de Normais-Logísticas
spellingShingle Modelos de Tópicos baseados em Autocodificadores Variacionais utilizando as distribuições Gumbel-Softmax e mistura de Normais-Logísticas
Silveira, Denys Dionísio Bezerra
Redes neurais (Computação)
Teoria bayesiana de decisão estatística
CIÊNCIAS EXATAS E DA TERRA
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Modelos de Tópicos
Autocodificadores Variacionais
Inferência Bayesiana
Aprendizagem Profunda
title_short Modelos de Tópicos baseados em Autocodificadores Variacionais utilizando as distribuições Gumbel-Softmax e mistura de Normais-Logísticas
title_full Modelos de Tópicos baseados em Autocodificadores Variacionais utilizando as distribuições Gumbel-Softmax e mistura de Normais-Logísticas
title_fullStr Modelos de Tópicos baseados em Autocodificadores Variacionais utilizando as distribuições Gumbel-Softmax e mistura de Normais-Logísticas
title_full_unstemmed Modelos de Tópicos baseados em Autocodificadores Variacionais utilizando as distribuições Gumbel-Softmax e mistura de Normais-Logísticas
title_sort Modelos de Tópicos baseados em Autocodificadores Variacionais utilizando as distribuições Gumbel-Softmax e mistura de Normais-Logísticas
author Silveira, Denys Dionísio Bezerra
author_facet Silveira, Denys Dionísio Bezerra
http://lattes.cnpq.br/0002624116190554
author_role author
author2 http://lattes.cnpq.br/0002624116190554
author2_role author
dc.contributor.none.fl_str_mv Cristo, Marco Antônio Pinheiro de
http://lattes.cnpq.br/6261175351521953
Colonna, Juan Gabriel
http://lattes.cnpq.br/9535853909210803
Pappa, Gisele Lobo
http://lattes.cnpq.br/5936682335701497
Carvalho, André Luiz da Costa
http://lattes.cnpq.br/4863447798119856
dc.contributor.author.fl_str_mv Silveira, Denys Dionísio Bezerra
http://lattes.cnpq.br/0002624116190554
dc.subject.por.fl_str_mv Redes neurais (Computação)
Teoria bayesiana de decisão estatística
CIÊNCIAS EXATAS E DA TERRA
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Modelos de Tópicos
Autocodificadores Variacionais
Inferência Bayesiana
Aprendizagem Profunda
topic Redes neurais (Computação)
Teoria bayesiana de decisão estatística
CIÊNCIAS EXATAS E DA TERRA
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Modelos de Tópicos
Autocodificadores Variacionais
Inferência Bayesiana
Aprendizagem Profunda
description Modelos probabilísticos de tópicos são modelos estatísticos capazes de identificar tópicos em uma coleção de texto. Eles são amplamente aplicados em tarefas relacionadas à área de Processamento de Linguagem Natural, uma vez que capturam com sucesso relações latentes por meio da análise de dados não rotulados. Entretanto, soluções analíticas para a inferência Bayesiana desses modelos são geralmente intratáveis, dificultando a proposta de modelos probabilísticos que sejam mais expressivos. Neste cenário, os Autocodificadores Variacionais (ACVs), métodos que empregam uma rede de inferência baseada em redes neurais responsável por estimar a distribuição a posteriori, tornaram-se uma alternativa promissora para inferir distribuições de tópicos em coleções de texto. Estes modelos, contudo, também introduzem novos desafios, tal como a necessidade de distribuições contínuas e reparametrizáveis que podem não se ajustar às distribuições reais dos tópicos. Além disso, redes de inferência tendem a apresentar um problema conhecido como colapso de componentes, onde apenas alguns tópicos contendo poucos termos correlacionados são efetivamente extraídos. Para tentar evitar estes problemas, propõem-se dois novos métodos de tópicos. O primeiro (GSDTM) é baseado em uma distribuição contínua pseudocategórica denominada Gumbel-Softmax, capaz de gerar amostras aproximadamente categóricas, enquanto o segundo (LMDTM) adota uma mistura de distribuições Normais-logísticas, que pode ser adequada em cenários onde a distribuição dos dados é complexa. Apresenta-se também um estudo sobre o impacto que diferentes escolhas de modelagem têm sobre os tópicos gerados, observando um compromisso entre coerência dos tópicos e a qualidade do modelo gerador. Por meio de experimentos usando duas coleções de dados de referência, três métricas distintas de avaliação quantitativa e uma inspeção qualitativa, mostra-se que o modelo GSDTM supera de forma significativa os modelos de tópicos considerados estado da arte em grande parte dos cenários de teste, em termos de coerência média de tópicos e perplexidade.
publishDate 2018
dc.date.none.fl_str_mv 2018-12-11
2019-10-23T15:15:59Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SILVEIRA, Denys Dionísio Bezerra. Modelos de Tópicos baseados em Autocodificadores Variacionais utilizando as distribuições Gumbel-Softmax e mistura de Normais-Logísticas. 2018. 115 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2018.
https://tede.ufam.edu.br/handle/tede/7439
identifier_str_mv SILVEIRA, Denys Dionísio Bezerra. Modelos de Tópicos baseados em Autocodificadores Variacionais utilizando as distribuições Gumbel-Softmax e mistura de Normais-Logísticas. 2018. 115 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2018.
url https://tede.ufam.edu.br/handle/tede/7439
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Amazonas
Instituto de Computação
Brasil
UFAM
Programa de Pós-graduação em Informática
publisher.none.fl_str_mv Universidade Federal do Amazonas
Instituto de Computação
Brasil
UFAM
Programa de Pós-graduação em Informática
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFAM
instname:Universidade Federal do Amazonas (UFAM)
instacron:UFAM
instname_str Universidade Federal do Amazonas (UFAM)
instacron_str UFAM
institution UFAM
reponame_str Biblioteca Digital de Teses e Dissertações da UFAM
collection Biblioteca Digital de Teses e Dissertações da UFAM
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)
repository.mail.fl_str_mv ddbc@ufam.edu.br||ddbc@ufam.edu.br
_version_ 1851781294102413312