Análise de textos por meio de processos estocásticos na representação word2vec

Massoni, Gabriela

Análise de textos por meio de processos estocásticos na representação word2vec

Detalhes bibliográficos
Ano de defesa:	2021
Autor(a) principal:	Massoni, Gabriela
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Modelos de predição Natural language processing Prediction models Processamento de linguagem natural Processos estocásticos Representação vetorial de palavras Stochastic process Word vector representation
Link de acesso:	https://www.teses.usp.br/teses/disponiveis/104/104131/tde-31032021-123649/
Resumo:	Dentro do campo de Processamento de Linguagem Natural (NLP), o modelo word2vec vêm sendo bastante explorado no campo da representação vetorial de palavras. Ele é uma rede neural que se baseia na hipótese de que palavras semelhantes tem contextos semelhantes. Na literatura em geral, o texto é representado pelo vetor de médias das representações das suas palavras, que, por sua vez, é utilizado como variável explicativa em modelos preditivos. Um alternativa é, além da médias, utilizar outras medidas, como desvio-padrão e medidas de posição. Porém, o uso destas medidas supõe que a ordem das palavras não importa. Assim, nesta dissertação exploramos o uso de processos estocásticos, em particular, Modelos de Série Temporal e Modelos Ocultos de Markov (HMM), para incorporar a ordem cronológica das palavras na construção das variáveis explicativas a partir da representação vetorial dada pelo word2vec. O impacto desta abordagem é medido com a qualidade dos modelos preditivos aplicados à dados reais e comparado às abordagens usuais. Para os dados analisados, as abordagens propostas tiveram um resultado superior ou equivalente às abordagens usuais na maioria dos casos.

Metadados do item

id	USP_e2918929825add895d054211cb402fca
oai_identifier_str	oai:teses.usp.br:tde-31032021-123649
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling	Análise de textos por meio de processos estocásticos na representação word2vecText mining with stochastic process in word2vec representationModelos de prediçãoNatural language processingPrediction modelsProcessamento de linguagem naturalProcessos estocásticosRepresentação vetorial de palavrasStochastic processWord vector representationDentro do campo de Processamento de Linguagem Natural (NLP), o modelo word2vec vêm sendo bastante explorado no campo da representação vetorial de palavras. Ele é uma rede neural que se baseia na hipótese de que palavras semelhantes tem contextos semelhantes. Na literatura em geral, o texto é representado pelo vetor de médias das representações das suas palavras, que, por sua vez, é utilizado como variável explicativa em modelos preditivos. Um alternativa é, além da médias, utilizar outras medidas, como desvio-padrão e medidas de posição. Porém, o uso destas medidas supõe que a ordem das palavras não importa. Assim, nesta dissertação exploramos o uso de processos estocásticos, em particular, Modelos de Série Temporal e Modelos Ocultos de Markov (HMM), para incorporar a ordem cronológica das palavras na construção das variáveis explicativas a partir da representação vetorial dada pelo word2vec. O impacto desta abordagem é medido com a qualidade dos modelos preditivos aplicados à dados reais e comparado às abordagens usuais. Para os dados analisados, as abordagens propostas tiveram um resultado superior ou equivalente às abordagens usuais na maioria dos casos.Within the field of Natural Language Processing (NLP), the word2vec model has been extensively explored in the field of vector representation of words. It is a neural network that is based on the hypothesis that similar words have similar contexts. In the literature in general, the text is represented by the mean vector of the representations of its words, which, in turn, is used as an explanatory variable in predictive models. An alternative is, in addition to averages, to use other measures, such as standard deviation and position measures. However, the use of these measures assumes the order of the words does not matter. Thus, in this dissertation we explore the use of stochastic processes, in particular, Time Series Models and Hidden Markov Models (HMM), to incorporate the chronological order of words in the construction of explanatory variables from the vector representation given by word2vec. The impact of this approach is measured with the quality of the predictive models of real data and compared to the usual ones.For the analysed data, the proposed approaches have a result that is superior to or equivalent to the usual approaches in most cases.Biblioteca Digitais de Teses e Dissertações da USPStern, Rafael BassiMassoni, Gabriela2021-03-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/104/104131/tde-31032021-123649/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2021-03-31T19:38:02Zoai:teses.usp.br:tde-31032021-123649Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212021-03-31T19:38:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Análise de textos por meio de processos estocásticos na representação word2vec Text mining with stochastic process in word2vec representation
title	Análise de textos por meio de processos estocásticos na representação word2vec
spellingShingle	Análise de textos por meio de processos estocásticos na representação word2vec Massoni, Gabriela Modelos de predição Natural language processing Prediction models Processamento de linguagem natural Processos estocásticos Representação vetorial de palavras Stochastic process Word vector representation
title_short	Análise de textos por meio de processos estocásticos na representação word2vec
title_full	Análise de textos por meio de processos estocásticos na representação word2vec
title_fullStr	Análise de textos por meio de processos estocásticos na representação word2vec
title_full_unstemmed	Análise de textos por meio de processos estocásticos na representação word2vec
title_sort	Análise de textos por meio de processos estocásticos na representação word2vec
author	Massoni, Gabriela
author_facet	Massoni, Gabriela
author_role	author
dc.contributor.none.fl_str_mv	Stern, Rafael Bassi
dc.contributor.author.fl_str_mv	Massoni, Gabriela
dc.subject.por.fl_str_mv	Modelos de predição Natural language processing Prediction models Processamento de linguagem natural Processos estocásticos Representação vetorial de palavras Stochastic process Word vector representation
topic	Modelos de predição Natural language processing Prediction models Processamento de linguagem natural Processos estocásticos Representação vetorial de palavras Stochastic process Word vector representation
description	Dentro do campo de Processamento de Linguagem Natural (NLP), o modelo word2vec vêm sendo bastante explorado no campo da representação vetorial de palavras. Ele é uma rede neural que se baseia na hipótese de que palavras semelhantes tem contextos semelhantes. Na literatura em geral, o texto é representado pelo vetor de médias das representações das suas palavras, que, por sua vez, é utilizado como variável explicativa em modelos preditivos. Um alternativa é, além da médias, utilizar outras medidas, como desvio-padrão e medidas de posição. Porém, o uso destas medidas supõe que a ordem das palavras não importa. Assim, nesta dissertação exploramos o uso de processos estocásticos, em particular, Modelos de Série Temporal e Modelos Ocultos de Markov (HMM), para incorporar a ordem cronológica das palavras na construção das variáveis explicativas a partir da representação vetorial dada pelo word2vec. O impacto desta abordagem é medido com a qualidade dos modelos preditivos aplicados à dados reais e comparado às abordagens usuais. Para os dados analisados, as abordagens propostas tiveram um resultado superior ou equivalente às abordagens usuais na maioria dos casos.
publishDate	2021
dc.date.none.fl_str_mv	2021-03-03
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/104/104131/tde-31032021-123649/
url	https://www.teses.usp.br/teses/disponiveis/104/104131/tde-31032021-123649/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1865491839209963520

Análise de textos por meio de processos estocásticos na representação word2vec

Registros relacionados