Análise de textos por meio de processos estocásticos na representação word2vec

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Massoni, Gabriela
Orientador(a): Stern, Rafael Bassi lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Câmpus São Carlos
Programa de Pós-Graduação: Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufscar.br/handle/20.500.14289/14241
Resumo: Within the field of Natural Language Processing (NLP), the word2vec model has been extensively explored in the field of vector representation of words. It is a neural network that is based on the hypothesis that similar words have similar contexts. In the literature in general, the text is represented by the mean vector of the representations of its words, which, in turn, is used as an explanatory variable in predictive models. An alternative is, in addition to averages, to use other measures, such as standard deviation and position measures. However, the use of these measures assumes the order of the words does not matter. Thus, in this dissertation we explore the use of stochastic processes, in particular, Time Series Models and Hidden Markov Models (HMM), to incorporate the "chronological" order of words in the construction of explanatory variables from the vector representation given by word2vec. The impact of this approach is measured with the quality of the predictive models of real data and compared to the usual ones. For the analysed data, the proposed approaches have a result that is superior to or equivalent to the usual approaches in most cases.
id SCAR_4333c964b7c427c5c322ff65aaa3f3b1
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/14241
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Massoni, GabrielaStern, Rafael Bassihttp://lattes.cnpq.br/7846211197320014http://lattes.cnpq.br/069457173384149788de5acd-d672-4013-9d22-e436f02f390c2021-05-08T08:10:04Z2021-05-08T08:10:04Z2021-03-03MASSONI, Gabriela. Análise de textos por meio de processos estocásticos na representação word2vec. 2021. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/14241.https://repositorio.ufscar.br/handle/20.500.14289/14241Within the field of Natural Language Processing (NLP), the word2vec model has been extensively explored in the field of vector representation of words. It is a neural network that is based on the hypothesis that similar words have similar contexts. In the literature in general, the text is represented by the mean vector of the representations of its words, which, in turn, is used as an explanatory variable in predictive models. An alternative is, in addition to averages, to use other measures, such as standard deviation and position measures. However, the use of these measures assumes the order of the words does not matter. Thus, in this dissertation we explore the use of stochastic processes, in particular, Time Series Models and Hidden Markov Models (HMM), to incorporate the "chronological" order of words in the construction of explanatory variables from the vector representation given by word2vec. The impact of this approach is measured with the quality of the predictive models of real data and compared to the usual ones. For the analysed data, the proposed approaches have a result that is superior to or equivalent to the usual approaches in most cases.Dentro do campo de Processamento de Linguagem Natural (NLP), o modelo word2vec vêm sendo bastante explorado no campo da representação vetorial de palavras. Ele é uma rede neural que se baseia na hipótese de que palavras semelhantes tem contextos semelhantes. Na literatura em geral, o texto é representado pelo vetor de médias das representações das suas palavras, que, por sua vez, é utilizado como variável explicativa em modelos preditivos. Um alternativa é, além da médias, utilizar outras medidas, como desvio-padrão e medidas de posição. Porém, o uso destas medidas supõe que a ordem das palavras não importa. Assim, nesta dissertação exploramos o uso de processos estocásticos, em particular, Modelos de Série Temporal e Modelos Ocultos de Markov (HMM), para incorporar a ordem "cronológica" das palavras na construção das variáveis explicativas a partir da representação vetorial dada pelo word2vec. O impacto desta abordagem é medido com a qualidade dos modelos preditivos aplicados à dados reais e comparado às abordagens usuais. Para os dados analisados, as abordagens propostas tiveram um resultado superior ou equivalente às abordagens usuais na maioria dos casos.Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)CNPQ: 131978/2019-5porUniversidade Federal de São CarlosCâmpus São CarlosPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessRepresentação vetorial de palavrasModelos de prediçãoProcessamento de linguagem naturalProcessos estocásticosWord vector representationPrediction modelsNatural language processingStochastic processCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOSCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA EM PROCESSOS ESTOCASTICOSAnálise de textos por meio de processos estocásticos na representação word2vecText mining with stochastic process in word2vec representationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis600600794fd68e-2699-488f-981f-afea4ba9c03areponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINAL[UFSCAR] Gabriela Massoni - Dissertação_VersãoFinal.pdf[UFSCAR] Gabriela Massoni - Dissertação_VersãoFinal.pdfapplication/pdf1024472https://repositorio.ufscar.br/bitstreams/afeb8973-e4b7-48cf-98bf-07e88c9b36a0/download25fa0596ae6dcc8a27629b7a8a781389MD51trueAnonymousREAD[UFSCAR] Gabriela Massoni - cartacomprovantepipges.pdf[UFSCAR] Gabriela Massoni - cartacomprovantepipges.pdfapplication/pdf205892https://repositorio.ufscar.br/bitstreams/0f230e90-7a99-4bc7-8b65-fb6390dee120/downloadcfbfb742a7f1bc6603c935132dd87c1aMD53falseAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstreams/79b195d6-34fd-4b6a-985f-1601a7c676f6/downloade39d27027a6cc9cb039ad269a5db8e34MD55falseAnonymousREADTEXT[UFSCAR] Gabriela Massoni - Dissertação_VersãoFinal.pdf.txt[UFSCAR] Gabriela Massoni - Dissertação_VersãoFinal.pdf.txtExtracted texttext/plain67604https://repositorio.ufscar.br/bitstreams/6d51476e-3866-402a-9424-d649b91d4082/downloadf8c2e1a304f9089ff742ecde40e123fbMD510falseAnonymousREAD[UFSCAR] Gabriela Massoni - cartacomprovantepipges.pdf.txt[UFSCAR] Gabriela Massoni - cartacomprovantepipges.pdf.txtExtracted texttext/plain1248https://repositorio.ufscar.br/bitstreams/f7d163a5-0b6a-4ad7-9417-a7443080e33f/download38f37e309c2326249192df63864f0874MD512falseAnonymousREADTHUMBNAIL[UFSCAR] Gabriela Massoni - Dissertação_VersãoFinal.pdf.jpg[UFSCAR] Gabriela Massoni - Dissertação_VersãoFinal.pdf.jpgIM Thumbnailimage/jpeg12622https://repositorio.ufscar.br/bitstreams/038bc2a4-f0fe-47c2-8972-c0a38fa58035/download3c520b8da0ed61fcc0d35f24f6379a9fMD511falseAnonymousREAD[UFSCAR] Gabriela Massoni - cartacomprovantepipges.pdf.jpg[UFSCAR] Gabriela Massoni - cartacomprovantepipges.pdf.jpgIM Thumbnailimage/jpeg6236https://repositorio.ufscar.br/bitstreams/54e2712d-699b-40a4-902d-60d7c92da860/downloadd22de40b5bafa6ea8756daef3e763453MD513falseAnonymousREAD20.500.14289/142412025-02-05 19:42:29.122http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/14241https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-05T22:42:29Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Análise de textos por meio de processos estocásticos na representação word2vec
dc.title.alternative.eng.fl_str_mv Text mining with stochastic process in word2vec representation
title Análise de textos por meio de processos estocásticos na representação word2vec
spellingShingle Análise de textos por meio de processos estocásticos na representação word2vec
Massoni, Gabriela
Representação vetorial de palavras
Modelos de predição
Processamento de linguagem natural
Processos estocásticos
Word vector representation
Prediction models
Natural language processing
Stochastic process
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA EM PROCESSOS ESTOCASTICOS
title_short Análise de textos por meio de processos estocásticos na representação word2vec
title_full Análise de textos por meio de processos estocásticos na representação word2vec
title_fullStr Análise de textos por meio de processos estocásticos na representação word2vec
title_full_unstemmed Análise de textos por meio de processos estocásticos na representação word2vec
title_sort Análise de textos por meio de processos estocásticos na representação word2vec
author Massoni, Gabriela
author_facet Massoni, Gabriela
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/0694571733841497
dc.contributor.author.fl_str_mv Massoni, Gabriela
dc.contributor.advisor1.fl_str_mv Stern, Rafael Bassi
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/7846211197320014
dc.contributor.authorID.fl_str_mv 88de5acd-d672-4013-9d22-e436f02f390c
contributor_str_mv Stern, Rafael Bassi
dc.subject.por.fl_str_mv Representação vetorial de palavras
Modelos de predição
Processamento de linguagem natural
Processos estocásticos
topic Representação vetorial de palavras
Modelos de predição
Processamento de linguagem natural
Processos estocásticos
Word vector representation
Prediction models
Natural language processing
Stochastic process
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA EM PROCESSOS ESTOCASTICOS
dc.subject.eng.fl_str_mv Word vector representation
Prediction models
Natural language processing
Stochastic process
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA EM PROCESSOS ESTOCASTICOS
description Within the field of Natural Language Processing (NLP), the word2vec model has been extensively explored in the field of vector representation of words. It is a neural network that is based on the hypothesis that similar words have similar contexts. In the literature in general, the text is represented by the mean vector of the representations of its words, which, in turn, is used as an explanatory variable in predictive models. An alternative is, in addition to averages, to use other measures, such as standard deviation and position measures. However, the use of these measures assumes the order of the words does not matter. Thus, in this dissertation we explore the use of stochastic processes, in particular, Time Series Models and Hidden Markov Models (HMM), to incorporate the "chronological" order of words in the construction of explanatory variables from the vector representation given by word2vec. The impact of this approach is measured with the quality of the predictive models of real data and compared to the usual ones. For the analysed data, the proposed approaches have a result that is superior to or equivalent to the usual approaches in most cases.
publishDate 2021
dc.date.accessioned.fl_str_mv 2021-05-08T08:10:04Z
dc.date.available.fl_str_mv 2021-05-08T08:10:04Z
dc.date.issued.fl_str_mv 2021-03-03
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MASSONI, Gabriela. Análise de textos por meio de processos estocásticos na representação word2vec. 2021. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/14241.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/14241
identifier_str_mv MASSONI, Gabriela. Análise de textos por meio de processos estocásticos na representação word2vec. 2021. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/14241.
url https://repositorio.ufscar.br/handle/20.500.14289/14241
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv 794fd68e-2699-488f-981f-afea4ba9c03a
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/afeb8973-e4b7-48cf-98bf-07e88c9b36a0/download
https://repositorio.ufscar.br/bitstreams/0f230e90-7a99-4bc7-8b65-fb6390dee120/download
https://repositorio.ufscar.br/bitstreams/79b195d6-34fd-4b6a-985f-1601a7c676f6/download
https://repositorio.ufscar.br/bitstreams/6d51476e-3866-402a-9424-d649b91d4082/download
https://repositorio.ufscar.br/bitstreams/f7d163a5-0b6a-4ad7-9417-a7443080e33f/download
https://repositorio.ufscar.br/bitstreams/038bc2a4-f0fe-47c2-8972-c0a38fa58035/download
https://repositorio.ufscar.br/bitstreams/54e2712d-699b-40a4-902d-60d7c92da860/download
bitstream.checksum.fl_str_mv 25fa0596ae6dcc8a27629b7a8a781389
cfbfb742a7f1bc6603c935132dd87c1a
e39d27027a6cc9cb039ad269a5db8e34
f8c2e1a304f9089ff742ecde40e123fb
38f37e309c2326249192df63864f0874
3c520b8da0ed61fcc0d35f24f6379a9f
d22de40b5bafa6ea8756daef3e763453
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688758984835072