Análise de textos por meio de processos estocásticos na representação word2vec
| Ano de defesa: | 2021 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de São Carlos
Câmpus São Carlos |
| Programa de Pós-Graduação: |
Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://repositorio.ufscar.br/handle/20.500.14289/14241 |
Resumo: | Within the field of Natural Language Processing (NLP), the word2vec model has been extensively explored in the field of vector representation of words. It is a neural network that is based on the hypothesis that similar words have similar contexts. In the literature in general, the text is represented by the mean vector of the representations of its words, which, in turn, is used as an explanatory variable in predictive models. An alternative is, in addition to averages, to use other measures, such as standard deviation and position measures. However, the use of these measures assumes the order of the words does not matter. Thus, in this dissertation we explore the use of stochastic processes, in particular, Time Series Models and Hidden Markov Models (HMM), to incorporate the "chronological" order of words in the construction of explanatory variables from the vector representation given by word2vec. The impact of this approach is measured with the quality of the predictive models of real data and compared to the usual ones. For the analysed data, the proposed approaches have a result that is superior to or equivalent to the usual approaches in most cases. |
| id |
SCAR_4333c964b7c427c5c322ff65aaa3f3b1 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/14241 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Massoni, GabrielaStern, Rafael Bassihttp://lattes.cnpq.br/7846211197320014http://lattes.cnpq.br/069457173384149788de5acd-d672-4013-9d22-e436f02f390c2021-05-08T08:10:04Z2021-05-08T08:10:04Z2021-03-03MASSONI, Gabriela. Análise de textos por meio de processos estocásticos na representação word2vec. 2021. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/14241.https://repositorio.ufscar.br/handle/20.500.14289/14241Within the field of Natural Language Processing (NLP), the word2vec model has been extensively explored in the field of vector representation of words. It is a neural network that is based on the hypothesis that similar words have similar contexts. In the literature in general, the text is represented by the mean vector of the representations of its words, which, in turn, is used as an explanatory variable in predictive models. An alternative is, in addition to averages, to use other measures, such as standard deviation and position measures. However, the use of these measures assumes the order of the words does not matter. Thus, in this dissertation we explore the use of stochastic processes, in particular, Time Series Models and Hidden Markov Models (HMM), to incorporate the "chronological" order of words in the construction of explanatory variables from the vector representation given by word2vec. The impact of this approach is measured with the quality of the predictive models of real data and compared to the usual ones. For the analysed data, the proposed approaches have a result that is superior to or equivalent to the usual approaches in most cases.Dentro do campo de Processamento de Linguagem Natural (NLP), o modelo word2vec vêm sendo bastante explorado no campo da representação vetorial de palavras. Ele é uma rede neural que se baseia na hipótese de que palavras semelhantes tem contextos semelhantes. Na literatura em geral, o texto é representado pelo vetor de médias das representações das suas palavras, que, por sua vez, é utilizado como variável explicativa em modelos preditivos. Um alternativa é, além da médias, utilizar outras medidas, como desvio-padrão e medidas de posição. Porém, o uso destas medidas supõe que a ordem das palavras não importa. Assim, nesta dissertação exploramos o uso de processos estocásticos, em particular, Modelos de Série Temporal e Modelos Ocultos de Markov (HMM), para incorporar a ordem "cronológica" das palavras na construção das variáveis explicativas a partir da representação vetorial dada pelo word2vec. O impacto desta abordagem é medido com a qualidade dos modelos preditivos aplicados à dados reais e comparado às abordagens usuais. Para os dados analisados, as abordagens propostas tiveram um resultado superior ou equivalente às abordagens usuais na maioria dos casos.Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)CNPQ: 131978/2019-5porUniversidade Federal de São CarlosCâmpus São CarlosPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessRepresentação vetorial de palavrasModelos de prediçãoProcessamento de linguagem naturalProcessos estocásticosWord vector representationPrediction modelsNatural language processingStochastic processCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOSCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA EM PROCESSOS ESTOCASTICOSAnálise de textos por meio de processos estocásticos na representação word2vecText mining with stochastic process in word2vec representationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis600600794fd68e-2699-488f-981f-afea4ba9c03areponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINAL[UFSCAR] Gabriela Massoni - Dissertação_VersãoFinal.pdf[UFSCAR] Gabriela Massoni - Dissertação_VersãoFinal.pdfapplication/pdf1024472https://repositorio.ufscar.br/bitstreams/afeb8973-e4b7-48cf-98bf-07e88c9b36a0/download25fa0596ae6dcc8a27629b7a8a781389MD51trueAnonymousREAD[UFSCAR] Gabriela Massoni - cartacomprovantepipges.pdf[UFSCAR] Gabriela Massoni - cartacomprovantepipges.pdfapplication/pdf205892https://repositorio.ufscar.br/bitstreams/0f230e90-7a99-4bc7-8b65-fb6390dee120/downloadcfbfb742a7f1bc6603c935132dd87c1aMD53falseAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstreams/79b195d6-34fd-4b6a-985f-1601a7c676f6/downloade39d27027a6cc9cb039ad269a5db8e34MD55falseAnonymousREADTEXT[UFSCAR] Gabriela Massoni - Dissertação_VersãoFinal.pdf.txt[UFSCAR] Gabriela Massoni - Dissertação_VersãoFinal.pdf.txtExtracted texttext/plain67604https://repositorio.ufscar.br/bitstreams/6d51476e-3866-402a-9424-d649b91d4082/downloadf8c2e1a304f9089ff742ecde40e123fbMD510falseAnonymousREAD[UFSCAR] Gabriela Massoni - cartacomprovantepipges.pdf.txt[UFSCAR] Gabriela Massoni - cartacomprovantepipges.pdf.txtExtracted texttext/plain1248https://repositorio.ufscar.br/bitstreams/f7d163a5-0b6a-4ad7-9417-a7443080e33f/download38f37e309c2326249192df63864f0874MD512falseAnonymousREADTHUMBNAIL[UFSCAR] Gabriela Massoni - Dissertação_VersãoFinal.pdf.jpg[UFSCAR] Gabriela Massoni - Dissertação_VersãoFinal.pdf.jpgIM Thumbnailimage/jpeg12622https://repositorio.ufscar.br/bitstreams/038bc2a4-f0fe-47c2-8972-c0a38fa58035/download3c520b8da0ed61fcc0d35f24f6379a9fMD511falseAnonymousREAD[UFSCAR] Gabriela Massoni - cartacomprovantepipges.pdf.jpg[UFSCAR] Gabriela Massoni - cartacomprovantepipges.pdf.jpgIM Thumbnailimage/jpeg6236https://repositorio.ufscar.br/bitstreams/54e2712d-699b-40a4-902d-60d7c92da860/downloadd22de40b5bafa6ea8756daef3e763453MD513falseAnonymousREAD20.500.14289/142412025-02-05 19:42:29.122http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/14241https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-05T22:42:29Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.por.fl_str_mv |
Análise de textos por meio de processos estocásticos na representação word2vec |
| dc.title.alternative.eng.fl_str_mv |
Text mining with stochastic process in word2vec representation |
| title |
Análise de textos por meio de processos estocásticos na representação word2vec |
| spellingShingle |
Análise de textos por meio de processos estocásticos na representação word2vec Massoni, Gabriela Representação vetorial de palavras Modelos de predição Processamento de linguagem natural Processos estocásticos Word vector representation Prediction models Natural language processing Stochastic process CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA EM PROCESSOS ESTOCASTICOS |
| title_short |
Análise de textos por meio de processos estocásticos na representação word2vec |
| title_full |
Análise de textos por meio de processos estocásticos na representação word2vec |
| title_fullStr |
Análise de textos por meio de processos estocásticos na representação word2vec |
| title_full_unstemmed |
Análise de textos por meio de processos estocásticos na representação word2vec |
| title_sort |
Análise de textos por meio de processos estocásticos na representação word2vec |
| author |
Massoni, Gabriela |
| author_facet |
Massoni, Gabriela |
| author_role |
author |
| dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/0694571733841497 |
| dc.contributor.author.fl_str_mv |
Massoni, Gabriela |
| dc.contributor.advisor1.fl_str_mv |
Stern, Rafael Bassi |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/7846211197320014 |
| dc.contributor.authorID.fl_str_mv |
88de5acd-d672-4013-9d22-e436f02f390c |
| contributor_str_mv |
Stern, Rafael Bassi |
| dc.subject.por.fl_str_mv |
Representação vetorial de palavras Modelos de predição Processamento de linguagem natural Processos estocásticos |
| topic |
Representação vetorial de palavras Modelos de predição Processamento de linguagem natural Processos estocásticos Word vector representation Prediction models Natural language processing Stochastic process CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA EM PROCESSOS ESTOCASTICOS |
| dc.subject.eng.fl_str_mv |
Word vector representation Prediction models Natural language processing Stochastic process |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA EM PROCESSOS ESTOCASTICOS |
| description |
Within the field of Natural Language Processing (NLP), the word2vec model has been extensively explored in the field of vector representation of words. It is a neural network that is based on the hypothesis that similar words have similar contexts. In the literature in general, the text is represented by the mean vector of the representations of its words, which, in turn, is used as an explanatory variable in predictive models. An alternative is, in addition to averages, to use other measures, such as standard deviation and position measures. However, the use of these measures assumes the order of the words does not matter. Thus, in this dissertation we explore the use of stochastic processes, in particular, Time Series Models and Hidden Markov Models (HMM), to incorporate the "chronological" order of words in the construction of explanatory variables from the vector representation given by word2vec. The impact of this approach is measured with the quality of the predictive models of real data and compared to the usual ones. For the analysed data, the proposed approaches have a result that is superior to or equivalent to the usual approaches in most cases. |
| publishDate |
2021 |
| dc.date.accessioned.fl_str_mv |
2021-05-08T08:10:04Z |
| dc.date.available.fl_str_mv |
2021-05-08T08:10:04Z |
| dc.date.issued.fl_str_mv |
2021-03-03 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
MASSONI, Gabriela. Análise de textos por meio de processos estocásticos na representação word2vec. 2021. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/14241. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/20.500.14289/14241 |
| identifier_str_mv |
MASSONI, Gabriela. Análise de textos por meio de processos estocásticos na representação word2vec. 2021. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/14241. |
| url |
https://repositorio.ufscar.br/handle/20.500.14289/14241 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.confidence.fl_str_mv |
600 600 |
| dc.relation.authority.fl_str_mv |
794fd68e-2699-488f-981f-afea4ba9c03a |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.publisher.program.fl_str_mv |
Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/afeb8973-e4b7-48cf-98bf-07e88c9b36a0/download https://repositorio.ufscar.br/bitstreams/0f230e90-7a99-4bc7-8b65-fb6390dee120/download https://repositorio.ufscar.br/bitstreams/79b195d6-34fd-4b6a-985f-1601a7c676f6/download https://repositorio.ufscar.br/bitstreams/6d51476e-3866-402a-9424-d649b91d4082/download https://repositorio.ufscar.br/bitstreams/f7d163a5-0b6a-4ad7-9417-a7443080e33f/download https://repositorio.ufscar.br/bitstreams/038bc2a4-f0fe-47c2-8972-c0a38fa58035/download https://repositorio.ufscar.br/bitstreams/54e2712d-699b-40a4-902d-60d7c92da860/download |
| bitstream.checksum.fl_str_mv |
25fa0596ae6dcc8a27629b7a8a781389 cfbfb742a7f1bc6603c935132dd87c1a e39d27027a6cc9cb039ad269a5db8e34 f8c2e1a304f9089ff742ecde40e123fb 38f37e309c2326249192df63864f0874 3c520b8da0ed61fcc0d35f24f6379a9f d22de40b5bafa6ea8756daef3e763453 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1851688758984835072 |