Enriquecendo a previsão de séries temporais usando informação textual

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Cruz, Lord Flaubert Steve Ataucuri
Orientador(a): Silva, Diego Furtado lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Câmpus São Carlos
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação - PPGCC
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufscar.br/handle/20.500.14289/14258
Resumo: The ability to extract knowledge and forecast stock trends is crucial to mitigate investors' risks and uncertainties in the market. The stock trend is affected by non-linearity, complexity, noise, and especially the surrounding events. External factors such as daily news became one of the investors' primary resources for making decisions about buying or selling assets. However, this kind of information appears very fast. There are thousands of news generated by numerous web sources, taking a long time to analyze them, which can cost millions of dollars losses for investors due to a late decision. Recent contextual language models have transformed the area of natural language processing. However, classification models that use news that influence stock values need to deal with the unlabeled, class imbalance, and dissimilar texts. Recent studies show that the prediction of time series substantially improves by considering external information. This work proposes a hybrid methodology with three phases, one for news mining, a model for representation compact features, and the forecast model of time series, which merge for a more accurate prediction of prices. Initially, a small corpus is built using as support the time series. After that, we label the corpus based on semi-supervised learning to assign labels to other unlabeled news. In the second phase, the mining model with a classifier is used, whose output is concatenated with time series features, so the compact model representation extracts new features in a latent space. Finally, we predicted future prices with this fused knowledge. In a case study with Bitcoin cryptocurrency, the proposed methodology achieved a 1.62% decrease in the mean absolute percentage error.
id SCAR_2c8856a76077e11eb3596997bf6c1561
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/14258
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Cruz, Lord Flaubert Steve AtaucuriSilva, Diego Furtadohttp://lattes.cnpq.br/7662777934692986http://lattes.cnpq.br/1425203651680429dc3f6ebb-2ee5-4448-b36f-f563c98ea7492021-05-13T13:33:44Z2021-05-13T13:33:44Z2021-02-25CRUZ, Lord Flaubert Steve Ataucuri. Enriquecendo a previsão de séries temporais usando informação textual. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/14258.https://repositorio.ufscar.br/handle/20.500.14289/14258The ability to extract knowledge and forecast stock trends is crucial to mitigate investors' risks and uncertainties in the market. The stock trend is affected by non-linearity, complexity, noise, and especially the surrounding events. External factors such as daily news became one of the investors' primary resources for making decisions about buying or selling assets. However, this kind of information appears very fast. There are thousands of news generated by numerous web sources, taking a long time to analyze them, which can cost millions of dollars losses for investors due to a late decision. Recent contextual language models have transformed the area of natural language processing. However, classification models that use news that influence stock values need to deal with the unlabeled, class imbalance, and dissimilar texts. Recent studies show that the prediction of time series substantially improves by considering external information. This work proposes a hybrid methodology with three phases, one for news mining, a model for representation compact features, and the forecast model of time series, which merge for a more accurate prediction of prices. Initially, a small corpus is built using as support the time series. After that, we label the corpus based on semi-supervised learning to assign labels to other unlabeled news. In the second phase, the mining model with a classifier is used, whose output is concatenated with time series features, so the compact model representation extracts new features in a latent space. Finally, we predicted future prices with this fused knowledge. In a case study with Bitcoin cryptocurrency, the proposed methodology achieved a 1.62% decrease in the mean absolute percentage error.A capacidade de extrair conhecimento e prever tendências de ações é crucial para mitigar os riscos e incertezas dos investidores no mercado. A tendência das ações é afetada pela não linearidade, complexidade, ruído e especialmente, eventos do entorno. Fatores externos, como notícias diárias, tornaram-se um dos principais recursos dos investidores para a tomada de decisões sobre a compra ou venda de ativos. Porém, essas notícias acontecem muito rápido, são milhares de notícias geradas por diferentes sítios web, demorando muito para serem analisadas, o que pode custar milhões de dólares em perdas para seus investidores devido a uma decisão tardia. Abordagens recentes baseadas em modelos de linguagem contextuais transformaram a área de processamento de linguagem natural. No entanto, os modelos de classificação que usam notícias que influenciam as ações lidam com textos não rotulados, desbalanceados e dissimilares. Estudos recentes mostram que a previsão de séries temporais melhora substancialmente ao considerar informações externas. Este trabalho propõe uma metodologia híbrida em três fases, uma para a mineração de notícias, um modelo de representação de características compactas e uma para a previsão de séries temporais, que se fundem para uma previsão mais precisa dos preços. Inicialmente é construído um corpus pequeno a partir da serie temporal. Após isso, utiliza-se uma rotulação baseada em aprendizado semissupervisionado para atribuir rótulos às demais notícias. Na segunda fase, é realizado o processo de mineração de textos com um classificador de novas notícias, cuja saída é alinhada as características da serie temporal, para que o modelo de representação compactada extraia novas características num espaço latente. Finalmente, realizamos a predição dos preços futuros com este conhecimento fundido. Em um estudo de caso com a cripto-moeda Bitcoin, a metodologia proposta alcançou uma diminuição de 1.62% no porcentagem de erro médio absoluto.Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CNPq: 49096/2018-6CAPES: Código de Financiamento 001porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessAnálise de sentimento para séries temporaisEnriquecendo as séries temporaisComputação financeirasPrevisão de séries temporaisPrevisão com aprendizado profundoPrevisão de séries temporais com lstmSentiment analysis for time seriesEnrich time seriesComputational financeTime series forecastingDeep learning forecastinglstm time series forecastingCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOEnriquecendo a previsão de séries temporais usando informação textualEnriching time series forecasting using textual informationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis6009185a24d-3ee1-48a1-82f2-dad58a6b653ereponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALSteveDefesa.pdfSteveDefesa.pdfDissertacao de Mestradoapplication/pdf3579407https://repositorio.ufscar.br/bitstreams/e15a0f84-5e5a-4b26-8001-1509aeacef91/download0af96d6971fa4db25790617e8a8ee505MD51trueAnonymousREADCarta Comprovante de Versão Final.pdfCarta Comprovante de Versão Final.pdfCarta Comprovante de Versão Finalapplication/pdf99961https://repositorio.ufscar.br/bitstreams/b0e77277-c1af-477f-a62d-49256e83a1e7/downloadc47949ea67b68d4ed3a071b7047f4b40MD52falseAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstreams/918742ac-df2e-48a8-9b97-9f8ba0568464/downloade39d27027a6cc9cb039ad269a5db8e34MD53falseAnonymousREADTEXTSteveDefesa.pdf.txtSteveDefesa.pdf.txtExtracted texttext/plain313016https://repositorio.ufscar.br/bitstreams/2123a823-6ffe-4b6e-b0fd-ce38fc174167/downloadddf5ef8b244e4461a4fd48ee189b669dMD58falseAnonymousREADCarta Comprovante de Versão Final.pdf.txtCarta Comprovante de Versão Final.pdf.txtExtracted texttext/plain1489https://repositorio.ufscar.br/bitstreams/3368a34c-1a28-43f6-91fc-c187f4015170/download82a9a09944a29e36109a58482827cbd9MD510falseAnonymousREADTHUMBNAILSteveDefesa.pdf.jpgSteveDefesa.pdf.jpgIM Thumbnailimage/jpeg3898https://repositorio.ufscar.br/bitstreams/63f92872-8a6a-4fd7-a4b4-57c4af502d6e/download4ba8936c8c54f1672b0d17d520ebe550MD59falseAnonymousREADCarta Comprovante de Versão Final.pdf.jpgCarta Comprovante de Versão Final.pdf.jpgIM Thumbnailimage/jpeg13255https://repositorio.ufscar.br/bitstreams/0d521933-beaa-423d-83e3-7dd31115bd41/download95722aac3061b1f0f513189b49ab3bdbMD511falseAnonymousREAD20.500.14289/142582025-02-05 19:43:23.595http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/14258https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-05T22:43:23Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Enriquecendo a previsão de séries temporais usando informação textual
dc.title.alternative.eng.fl_str_mv Enriching time series forecasting using textual information
title Enriquecendo a previsão de séries temporais usando informação textual
spellingShingle Enriquecendo a previsão de séries temporais usando informação textual
Cruz, Lord Flaubert Steve Ataucuri
Análise de sentimento para séries temporais
Enriquecendo as séries temporais
Computação financeiras
Previsão de séries temporais
Previsão com aprendizado profundo
Previsão de séries temporais com lstm
Sentiment analysis for time series
Enrich time series
Computational finance
Time series forecasting
Deep learning forecasting
lstm time series forecasting
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
title_short Enriquecendo a previsão de séries temporais usando informação textual
title_full Enriquecendo a previsão de séries temporais usando informação textual
title_fullStr Enriquecendo a previsão de séries temporais usando informação textual
title_full_unstemmed Enriquecendo a previsão de séries temporais usando informação textual
title_sort Enriquecendo a previsão de séries temporais usando informação textual
author Cruz, Lord Flaubert Steve Ataucuri
author_facet Cruz, Lord Flaubert Steve Ataucuri
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/1425203651680429
dc.contributor.author.fl_str_mv Cruz, Lord Flaubert Steve Ataucuri
dc.contributor.advisor1.fl_str_mv Silva, Diego Furtado
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/7662777934692986
dc.contributor.authorID.fl_str_mv dc3f6ebb-2ee5-4448-b36f-f563c98ea749
contributor_str_mv Silva, Diego Furtado
dc.subject.por.fl_str_mv Análise de sentimento para séries temporais
Enriquecendo as séries temporais
Computação financeiras
Previsão de séries temporais
Previsão com aprendizado profundo
Previsão de séries temporais com lstm
topic Análise de sentimento para séries temporais
Enriquecendo as séries temporais
Computação financeiras
Previsão de séries temporais
Previsão com aprendizado profundo
Previsão de séries temporais com lstm
Sentiment analysis for time series
Enrich time series
Computational finance
Time series forecasting
Deep learning forecasting
lstm time series forecasting
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.eng.fl_str_mv Sentiment analysis for time series
Enrich time series
Computational finance
Time series forecasting
Deep learning forecasting
lstm time series forecasting
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
description The ability to extract knowledge and forecast stock trends is crucial to mitigate investors' risks and uncertainties in the market. The stock trend is affected by non-linearity, complexity, noise, and especially the surrounding events. External factors such as daily news became one of the investors' primary resources for making decisions about buying or selling assets. However, this kind of information appears very fast. There are thousands of news generated by numerous web sources, taking a long time to analyze them, which can cost millions of dollars losses for investors due to a late decision. Recent contextual language models have transformed the area of natural language processing. However, classification models that use news that influence stock values need to deal with the unlabeled, class imbalance, and dissimilar texts. Recent studies show that the prediction of time series substantially improves by considering external information. This work proposes a hybrid methodology with three phases, one for news mining, a model for representation compact features, and the forecast model of time series, which merge for a more accurate prediction of prices. Initially, a small corpus is built using as support the time series. After that, we label the corpus based on semi-supervised learning to assign labels to other unlabeled news. In the second phase, the mining model with a classifier is used, whose output is concatenated with time series features, so the compact model representation extracts new features in a latent space. Finally, we predicted future prices with this fused knowledge. In a case study with Bitcoin cryptocurrency, the proposed methodology achieved a 1.62% decrease in the mean absolute percentage error.
publishDate 2021
dc.date.accessioned.fl_str_mv 2021-05-13T13:33:44Z
dc.date.available.fl_str_mv 2021-05-13T13:33:44Z
dc.date.issued.fl_str_mv 2021-02-25
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv CRUZ, Lord Flaubert Steve Ataucuri. Enriquecendo a previsão de séries temporais usando informação textual. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/14258.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/14258
identifier_str_mv CRUZ, Lord Flaubert Steve Ataucuri. Enriquecendo a previsão de séries temporais usando informação textual. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/14258.
url https://repositorio.ufscar.br/handle/20.500.14289/14258
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
dc.relation.authority.fl_str_mv 9185a24d-3ee1-48a1-82f2-dad58a6b653e
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/e15a0f84-5e5a-4b26-8001-1509aeacef91/download
https://repositorio.ufscar.br/bitstreams/b0e77277-c1af-477f-a62d-49256e83a1e7/download
https://repositorio.ufscar.br/bitstreams/918742ac-df2e-48a8-9b97-9f8ba0568464/download
https://repositorio.ufscar.br/bitstreams/2123a823-6ffe-4b6e-b0fd-ce38fc174167/download
https://repositorio.ufscar.br/bitstreams/3368a34c-1a28-43f6-91fc-c187f4015170/download
https://repositorio.ufscar.br/bitstreams/63f92872-8a6a-4fd7-a4b4-57c4af502d6e/download
https://repositorio.ufscar.br/bitstreams/0d521933-beaa-423d-83e3-7dd31115bd41/download
bitstream.checksum.fl_str_mv 0af96d6971fa4db25790617e8a8ee505
c47949ea67b68d4ed3a071b7047f4b40
e39d27027a6cc9cb039ad269a5db8e34
ddf5ef8b244e4461a4fd48ee189b669d
82a9a09944a29e36109a58482827cbd9
4ba8936c8c54f1672b0d17d520ebe550
95722aac3061b1f0f513189b49ab3bdb
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688753236541440