Enriquecendo a previsão de séries temporais usando informação textual
| Ano de defesa: | 2021 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de São Carlos
Câmpus São Carlos |
| Programa de Pós-Graduação: |
Programa de Pós-Graduação em Ciência da Computação - PPGCC
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://repositorio.ufscar.br/handle/20.500.14289/14258 |
Resumo: | The ability to extract knowledge and forecast stock trends is crucial to mitigate investors' risks and uncertainties in the market. The stock trend is affected by non-linearity, complexity, noise, and especially the surrounding events. External factors such as daily news became one of the investors' primary resources for making decisions about buying or selling assets. However, this kind of information appears very fast. There are thousands of news generated by numerous web sources, taking a long time to analyze them, which can cost millions of dollars losses for investors due to a late decision. Recent contextual language models have transformed the area of natural language processing. However, classification models that use news that influence stock values need to deal with the unlabeled, class imbalance, and dissimilar texts. Recent studies show that the prediction of time series substantially improves by considering external information. This work proposes a hybrid methodology with three phases, one for news mining, a model for representation compact features, and the forecast model of time series, which merge for a more accurate prediction of prices. Initially, a small corpus is built using as support the time series. After that, we label the corpus based on semi-supervised learning to assign labels to other unlabeled news. In the second phase, the mining model with a classifier is used, whose output is concatenated with time series features, so the compact model representation extracts new features in a latent space. Finally, we predicted future prices with this fused knowledge. In a case study with Bitcoin cryptocurrency, the proposed methodology achieved a 1.62% decrease in the mean absolute percentage error. |
| id |
SCAR_2c8856a76077e11eb3596997bf6c1561 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/14258 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Cruz, Lord Flaubert Steve AtaucuriSilva, Diego Furtadohttp://lattes.cnpq.br/7662777934692986http://lattes.cnpq.br/1425203651680429dc3f6ebb-2ee5-4448-b36f-f563c98ea7492021-05-13T13:33:44Z2021-05-13T13:33:44Z2021-02-25CRUZ, Lord Flaubert Steve Ataucuri. Enriquecendo a previsão de séries temporais usando informação textual. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/14258.https://repositorio.ufscar.br/handle/20.500.14289/14258The ability to extract knowledge and forecast stock trends is crucial to mitigate investors' risks and uncertainties in the market. The stock trend is affected by non-linearity, complexity, noise, and especially the surrounding events. External factors such as daily news became one of the investors' primary resources for making decisions about buying or selling assets. However, this kind of information appears very fast. There are thousands of news generated by numerous web sources, taking a long time to analyze them, which can cost millions of dollars losses for investors due to a late decision. Recent contextual language models have transformed the area of natural language processing. However, classification models that use news that influence stock values need to deal with the unlabeled, class imbalance, and dissimilar texts. Recent studies show that the prediction of time series substantially improves by considering external information. This work proposes a hybrid methodology with three phases, one for news mining, a model for representation compact features, and the forecast model of time series, which merge for a more accurate prediction of prices. Initially, a small corpus is built using as support the time series. After that, we label the corpus based on semi-supervised learning to assign labels to other unlabeled news. In the second phase, the mining model with a classifier is used, whose output is concatenated with time series features, so the compact model representation extracts new features in a latent space. Finally, we predicted future prices with this fused knowledge. In a case study with Bitcoin cryptocurrency, the proposed methodology achieved a 1.62% decrease in the mean absolute percentage error.A capacidade de extrair conhecimento e prever tendências de ações é crucial para mitigar os riscos e incertezas dos investidores no mercado. A tendência das ações é afetada pela não linearidade, complexidade, ruído e especialmente, eventos do entorno. Fatores externos, como notícias diárias, tornaram-se um dos principais recursos dos investidores para a tomada de decisões sobre a compra ou venda de ativos. Porém, essas notícias acontecem muito rápido, são milhares de notícias geradas por diferentes sítios web, demorando muito para serem analisadas, o que pode custar milhões de dólares em perdas para seus investidores devido a uma decisão tardia. Abordagens recentes baseadas em modelos de linguagem contextuais transformaram a área de processamento de linguagem natural. No entanto, os modelos de classificação que usam notícias que influenciam as ações lidam com textos não rotulados, desbalanceados e dissimilares. Estudos recentes mostram que a previsão de séries temporais melhora substancialmente ao considerar informações externas. Este trabalho propõe uma metodologia híbrida em três fases, uma para a mineração de notícias, um modelo de representação de características compactas e uma para a previsão de séries temporais, que se fundem para uma previsão mais precisa dos preços. Inicialmente é construído um corpus pequeno a partir da serie temporal. Após isso, utiliza-se uma rotulação baseada em aprendizado semissupervisionado para atribuir rótulos às demais notícias. Na segunda fase, é realizado o processo de mineração de textos com um classificador de novas notícias, cuja saída é alinhada as características da serie temporal, para que o modelo de representação compactada extraia novas características num espaço latente. Finalmente, realizamos a predição dos preços futuros com este conhecimento fundido. Em um estudo de caso com a cripto-moeda Bitcoin, a metodologia proposta alcançou uma diminuição de 1.62% no porcentagem de erro médio absoluto.Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CNPq: 49096/2018-6CAPES: Código de Financiamento 001porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessAnálise de sentimento para séries temporaisEnriquecendo as séries temporaisComputação financeirasPrevisão de séries temporaisPrevisão com aprendizado profundoPrevisão de séries temporais com lstmSentiment analysis for time seriesEnrich time seriesComputational financeTime series forecastingDeep learning forecastinglstm time series forecastingCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOEnriquecendo a previsão de séries temporais usando informação textualEnriching time series forecasting using textual informationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis6009185a24d-3ee1-48a1-82f2-dad58a6b653ereponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALSteveDefesa.pdfSteveDefesa.pdfDissertacao de Mestradoapplication/pdf3579407https://repositorio.ufscar.br/bitstreams/e15a0f84-5e5a-4b26-8001-1509aeacef91/download0af96d6971fa4db25790617e8a8ee505MD51trueAnonymousREADCarta Comprovante de Versão Final.pdfCarta Comprovante de Versão Final.pdfCarta Comprovante de Versão Finalapplication/pdf99961https://repositorio.ufscar.br/bitstreams/b0e77277-c1af-477f-a62d-49256e83a1e7/downloadc47949ea67b68d4ed3a071b7047f4b40MD52falseAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstreams/918742ac-df2e-48a8-9b97-9f8ba0568464/downloade39d27027a6cc9cb039ad269a5db8e34MD53falseAnonymousREADTEXTSteveDefesa.pdf.txtSteveDefesa.pdf.txtExtracted texttext/plain313016https://repositorio.ufscar.br/bitstreams/2123a823-6ffe-4b6e-b0fd-ce38fc174167/downloadddf5ef8b244e4461a4fd48ee189b669dMD58falseAnonymousREADCarta Comprovante de Versão Final.pdf.txtCarta Comprovante de Versão Final.pdf.txtExtracted texttext/plain1489https://repositorio.ufscar.br/bitstreams/3368a34c-1a28-43f6-91fc-c187f4015170/download82a9a09944a29e36109a58482827cbd9MD510falseAnonymousREADTHUMBNAILSteveDefesa.pdf.jpgSteveDefesa.pdf.jpgIM Thumbnailimage/jpeg3898https://repositorio.ufscar.br/bitstreams/63f92872-8a6a-4fd7-a4b4-57c4af502d6e/download4ba8936c8c54f1672b0d17d520ebe550MD59falseAnonymousREADCarta Comprovante de Versão Final.pdf.jpgCarta Comprovante de Versão Final.pdf.jpgIM Thumbnailimage/jpeg13255https://repositorio.ufscar.br/bitstreams/0d521933-beaa-423d-83e3-7dd31115bd41/download95722aac3061b1f0f513189b49ab3bdbMD511falseAnonymousREAD20.500.14289/142582025-02-05 19:43:23.595http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/14258https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-05T22:43:23Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.por.fl_str_mv |
Enriquecendo a previsão de séries temporais usando informação textual |
| dc.title.alternative.eng.fl_str_mv |
Enriching time series forecasting using textual information |
| title |
Enriquecendo a previsão de séries temporais usando informação textual |
| spellingShingle |
Enriquecendo a previsão de séries temporais usando informação textual Cruz, Lord Flaubert Steve Ataucuri Análise de sentimento para séries temporais Enriquecendo as séries temporais Computação financeiras Previsão de séries temporais Previsão com aprendizado profundo Previsão de séries temporais com lstm Sentiment analysis for time series Enrich time series Computational finance Time series forecasting Deep learning forecasting lstm time series forecasting CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
| title_short |
Enriquecendo a previsão de séries temporais usando informação textual |
| title_full |
Enriquecendo a previsão de séries temporais usando informação textual |
| title_fullStr |
Enriquecendo a previsão de séries temporais usando informação textual |
| title_full_unstemmed |
Enriquecendo a previsão de séries temporais usando informação textual |
| title_sort |
Enriquecendo a previsão de séries temporais usando informação textual |
| author |
Cruz, Lord Flaubert Steve Ataucuri |
| author_facet |
Cruz, Lord Flaubert Steve Ataucuri |
| author_role |
author |
| dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/1425203651680429 |
| dc.contributor.author.fl_str_mv |
Cruz, Lord Flaubert Steve Ataucuri |
| dc.contributor.advisor1.fl_str_mv |
Silva, Diego Furtado |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/7662777934692986 |
| dc.contributor.authorID.fl_str_mv |
dc3f6ebb-2ee5-4448-b36f-f563c98ea749 |
| contributor_str_mv |
Silva, Diego Furtado |
| dc.subject.por.fl_str_mv |
Análise de sentimento para séries temporais Enriquecendo as séries temporais Computação financeiras Previsão de séries temporais Previsão com aprendizado profundo Previsão de séries temporais com lstm |
| topic |
Análise de sentimento para séries temporais Enriquecendo as séries temporais Computação financeiras Previsão de séries temporais Previsão com aprendizado profundo Previsão de séries temporais com lstm Sentiment analysis for time series Enrich time series Computational finance Time series forecasting Deep learning forecasting lstm time series forecasting CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
| dc.subject.eng.fl_str_mv |
Sentiment analysis for time series Enrich time series Computational finance Time series forecasting Deep learning forecasting lstm time series forecasting |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
| description |
The ability to extract knowledge and forecast stock trends is crucial to mitigate investors' risks and uncertainties in the market. The stock trend is affected by non-linearity, complexity, noise, and especially the surrounding events. External factors such as daily news became one of the investors' primary resources for making decisions about buying or selling assets. However, this kind of information appears very fast. There are thousands of news generated by numerous web sources, taking a long time to analyze them, which can cost millions of dollars losses for investors due to a late decision. Recent contextual language models have transformed the area of natural language processing. However, classification models that use news that influence stock values need to deal with the unlabeled, class imbalance, and dissimilar texts. Recent studies show that the prediction of time series substantially improves by considering external information. This work proposes a hybrid methodology with three phases, one for news mining, a model for representation compact features, and the forecast model of time series, which merge for a more accurate prediction of prices. Initially, a small corpus is built using as support the time series. After that, we label the corpus based on semi-supervised learning to assign labels to other unlabeled news. In the second phase, the mining model with a classifier is used, whose output is concatenated with time series features, so the compact model representation extracts new features in a latent space. Finally, we predicted future prices with this fused knowledge. In a case study with Bitcoin cryptocurrency, the proposed methodology achieved a 1.62% decrease in the mean absolute percentage error. |
| publishDate |
2021 |
| dc.date.accessioned.fl_str_mv |
2021-05-13T13:33:44Z |
| dc.date.available.fl_str_mv |
2021-05-13T13:33:44Z |
| dc.date.issued.fl_str_mv |
2021-02-25 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
CRUZ, Lord Flaubert Steve Ataucuri. Enriquecendo a previsão de séries temporais usando informação textual. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/14258. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/20.500.14289/14258 |
| identifier_str_mv |
CRUZ, Lord Flaubert Steve Ataucuri. Enriquecendo a previsão de séries temporais usando informação textual. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/14258. |
| url |
https://repositorio.ufscar.br/handle/20.500.14289/14258 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.confidence.fl_str_mv |
600 |
| dc.relation.authority.fl_str_mv |
9185a24d-3ee1-48a1-82f2-dad58a6b653e |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/e15a0f84-5e5a-4b26-8001-1509aeacef91/download https://repositorio.ufscar.br/bitstreams/b0e77277-c1af-477f-a62d-49256e83a1e7/download https://repositorio.ufscar.br/bitstreams/918742ac-df2e-48a8-9b97-9f8ba0568464/download https://repositorio.ufscar.br/bitstreams/2123a823-6ffe-4b6e-b0fd-ce38fc174167/download https://repositorio.ufscar.br/bitstreams/3368a34c-1a28-43f6-91fc-c187f4015170/download https://repositorio.ufscar.br/bitstreams/63f92872-8a6a-4fd7-a4b4-57c4af502d6e/download https://repositorio.ufscar.br/bitstreams/0d521933-beaa-423d-83e3-7dd31115bd41/download |
| bitstream.checksum.fl_str_mv |
0af96d6971fa4db25790617e8a8ee505 c47949ea67b68d4ed3a071b7047f4b40 e39d27027a6cc9cb039ad269a5db8e34 ddf5ef8b244e4461a4fd48ee189b669d 82a9a09944a29e36109a58482827cbd9 4ba8936c8c54f1672b0d17d520ebe550 95722aac3061b1f0f513189b49ab3bdb |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1851688753236541440 |