[发明专利]融合文本多主题信息的股票价格预测方法、系统及介质有效
申请号: | 201910498066.0 | 申请日: | 2019-06-06 |
公开(公告)号: | CN110363568B | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 唐宁;沈艳艳;黄林鹏 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q40/04;G06N3/04 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 庄文莉 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 文本 主题 信息 股票价格 预测 方法 系统 介质 | ||
1.一种融合文本多主题信息的股票价格预测方法,其特征在于,包括:
数据预处理步骤:获取文本数据及股票数据,对获取的文本数据及股票数据进行预处理,获得预处理后数据;
模型训练步骤:根据获得的预处理后数据,对股票价格预测模型进行训练,获得训练后的模型;
股票价格预测步骤:根据获得的训练后的模型,输入历史文本数据和股票价格数据,训练后的模型输出下一个交易日的股票价格,然后进行反归一化得到股票的真实预测价格;
所述模型训练步骤:
所述对获取的文本数据及股票数据进行预处理包括:
对文本数据进行预处理:对文本数据去除停用词,将句子切割成不同的词语,并将切割后的词语用词向量表示预处理后的文本数据;
对股票数据进行预处理:先删除股票停牌数据以及缺失数据的股票数据,然后根据不同股票的价格将其归一化,获得预处理后的股票价格数据;
最后根据时间和股票代码将文本数据和股票数据对齐,即将新闻文本数据和对应的股票按时间关联起来,获得文本和股票价格对应的序列数据,即预处理后数据;
所述文本数据包括:
和股票相关的金融新闻、股票相关的 twitter的推文;
所述股票数据包括:
股票的开高低收信息、换手率;
所述模型训练步骤:
所述股票价格预测模型包括:编码器、解码器;
所述编码器三个神经网络模块:词嵌入层、多头注意力融合层以及序列编码层;
所述词嵌入层:
输入股票s在交易日t的文本数据其中为第i个文本,所述词嵌入层先将每一个文本表示为一个词向量输出文本数据的向量表示由于每个文本由一系列词组成,首先利用预训练好的中文词向量作为每个词的初始向量,即交易日t股票s第i个文本的p个词的词向量为然后利用双向循环神经网络Bi-LSTM来捕捉每个词在顺序和逆序方向的潜在语义信息,具体流程如下:
其中,
和分别表示顺序和逆序的长短时记忆神经网络;
表示读入股票s在交易日t第i个文本的第j个词后的状态向量;
表示读入股票s在交易日t第i个文本的第j个词后的状态向量;
表示股票s在交易日t第i个文本的第j个词的词向量;
表示读入在交易日t第i个文本的第j-1个词后的状态向量;
表示读入在交易日t第i个文本的第j个词后的状态向量;
表示每个词的上下文向量;
每个词经过双向训练神经网络之后的到的状态向量和取平均得到每个词的上下文向量然后用所有出现在文本中的词向量的均值作为文本的表示,如下所示:
所述多头注意力融合层:
输入一系列文本向量本层利用多头注意力机制自动获取融合不同主题信息的文本向量,首先将词嵌入层得到的文本向量通过K个需要学习的映射矩阵映射到K个不同的语义空间:
其中
表示股票s交易日t的第i个文本在第k个主题空间的向量表示;
Wk表示第k个主题空间的投影矩阵;
然后用表示经过变换后包含第k个主题的l个文本;
由于不同文本中存在重复的主题,为了保留每个主题最具代表性的特征,利用最大化池化操作提取每个主题信息:
其中
表示股票s在交易日t的所有文本在主题的k上的综合向量表示;
保留了来自的所有文本第k个主题的信息;
由于不同主题对股票价格有不同的影响,且随着时间节点的不同而变化,利用注意力机制动态地计算不同主题的影响力:
其中
表示第k个主题向量的权重;
是序列编码层的LSTM的上一步状态向量;
W是权重矩阵;
利用计算不同主题的影响力值能有效地过滤掉当前趋势不一致的不重要的噪声信息,然后利用不同的主题的影响力值计算加权和得到每天的文本信息表示:
其中,
表示股票s在交易日t经过主题融合后的文本特征向量表示;
所述序列编码层:
为了保留融合了主题信息的文本特征的时序依赖性,利用双向循环神经网络Bi-LSTM读入每天的文本信息向量输出解码层每一步的状态向量
其中,
表示解码层每一步的状态向量;
表示每天的文本信息量;
T表示解码器的步长,即输入的股票历史数据长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910498066.0/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置