[发明专利]融合文本多主题信息的股票价格预测方法、系统及介质有效
申请号: | 201910498066.0 | 申请日: | 2019-06-06 |
公开(公告)号: | CN110363568B | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 唐宁;沈艳艳;黄林鹏 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q40/04;G06N3/04 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 庄文莉 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 文本 主题 信息 股票价格 预测 方法 系统 介质 | ||
本发明提供了一种融合文本多主题信息的股票价格预测方法、系统及介质,包括:数据预处理步骤:获取文本数据及股票数据,对获取的文本数据及股票数据进行预处理,获得预处理后数据;模型训练步骤:根据获得的预处理后数据,对股票价格预测模型进行训练,获得训练后的模型。本发明利用多头注意力机制将文本向量映射到不同语义空间,然后提取主题信息,最后巧妙地用不同的注意力权重融合不同主题信息。此外本发明还利用编码器解码器框架将文本信息和股票价格信息有效地融入了一个统一的框架中,能动态的调整不同时间节点对股票价格预测的影响。
技术领域
本发明涉及股票价格预测技术领域,具体地,涉及融合文本多主题信息的股票价格预测方法、系统及介质。
背景技术
近年来,挖掘海量文本信息来预测股价取得了较好的效果。但是这些方法基本都采用一个固定长度的向量来表示每篇文本,忽略了每一篇文本可能含有多个主题以及这些不同主题可能对股票价格有不同的影响。为了充分利用文本中不同主题的信息,本发明设计了多头注意力机制将文本映射到不同语义空间,由于不同文本存在冗余信息,利用池化操作提取不同语义空间的主题信息,最后利用不同主题的影响力融合不同主题信息。时序特征对股票价格预测至关重要,本发明利用编码器解码器框架充分挖掘历史文本和股票信息,在编码器中编码融合了不同主题信息的文本特征,然后在解码器中融合文本和股票价格信息解码股票未来价格。由于不同时间的文本和股票价格特征对股票未来价格有不同的影响,本发明设计了层级注意力机制动态根据不同时间节点的重要性更加精确的预测股票未来价格。
本发明使用多头注意力机制挖掘文本中不同的主题信息然后利用编码器解码器框架挖掘不同时间文本和股票价格的时序特征,实现对股票未来价格的精准预测,主要涉及的技术包括基于文本的股票价格预测、多头注意力机制和编码器解码框架。
基于文本的股票价格预测。根据文本特征提取的方式,股票价格预测主要可以分为基于手工构造特征的方法和基于神经网络的方法。前者通过特征工程抽取文本中的名词,情感词以及结构化的事件等特征,然后基于这些特征训练不同的模型预测股票未来价格。这些基于手工构造特征的方法有两个主要的弊端:1)这些特征的抽取规则的制订需要额外的金融知识,而且随着时间的推移过去的金融知识可能不在适用与当前的特征抽取规则的制订;2)由于之前模型是在少量模型上建模预测,模型的复杂度会随着特征的增多成指数级上述,因子没法适用与具有深度交互特征的挖掘。
为了解决这些不足,研究人员提出了利用神经网络挖掘文本特征以及特征之间的深度交互。近几年,利用word2vec表示文本语义特征和循环神经网络等提取文本特征,然后利用深度神经网络预测股票价格都取得了不错的效果。然而很少有研究利用神经网络抽取文本中不同的主题特征,而且根据不同主题的重要性动态地融合不同主题的信息。
多头注意力机制。受人类的注意力机制启发,许多研究者将注意力机制广泛应用到自然语言处理、图像识别等各种不同类型的深度学习任务中。传统的注意机制只单单聚焦了输入序列语义空间中的一种特殊的子空间,只能提取输入序列中的某一方面的信息。然而句子以及文本等包含多种语义和主题的特征,传统的注意力机制无法捕捉多方面的语义特征信息。因此许多研究者尝试用多头的注意力机制从输入序列中多次提取不同的语义信息,这种方法有效的提取了句子中不同方面的信息。本发明尝试用多头注意力机制提取文本中的主题信息,并设计池化操作去除不同文本中的冗余信息,最终融合不同的主题信息。
编码器解码器框架。编码器解码器框架被广泛应用于机器翻译和对话生成等序列生成问题。编码器解码器框架将输入序列比如查询语句翻译为输入序列比如回答,主要包含两个部分:编码器和解码器。编码器通过输入序列计算除一个上下文向量,然后解码器根据编码器计算的上下文向量一步一步生成输出序列。编码器解码器框架本质上是学习一个在给定输入序列得到输出序列的条件概率分布。本发明利用编码器解码器在编码阶段融合文本信息,在解码阶段融入股票价格信息,最后做精准预测。
为了挖掘文本中包含的主题信息以及股票和文本的时序特征,本发明解决了如下几个技术难点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910498066.0/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置