[发明专利]一种基于人工智能的股票新闻量化方法及系统在审
申请号: | 201711294146.1 | 申请日: | 2017-12-08 |
公开(公告)号: | CN107895051A | 公开(公告)日: | 2018-04-10 |
发明(设计)人: | 张潇 | 申请(专利权)人: | 宏谷信息科技(珠海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06N3/04;G06N3/08;G06Q40/04 |
代理公司: | 杭州千克知识产权代理有限公司33246 | 代理人: | 郭扬部 |
地址: | 519031 广东省珠海市横琴新区环岛东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 股票 新闻 量化 方法 系统 | ||
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于人工智能的股票新闻量化方法及系统。
背景技术
股票价格预测是指利用价格的历史信息以及股票相关的市场信息,预测股票在未来一段时间的涨跌情况或者价格情况。近几年来,深度学习方法在自然语言处理领域取得了许多进展。深度学习方法也逐渐运用到股票预测领域。
TH Nguyen等利用主体模型来预测股票价格。在文献[Topic modeling based sentiment analysis on social media for stock market prediction]中,他们提出一个融合情感和话题的主题模型,并将该模型运用到股票相关新闻的主体分析中。在获得了每个新闻的主题分布向量后,他们将这个主题向量加入到股票预测的特征中,最终获得了不错的预测效果。但是却忽略了金融领域本身独有的特征。
除了与股票相关的新闻信息,大众媒体与社交媒体上的内容也被用于股票预测。Johan Bollen等在文献[Twitter mood predicts the stock market]中运用Twitter上的内容对股市的涨跌作出预测。他们使用OpinionFinde等工具分析Twitter上每天的大众情感,然后将这些情感特征加入到预测模型中,对股市的涨跌作出预测。但是只能对股市整体的情况作出预测,不适用于单个股票的预测。
股票相关的新闻信息通常与股票本身的发展形势较为相关,也容易包含一些利好极性的术语等,因此Zeya Zhang等人在相关工作[Stock prediction:a method based on extraction of news features and recurrent neural networks]中使用了新闻的利好极性区间分布作为其特征,并与历史价格信息一并放入循环神经网络中进行计算。但是新闻文本中含着丰富的信息,仅从利好极性去考虑并不充分。
发明内容
本发明要解决的技术问题目的在于提供一种基于人工智能的股票新闻量化方法及系统,用以解决现有的股票预测的新闻参考因素具有片面性的问题。
为了实现上述目的,本发明采用的技术方案为:
一种基于人工智能的股票新闻量化方法,包括步骤:
获取预设时间内交易日的股票新闻序列;
将所述股票新闻序列按照预设长度划分为词序列;
判断所述股票新闻是否为交易日当天的新闻,若是,则利用Word2Vec与GloVe得到所述新闻的每个词项的词向量特征;
若所述股票新闻不是交易日当天的新闻,则利用fastText得到所述新闻的文档向量特征。
进一步地,所述利用Word2Vec与GloVe得到所述新闻的每个词项的词向量特征的步骤具体包括:
利用Word2Vec得到预测上下文的词项并通过最大化条件概率学习得到第一词向量特征;
利用GloVe得到基于全局信息的第二词向量特征;
将所述第一词向量特征及所述第二词向量特征拼接得到每个词项的词向量特征。
进一步地,所述利用Word2Vec得到各词项间的线性关系的步骤具体包括:
设定词项wi的上下文为在当前句子中与所述词项的距离小于k的词项的集合Context(wi):
Context(wi)={wi-k,wi-k+1,...,wi-1,Wi+1,...,wi+k};
其中,i表示所述词项在句子中的位置;
得到目标预测词o出现在所述词项wi的条件概率为:
其中,u0为目标预测词o的外矢量,为目标预测词o的内矢量;
构建Skip-Gram模型;根据所述条件概率得到Skip-Gram模型的损失函数:
其中,T为当前句子词项的总数,j为与所述词项的距离,m为与所述词项的最大距离。
进一步地,所述利用GloVe得到基于全局信息的第二词向量特征的步骤具体包括:
在共现矩阵构造与所述Skip-Gram模型条件匹配的模型;
所述模型的损失函数为:
进一步地,所述利用fastText得到所述新闻的文档向量特征的步骤具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宏谷信息科技(珠海)有限公司,未经宏谷信息科技(珠海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711294146.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图片搜索方法及系统
- 下一篇:一种基于模糊认知图的产品创新辅助设计方法