[发明专利]基于新闻主题信息检索的金融时间序列预测方法有效
申请号: | 201510008836.0 | 申请日: | 2015-01-08 |
公开(公告)号: | CN104573003B | 公开(公告)日: | 2017-11-10 |
发明(设计)人: | 蔡青林;陈岭;孙建伶;陈蕾英 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 杭州求是专利事务所有限公司33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于新闻主题信息检索的金融时间序列预测方法。首先对原始新闻数据提取词汇组合特征,并以新闻数据对金融时间序列的实时影响作为标记,训练支持向量机分类器作为预测模型;通过构建词频时间序列,有效度量词汇特征与时间序列的相关度,继而实现新闻主题与时间序列的相关度计算,由此查询与金融时间序列相关的新闻主题;通过对查询出的新闻数据提取词汇组合特征并输入预测模型,得到最终预测结果。本发明可有效预测新闻数据对金融时间序列的影响,帮助人们理解和把握两类数据之间的信息传递;在金融交易市场中,为投资者做舆情分析和投资决策提供了准确的指导。 | ||
搜索关键词: | 基于 新闻 主题 信息 检索 金融 时间 序列 预测 方法 | ||
【主权项】:
一种基于新闻主题信息检索的金融时间序列预测方法,其特征在于,包括以下步骤:(1)数据预处理,具体包括以下子步骤:(1.1)构建上涨文本集合Rise_set与下跌文本集合Drop_set;(1.2)依次读取新闻数据库News_base的每个新闻文本Di;(1.3)对Di解析并分词;(1.4)除去Di中所有停用词,并以Di的发布时间作为时间戳t对其标记;(1.5)从时间序列数据库Series_base中读取时间戳t所在日期的金融时间序列T={(x1,t1),(x2,t2),...,(xi,ti),...,(xn,tn)};(1.6)比较x1与xn的大小,标记Di对T的作用类型effect,并根据effect选择将Di加入Rise_set或Drop_set;(1.7)以时间戳t作为索引项,对文本数据库构建B+‑树索引I;(2)预测模型构建,具体包括以下子步骤:(2.1)从新闻数据库News_base中提取2‑词汇组合特征F,构建特征集合FS={F1,F2,...,Fi,...,FN},并构建特征矩阵RFM与DFM,分别存储特征Fi在Rise_set与Drop_set的出现次数;(2.2)基于二元正态分离BNS统计方法,从特征集合FS中选择具有显著预测性能的2‑词汇组合特征,并构建特征向量FV=[F1,F2,...,Fm];(2.3)基于tf‑idf表示方法,以FV的特征元素作为基本维度,为各新闻文本计算特征向量的tf‑idf表示;(2.4)以News_base中所有新闻文本的tf‑idf特征向量集合,及各新闻文本的作用类型effect集合作为训练集,基于统计学习理论训练支持向量机,作为金融时间序列的预测模型Φ;(3)时序相关新闻主题查询,具体包括以下子步骤:(3.1)设金融时间序列的最新采样值及采样时刻为(xe,te),以该时刻为终点,以te‑L+1时刻为起点,截取长度为L的金融时间序列作为查询时间序列Q,不失一般性,将Q表示为Q={(x1,t1),(x2,t2),...,(xL,tL)};(3.2)词汇相关性度量,具体包括以下子步骤:(3.2.1)按照查询时间序列Q的时间戳顺序,依次从索引I中查询时间戳为ti的文本集合Ci,构造Q的相关文本集合C={C1,C2,...,Ci,...,Cn};(3.2.2)对每个文本子集Ci统计词频分布,为C的各词汇元素termj构造词频时间序列TF_Sequej;(3.2.3)基于动态时间弯曲距离,分别计算各词频时间序列TF_Sequej与查询时间序列Q的相似度,作为相应词汇termj与Q的相关度term_corrj,并构造词汇相关度表table;(3.3)文本主题相关性度量,具体包括以下子步骤:(3.3.1)依次读取文本集合C的每个新闻文本Di,计算其主题信息与查询时间序列Q的相关度topic_corri;(3.3.2)根据文本主题相关度topic_corr,对C的所有新闻文本按照由大到小的顺序排列,保留前k个文本作为查询结果Result;(4)金融时间序列预测,具体包括以下子步骤:(4.1)构建预测集合(4.2)依次读取Result的每个新闻文本Di;(4.3)根据步骤(2.3)的特征表示方法,将Di表示为tf‑idf特征向量fvi;(4.4)将fvi输入预测模型Φ,输出Di的作用类型effecti,加入Predict;(4.5)分别统计Predict中各种effect的数目,选择较多的作用类型作为最终预测结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510008836.0/,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置