[发明专利]基于新闻主题信息检索的金融时间序列预测方法有效
申请号: | 201510008836.0 | 申请日: | 2015-01-08 |
公开(公告)号: | CN104573003B | 公开(公告)日: | 2017-11-10 |
发明(设计)人: | 蔡青林;陈岭;孙建伶;陈蕾英 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 杭州求是专利事务所有限公司33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 新闻 主题 信息 检索 金融 时间 序列 预测 方法 | ||
技术领域
本发明涉及数据库、数据挖掘、信息检索等领域,尤其涉及时间序列数据、文本数据的分析和挖掘。
背景技术
在机器学习与数据挖掘领域,基于新闻数据预测金融时间序列的波动趋势,实质是对新闻文本基于内容的自动分类问题。针对该问题,现有的预测方法大多包含两个重要环节:特征提取与模型训练,即通过提取文本特征采集信息,用于机器学习方法训练分类器,作为金融时间序列的预测模型。
用于文本分类的机器学习技术比较成熟,如人工神经网络、支持向量机、朴素贝叶斯分类器、kNN分类器等,现有的基于新闻数据的金融预测模型大多基于这些分类器构建。人工神经网络是由大量处理单元互联组成的非线性模型,通过调整内部节点的互联关系,分析掌握输入输出数据之间的潜在规律,实现为新数据推算结果。该方法具有较强的自学习和自适应能力,但缺少对推理过程的解释能力。支持向量机是在高维空间中寻找一个最优超平面,在保证分类精度的前提下,使超平面两侧的空白间距最大化。理论上支持向量机可对线性可分数据做最优划分,但是却只能处理二分类问题。朴素贝叶斯分类器是基于贝叶斯公式,利用对象的先验概率计算其所属类别的后验概率而实现分类。虽然该方法的理论简单,操作性较强,但是要保证较高的准确度,需要采用大规模训练集训练模型。kNN分类器是一种基于距离度量的方法,它通过在训练集中查找对象的k个距离最小的近邻,并选择其中较多的类别作为结果实现分类。虽然该方法具有很好的可解释性和易操作性,但是面对大规模训练集,分类过程具有很高的时间开销。尽管众多分类器的工作原理各不相同,但是通过对众多预测模型的广泛比较发现,预测模型的准确度并不依赖于其采用的分类器方法,而是由文本表示方法与特征提取方法决定的。
现有的基于新闻数据的金融预测方法大多采用简单的文本表示。其中,最常用的方法是词袋模型,该方法将文本看作无序的词汇集合,采用单词汇特征表示文本。很明显,这种简单的特征表示缺乏表达能力,无法捕捉文本数据的基本语义信息。为了改进这一缺陷,有的预测模型采用表达能力较强的组合词汇特征表示文本,并基于文本语料库的词频统计(如TF-IDF打分)或更简单的最小出现次数提取特征。很明显,这些特征提取方法只注重特征词汇在文本语料库内部的表达能力,而忽略了特征词汇与金融时间序列的相关性,因此,所提取的许多特征都缺乏对金融时间序列的预测性能。另外,在预测阶段,现有的预测方法所提取的特征来自于文本语料库的全部新闻数据,包括预测时间段内与金融时间序列波动无关的新闻,这使得用于预测的数据信息缺乏针对性,很容易混入大量噪声影响预测结果的准确性。
发明内容
本发明要解决的问题是如何基于大量的实时新闻数据,实现对金融时间序列波动趋势的预测。为了解决该问题,本发明提出了基于新闻主题信息检索的金融时间序列预测方法。
本发明的目的是通过以下技术方案实现的:基于新闻主题信息检索的金融时间序列预测方法,包括以下步骤:
(1)数据预处理,具体包括以下子步骤:
(1.1)构建上涨文本集合Rise_set与下跌文本集合Drop_set;
(1.2)依次读取新闻数据库News_base的每个新闻文本Di;
(1.3)对Di解析并分词;
(1.4)除去Di中所有停用词,并以Di的发布时间作为时间戳t对其标记;
(1.5)从时间序列数据库Series_base中读取时间戳t所在日期的金融时间序列T={(x1,t1),(x2,t2),...,(xi,ti),...,(xn,tn)};
(1.6)比较x1与xn的大小,标记Di对T的作用类型effect,并根据effect选择将Di加入Rise_set或Drop_set;
(1.7)以时间戳t作为索引项,对文本数据库构建B+-树索引I;
(2)预测模型构建,具体包括以下子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510008836.0/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置