[发明专利]基于新闻数据的股票自动匹配分类方法和系统无效
申请号: | 201210543923.2 | 申请日: | 2012-12-14 |
公开(公告)号: | CN103226554A | 公开(公告)日: | 2013-07-31 |
发明(设计)人: | 何波;蒋永磊;丁志敏 | 申请(专利权)人: | 西藏同信证券有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 850000 西*** | 国省代码: | 西藏;54 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 新闻 数据 股票 自动 匹配 分类 方法 系统 | ||
技术领域
本发明涉及股票信息的匹配分类方法和系统,尤其涉及一种基于新闻数据的股票自动匹配分类方法和系统。
背景技术
传统的互联网搜索引擎技术,使用特定关键词对网站页面进行标注,通过将用户搜索关键词与网页关键词进行匹配给出搜索结果。随着Web技术的发展,每天都有大量的图片、博客、视频发布到网上,信息的极度爆炸使得很难通过简单的关键词来帮助人们找到他们需要的信息。而推荐引擎的出现,使用户获取信息的方式从简单的关键词搜索转换到更高级更符合人们使用习惯的上下文信息更丰富的信息发现。通过挖掘网页和用户数据的相关性,构造网页和用户的关键词序列,在此基础上计算网页、用户之间以及网页和用户之间的相关性,从而获得更加准确的搜索结果,并根据用户行为不断优化搜索结果。
传统的股票分类往往是静态的,通常是基于某一特征对股票进行划分,例如基于行业、地域、概念、风格指数等。然而,上市公司的业务一直在发展,主营方向也会有所变化,另外,不同板块的股票对同一新闻事件的反馈并非都不相同,因此,静态的股票分类方法有时不能很好地反映股票的属性。而传统的选股通常是根据个人的经验来判断,一般的股民可以通过阅读相关的新闻研报做出自己的判断;然而,面对不断增加的股票数量以及海量的新闻数据,个人的精力和经验有限,很难对股票市场进行全面准确地观察和分析。
发明内容
本发明提供一种基于新闻数据的股票自动匹配分类方法和系统,从海量新闻数据出发,挖掘能够较全面体现股票属性的关键词序列,通过分析股票关键词序列之间的相关性对股票进行分类,同时通过分析新闻数据的关键词序列和股票关键词序列之间的相关性,给出与新闻数据最佳匹配的股票。
为了达到上述目的,本发明采用如下技术方案:
一种基于新闻数据的股票自动匹配分类方法,,其特征在于包括如下步骤:
(A)建立一本地数据库;
(B)从外界抓取至少一则相关个股的历史新闻数据,储存到本地数据库中,建立相应的个股序号,并对每一则历史新闻数据进行分词、筛选,提取其中与个股相关的关键词序列;
(C)统计与上述个股相关的关键词序列中各关键词出现的频次,在此基础上计算相应的关键词相关性系数,构造个股关键词序列相关性序列模型,并进行参数优化;然后根据个股关键词序列相关性序列模型计算个股之间的相关性,并根据个股之间的相关性,结合聚类分析算法,对股票进行分类;以及
(D)从外界抓取实时新闻数据,储存到本地数据库中,对该新闻数据进行分词、筛选,提取实时关键词序列,计算实时关键词序列相关性序列,通过将实时新闻数据的实时关键词序列相关性序列和上述步骤C中的个股关键词序列相关性序列模型进行自动匹配,选取相关性最高的个股作为最终的最佳匹配结果。
在所述步骤B中,个股序号为股票A,股票B,……,股票N;关键词序列为关键词1,关键词2,……关键词M;在所述步骤C中,个股关键词序列相关性序列模型写成矩阵形式为:CNM表示股票N与关键词M之间的相关性系数。
所述个股之间的相关性,即欧氏距离的计算公式为:其中,||vector||表示向量的欧几里得范数;所述股票A的相关性序列为vectorA=[CA1 CA2……CAM],则||vectorA||的计算方式为:
在所述步骤D中,实时关键词序列相关性序列的计算方法如下:vectorevent=[e1 e2…eM],其中,eM表示实时新闻数据与关键词M之间的相关性系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西藏同信证券有限责任公司,未经西藏同信证券有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210543923.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高速公路智能收费系统
- 下一篇:一种汽车倒车防撞报警系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置