[发明专利]一种股市题材舆情热度计算方法及系统装置在审
申请号: | 201810275349.4 | 申请日: | 2018-03-30 |
公开(公告)号: | CN108614813A | 公开(公告)日: | 2018-10-02 |
发明(设计)人: | 龚承启 | 申请(专利权)人: | 武汉楚鼎信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430000 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 热度 句子 主题集合 计算方法及系统 文档 集合 抗噪声能力 整体相似度 分解模块 计算模块 检索模块 主题句 平滑 词句 检索 统计 分解 创建 | ||
本发明公开了一种股市题材舆情热度计算方法及系统装置,其特征在于,所述方法包括:检索模块获取主题词,检索出包含主题词的所有文档;分解模块对所述所有文档进行词句分解,创建主题集合;计算模块根据所述主题集合计算主题集合中各主题句中心值。本发明从句子的层面来统计题材舆情热度,并非简单地统计题材主题句子的数量来计算题材热度,而是首先将题材的所有主题句子组成一个集合,再以句子与该集合的整体相似度来计算句子的中心值,中心值大的句子为题材贡献更多的热度,这样计算的热度值更加平滑稳定,抗噪声能力更强。
技术领域
本发明涉及舆情热度的计算方法,尤其涉及一种基于文档进行的关键句热度值计算方法及系统装置。
背景技术
传统的题材热度计算方法通常将每篇文档分类到一个题材下,就股票市场而言,题材如“军工”、“雄安”、“高送转”等。分类完成后,需要统计单个题材下所属的文档的数量,通过文档的数量进行计算,获取单个题材的热度值,最终根据所述热度值的高低向用户提供高热度值的题材资讯。这种做法的缺陷是,一篇文档可能包含多个题材的内容,而且各题材内容在该文档中所占比重又有不同,仅仅依据文档的数量来获取热度值并不客观真实。因此,不论如何从文档的层面统计热度,总会有无法协调的矛盾。这是因为本质上文档这一单位不是基本的舆情单位所造成的。
发明内容
为解决上述背景技术中存在的技术问题,本发明提供了一种基于文档内语句的中心值计算方法,从而精准获取题材舆情热度值。具体技术方案如下:
第一方面:一种股市题材舆情热度计算方法,所述方法包括:
检索模块获取主题词,检索出包含主题词的所有文档;
分解模块对所述所有文档进行词句分解,创建主题集合
计算模块根据所述主题集合计算主题集合中各主题句中心值。
结合第一方面,在第一方面可能的实现方式中的第一种情况为,所述方法还包括计算模块根据所述所述主题句中心值计算热度值。
结合第一方面及第一方面的第一种情况,在第一方面可能的实现方式中的第二种情况为,用主题句与主题句集合的整体相似度计算出主题句中心值。
结合第一方面的第二种情况,在第一方面可能的实现方式中的第三种情况为,所述创建主题集合包括:主题词集合T、文档集合D、文档所有词集合W;所述主题词为与主题相关的词,所述文档为包含主题词的文档,所述文档所有词为文档内所有的词语,所述文档所有词包含所述主题词。
结合第一方面的第三种情况,在第一方面可能的实现方式中的第四种情况为,所述用主题句与主题句集合的整体相似度的计算方法为:
将所述文档集合D中所有文档分割成语句,得到语句集合S;
Sw表示所有包含词w的语句的集合,所述w∈W;
计算语句中每个词的词频率-逆文档频率值tf_idf,语句s中的词w的tf_idf值为
其中fs,w表示词w在语句s中出现的次数,len〔s〕表示语句s中包含的词的数量,len〔S〕表示语句集合S的数量,len〔Sw〕表示包含词w的语句数量;
St表示所有包含主题词t的主题句集合,所述t∈T,计算其中所有主题句两两之间的相似度,获得一个len〔St〕×len〔St〕的相似矩阵SIM
其中表示St中的第i个主题句St,j和第j个主题句St,j的相似度
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉楚鼎信息技术有限公司,未经武汉楚鼎信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810275349.4/2.html,转载请声明来源钻瓜专利网。