[发明专利]一种股市题材舆情热度计算方法及系统装置在审
申请号: | 201810275349.4 | 申请日: | 2018-03-30 |
公开(公告)号: | CN108614813A | 公开(公告)日: | 2018-10-02 |
发明(设计)人: | 龚承启 | 申请(专利权)人: | 武汉楚鼎信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430000 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 热度 句子 主题集合 计算方法及系统 文档 集合 抗噪声能力 整体相似度 分解模块 计算模块 检索模块 主题句 平滑 词句 检索 统计 分解 创建 | ||
1.一种股市题材舆情热度计算方法,其特征在于,所述方法包括:
检索模块获取主题词,检索出包含主题词的所有文档;
分解模块对所述所有文档进行词句分解,创建主题集合
计算模块根据所述主题集合计算主题集合中各主题句中心值。
2.根据权利要求1所述的一种股市题材舆情热度计算方法,其特征在于,所述方法还包括:计算模块根据所述所述主题句中心值计算热度值。
3.根据权利要求1或2所述的一种股市题材舆情热度计算方法,其特征在于,所述计算主题集合中各主题句中心值的方法为:用主题句与主题句集合的整体相似度计算出主题句中心值。
4.根据权利要求3所述的一种股市题材舆情热度计算方法,其特征在于,所述创建主题集合包括:主题词集合T、文档集合D、文档所有词集合W;所述主题词为与主题相关的词,所述文档为包含主题词的文档,所述文档所有词为文档内所有的词语,所述文档所有词包含所述主题词。
5.根据权利要求4所述的一种股市题材舆情热度计算方法,其特征在于,所述用主题句与主题句集合的整体相似度的计算方法为:
将所述文档集合D中所有文档分割成语句,得到语句集合S;
表示所有包含词的语句的集合,所述;
计算语句中每个词的词频率-逆文档频率值,语句s中的词w的值为
其中表示词w在语句s中出现的次数,表示语句s中包含的词的数量,表示语句集合的数量,表示包含词w的语句数量;
表示所有包含主题词的主题句集合,所述,计算其中所有主题句两两之间的相似度,获得一个的相似矩阵
其中表示中的第个主题句和第个主题句的相似度
;
获取主题句同所述主题句集合的整体相似度。
6.根据权利要求5所述的一种股市题材舆情热度计算方法,其特征在于,所述主题句中心值的计算方法为:
主题句的中心值(centroid)用中所有主题句与的相似度的平均值来表示
。
7.根据权利要求6所述的一种股市题材舆情热度计算方法,其特征在于,所述主题词()的热度值计算方法为:
其中表示所在的文档,表示文档中所有语句数量。
8.一种股市题材舆情热度系统,所述系统包括:
检索模块,用于根据主题词检索出包含主题词的所有文档;
分解模块,用于对所述所有文档进行主题词、文档、所有词、语句的分解,创建主题集合;
计算模块,用于计算主题句与主题句集合的整体相似度,计算主题句中心值,计算主题句热度值。
9.一种股市题材舆情热度系统装置,所述装置包括:
检索装置,用于根据主题词检索出包含主题词的所有文档;
分解装置,用于对所述所有文档进行主题词、文档、所有词、语句的分解,创建主题集合;
计算装置,用于计算主题句与主题句集合的整体相似度,计算主题句中心值,计算主题句热度值;
其中,还包括存储装置、处理器、总线,所述存储装置同所述处理器通过总线连接,所述存储装置存储有多条操作指令,所述处理器加载所述操作指令并执行,实现权利要求1-6所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉楚鼎信息技术有限公司,未经武汉楚鼎信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810275349.4/1.html,转载请声明来源钻瓜专利网。