[发明专利]一种行业热度获取方法有效
申请号: | 201811644148.3 | 申请日: | 2018-12-30 |
公开(公告)号: | CN109739988B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 徐承迪 | 申请(专利权)人: | 北京智慧星光信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/258 |
代理公司: | 广州海藻专利代理事务所(普通合伙) 44386 | 代理人: | 张大保 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 行业 热度 获取 方法 | ||
1.一种行业热度获取方法,其特征在于,包括:
获取数据集合,所述数据集合包括一类数据和二类数据;
按照一类数据的发布时间进行数据分组,得到分组数据集,所述分组数据集中包括一类数据和与所述一类数据相关的二类数据;
对每个分组数据集进行预处理,得到所述分组数据集对应的多个数据网络集合;
对于每个分组数据集,计算其对应的主题向量集;
基于所述主题向量集得到所述分组数据集中的热点数据网络集合;
根据各个分组数据集中的热点数据网络集合得到热门行业聚类结果;
所述根据各个分组数据集中的热点数据网络集合得到热门行业聚类结果包括:
获取每个分组数据集中的热点数据网络集合;获取每个所述热点数据网络集合对应的N个热点主题,热点数据网络集合对应的热点主题的获取方法包括计算所述热点数据网络集合的相关度矩阵中每一行的元素的总和值;选取所述总和值最大的N行,得到其对应的主题,即为热点主题;根据各个热点数据网络集合对应的热点主题得到所述分组数据集的M个热点主题;各个热点数据网络集合对应的热点主题重复出现次数最高的M个主题即为所述分组数据集的M个热点主题;根据所述M个热点主题进行聚类得到热门行业聚类结果;
所述聚类包括计算两个热点主题之间的不相似性,并得到不相似性矩阵R={rij}n*n;始化行业类别ω;获取各个热点主题对于行业类别的隶属度;获取各个热点主题对于行业类别的贡献度;输出基于所述隶属度和贡献度表示的聚类结果;所述隶属度以u表示,uik表示热点主题xi对行业类别ωk的隶属度,所述贡献度以v表示,vkj表示热点主题xj对行业类别ωk的贡献权重;
隶属度根据公式(一):计算,贡献度根据公式(二):以M个热点主题为输入,根据公式(一)和公式(二)进行迭代计算,从而得到各个热点主题对于行业类别的隶属度和贡献度;公式(一)和公式(二)中的φ和β为与聚类精度有关的常数。
2.根据权利要求1所述的方法,其特征在于,还包括:
所述一类数据为直接发布的数据,所述二类数据为针对一类数据的评论数据。
3.根据权利要求1所述的方法,其特征在于:
所述数据网络集合以di={V,E}的形式记录,其中V为用户标识,E代表一个用户标识发布的二类数据对另一个用户标识发布的一类数据的评论关系,每个顶点均包括用户标识、标题和内容三部分数据。
4.根据权利要求3所述的方法,其特征在于:
数据网络集合中包括多个发布一类数据的用户和多个发布二类数据的用户,而发布一类数据的用户也同时作为发布二类数据的用户。
5.根据权利要求1所述的方法,其特征在于:
所述主题向量集被标识为{topici},其中topici={(ti1,pi1)......(tin,pin)},其中为tij主题topici中出现的关键词,Pij为所述关键词在该主题中出现的概率。
6.根据权利要求1所述的方法,其特征在于:
对于每个分组数据集均对其热点数据网络集合按照行业类别进行聚类,从而得到聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧星光信息技术有限公司,未经北京智慧星光信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811644148.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语料标注方法、构造语料方法及装置
- 下一篇:文本分类方法和计算机设备