[发明专利]一种行业热度获取方法有效
申请号: | 201811644148.3 | 申请日: | 2018-12-30 |
公开(公告)号: | CN109739988B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 徐承迪 | 申请(专利权)人: | 北京智慧星光信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/258 |
代理公司: | 广州海藻专利代理事务所(普通合伙) 44386 | 代理人: | 张大保 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 行业 热度 获取 方法 | ||
本发明提供了一种行业热度获取方法,包括:获取数据集合,所述数据集合包括一类数据和二类数据;按照一类数据的发布时间进行数据分组,得到分组数据集,所述分组数据集中包括一类数据和与所述一类数据相关的二类数据;对每个分组数据集进行预处理,得到所述分组数据集对应的多个数据网络集合;对于每个分组数据集,计算其对应的主题向量集;基于所述主题向量集得到所述分组数据集中的热点数据网络集合;根据各个分组数据集中的热点数据网络集合得到热门行业聚类结果。本发明通过对于互评类数据进行分析,从而得到了当前的热点数据、热点主题和热点行业的相关信息,从而填补了自动进行热点分析的相关技术的空白。
技术领域
本发明涉及计算机领域,尤其涉及一种行业热度获取方法。
背景技术
在数据分析领域,经常需要对数据进行分析。在常见互动性网站中,比如知乎,百度贴吧存在大量的用户互评类数据,这类数据能够反应用户的个人偏好,也能够用于研究时事热点和社会现象,存在较多的社会信息,能够被广泛的应用于广告目标用户研究,热点问题研究,舆情监督等各个领域。但是现有技术中缺乏对于这类数据的有效分析的方法,也无法基于这些数据获取行业热度信息。
发明内容
为了解决上述技术问题,本发明提出了一种行业热度获取方法。本发明具体是以如下技术方案实现的:
一种行业热度获取方法,包括:
获取数据集合,所述数据集合包括一类数据和二类数据;
按照一类数据的发布时间进行数据分组,得到分组数据集,所述分组数据集中包括一类数据和与所述一类数据相关的二类数据;
对每个分组数据集进行预处理,得到所述分组数据集对应的多个数据网络集合;
对于每个分组数据集,计算其对应的主题向量集;
基于所述主题向量集得到所述分组数据集中的热点数据网络集合;
根据各个分组数据集中的热点数据网络集合得到热门行业聚类结果。
进一步地,还包括:
所述一类数据为直接发布的数据,所述二类数据为针对一类数据的评论数据。
进一步地,所述数据网络集合以di={V,E}的形式记录,其中V为用户标识,E代表一个用户标识发布的二类数据对另一个用户标识发布的一类数据的评论关系,每个顶点均包括用户标识、标题和内容三部分数据。
进一步地,具体地,数据网络集合中可以包括多个发布一类数据的用户和多个发布二类数据的用户,而发布一类数据的用户也可以同时作为发布二类数据的用户。
进一步地,所述主题向量集可以被标识为{topici},其中topici={(ti1,pi1)......(tin,pin)},其中为tij主题topici中可能出现的关键词,Pij为所述关键词在该主题中出现的概率。
进一步地,对于每个分组数据集均可以对其热点数据网络集合按照行业类别进行聚类,从而得到聚类结果。
本发明提供了一种行业热度获取方法。本发明通过对于互评类数据进行分析,从而得到了当前的热点数据、热点主题和热点行业的相关信息,从而填补了自动进行热点分析的相关技术的空白。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧星光信息技术有限公司,未经北京智慧星光信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811644148.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语料标注方法、构造语料方法及装置
- 下一篇:文本分类方法和计算机设备