[发明专利]一种热点新闻挖掘方法、装置及服务器有效

申请号：	201711320431.6	申请日：	2017-12-12
公开（公告）号：	CN108090157B	公开（公告）日：	2018-11-06
发明（设计）人：	潘建	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京市铸成律师事务所 11313	代理人：	郗名悦;徐瑞红
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	热词热度排序抓取聚类处理聚类结果热点新闻网络爬虫聚类服务器发送覆盖面时效性挖掘网站抽取存储
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种热点新闻挖掘方法，其特征在于，所述方法包括：

通过网络爬虫程序抓取包含有新闻热词的网站，以抽取其中的新闻热词并存储；

对所述新闻热词进行聚类处理，并根据聚类结果计算所述聚类后的新闻热词的热度；

根据所述新闻热词的热度对所述新闻热词进行排序，将排序后的新闻热词对应的新闻发送至用户；

其中根据聚类结果计算所述聚类后的新闻热词的热度包括：

获取对所述新闻热词进行聚类过程中生成的新闻聚类数；

在预设时间内计算所述新闻热词的新闻爆发度；

通过计算每一新闻热词聚类中，对应的新闻的平均发布时间和中位数时间点，对新闻做调权，以得到新闻聚类时的时间因子；

根据新闻聚类数、新闻爆发度和时间因子计算出新闻的热度。

2.根据权利要求1所述的方法，其特征在于，对所述新闻热词进行聚类处理，包括：

对相同网站抓取到的新闻热词进行去重处理；

计算去重处理后的所述新闻热词之间的相似度，通过相似度对每个所述新闻热词进行聚类。

3.根据权利要求1所述的方法，其特征在于，在预设时间内计算所述新闻热词的新闻爆发度，包括：

计算所述新闻热词在第一时刻的新闻聚类数和所述新闻热词在第二时刻的新闻聚类数；

比较所述第一时刻的新闻聚类数和所述第二时刻的新闻聚类数；

若所述第二时刻的新闻聚类数大于所述第一时刻的新闻聚类数超过预设阈值，则根据所述第一时刻和所述第二时刻的新闻聚类数计算所述新闻热词的新闻爆发度。

4.根据权利要求2所述的方法，其特征在于，通过相似度对每个所述新闻热词进行聚类之前，包括：

根据所述网站的规模，对所述网站的新闻聚类数进行加权处理。

5.一种热点新闻挖掘装置，其特征在于，所述装置包括：

抽取模块，配置为通过网络爬虫程序抓取包含有新闻热词的网站，以抽取其中的新闻热词并存储；

第一热度计算模块，配置为对所述新闻热词进行聚类处理，并根据聚类结果计算所述聚类后的新闻热词的热度；

发送模块，配置为根据所述新闻热词的热度对所述新闻热词进行排序，将排序后的新闻热词对应的新闻发送至用户；

所述第一热度计算模块包括：

获取模块，配置为获取对所述新闻热词进行聚类过程中生成的新闻聚类数；

新闻爆发度计算模块，配置为在预设时间内计算所述新闻热词的新闻爆发度；

时间因子计算模块，配置为通过计算每一新闻热词聚类中，对应的新闻的平均发布时间和中位数时间点，对新闻做调权，以得到新闻聚类时的时间因子；

第二热度计算模块，配置为根据新闻聚类数、新闻爆发度和时间因子计算出新闻的热度。

6.根据权利要求5所述的装置，其特征在于，所述第一热度计算模块包括：

去重处理模块，配置为对相同网站抓取到的新闻热词进行去重处理；

聚类处理模块，配置为计算去重处理后的所述新闻热词之间的相似度，通过相似度对每个所述新闻热词进行聚类。

7.根据权利要求5所述的装置，其特征在于，所述新闻爆发度计算模块包括：

新闻聚类数计算模块，配置为计算所述新闻热词在第一时刻的新闻聚类数和所述新闻热词在第二时刻的新闻聚类数；

比较模块，配置为比较所述第一时刻的新闻聚类数和所述第二时刻的新闻聚类数；

处理模块，配置为若所述第二时刻的新闻聚类数大于所述第一时刻的新闻聚类数超过预设阈值，则将所述第二时刻的新闻聚类数作为所述新闻热词的新闻爆发度。

8.根据权利要求6所述的装置，其特征在于，所述第一热度计算模块还包括：

加权处理模块，配置为根据所述网站的规模，对所述网站的新闻聚类数进行加权处理。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于百度在线网络技术（北京）有限公司，未经百度在线网络技术（北京）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711320431.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于HTML5创建可协同记账人工智能记账系统的方法
下一篇：数据处理方法和数据处理系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种热点新闻挖掘方法、装置及服务器有效

专利文献下载