首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种Hadoop框架下的热点挖掘系统的构建在审

申请号：	201910570822.6	申请日：	2019-06-28
公开（公告）号：	CN110377823A	公开（公告）日：	2019-10-25
发明（设计）人：	肖清林	申请（专利权）人：	厦门美域中央信息科技有限公司
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F16/33;G06F17/27
代理公司：	北京劲创知识产权代理事务所(普通合伙) 11589	代理人：	王志敏
地址：	361008 福建省厦门市软件园***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	热词集合构建热点话题挖掘系统预处理数据信息关键词集合网络预处理筛选采集数据聚类算法热点信息精准度云端词库分词排序计算机
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种Hadoop框架下的热点挖掘系统的构建，其特征在于，包括以下具体步骤：

S1、使用云端计算机Hadoop集群模块从网络上采集数据信息A，并对数据信息A进行预处理，得到预处理数据信息B；

S2、云端计算机Hadoop集群模块将预处理数据信息B发送给挖掘系统；

S3、对预处理数据信息B进行分词，得到关键词集合C；

S4、将关键词集合C中的每个关键词D通过以往热点信息词库进行筛选；

当关键词D是以往热点信息词库中出现的热点词，则将关键词D舍弃；

当关键词D不是以往热点信息词库中出现的热点词，则执行S5中的操作；

S5、根据各个关键词D在当前时刻和给定历史时间窗口内的出现频率和转播数量的综合排名，将各个关键词D由高到低进行排序，筛选出热词E，并构建热词集合F；

S6、根据热词集合F中各个热词D之间的相关性构建词共现网络；

S7、根据词共现网络采用聚类算法对热词集合F进行划分，得到热点话题集合。

2.根据权利要求1所述的一种Hadoop框架下的热点挖掘系统的构建，其特征在于，对数据信息A进行预处理包括去重处理和过滤乱码处理。

3.根据权利要求1所述的一种Hadoop框架下的热点挖掘系统的构建，其特征在于，云端计算机Hadoop集群模块包括数据采集模块和数据处理模块；数据采集模块与数据处理模块通讯连接，数据采集模块用于从网络上采集数据信息A，并将数据信息A发送给数据处理模块；

数据处理模块与挖掘系统通讯连接，数据处理模块用于对数据信息A预处理，得到预处理数据信息B。

4.根据权利要求3所述的一种Hadoop框架下的热点挖掘系统的构建，其特征在于，数据采集模块采用web爬虫的方式从网络上获取数据信息A。

5.根据权利要求3所述的一种Hadoop框架下的热点挖掘系统的构建，其特征在于，挖掘系统包括分词模块、筛选判断模块、热点信息排序模块、词共现网络构建模块、聚类计算模块和存储模块；

存储模块用于存储以往热点信息，存储模块内存储的以往热点信息组成以往热点信息词库；

分词模块与数据处理模块通讯连接，分词模块用于对预处理数据信息B进行分词，得到关键词集合C；

筛选判断模块与分词模块通讯连接，且筛选判断模块与存储模块通讯连接，筛选判断模块用于对关键词集合C中的每个关键词D通过以往热点信息词库进行筛选；

热点信息排序模块与筛选判断模块通讯连接，热点信息排序模块用于对筛选后的各个关键词D在当前时刻和给定历史时间窗口内的出现频率和转播数量的综合排名，将各个关键词D由高到低进行排序，筛选出热词E，并构建热词集合F；

词共现网络构建模块与热点信息排序模块通讯连接，词共现网络构建模块用于计算热词集合F中各个热词E的相关性，并构造词共现网络；

聚类计算模块与词共现网络构建模块通讯连接，聚类计算模块用于根据词共现网络，使用词聚类算法对热词集合F进行划分，得到热点话题集合。

6.根据权利要求5所述的一种Hadoop框架下的热点挖掘系统的构建，其特征在于，筛选判断模块对每个关键词D进行筛选时，

当关键词D是以往热点信息词库中出现的热点词，则将关键词D舍弃；

当关键词D不是以往热点信息词库中出现的热点词，则将关键词D发送给热点信息排序模块。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于厦门美域中央信息科技有限公司，未经厦门美域中央信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910570822.6/1.html，转载请声明来源钻瓜专利网。

上一篇：生成兴趣标签的方法、装置、计算机设备和存储介质
下一篇：信息推送方法、装置、计算机可读存储介质及电子设备

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top