[发明专利]微博热点追踪系统及追踪方法有效

专利信息
申请号: 201310708188.0 申请日: 2013-12-20
公开(公告)号: CN103729420B 公开(公告)日: 2017-05-03
发明(设计)人: 盘承军;韦艳玲;李炜;唐毓朝 申请(专利权)人: 广西贝腾科技服务有限公司;广西科技大学;柳州职业技术学院
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京中恒高博知识产权代理有限公司11249 代理人: 宋敏
地址: 545000 广西壮族自治*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 热点 追踪 系统 方法
【权利要求书】:

1.一种微博热点追踪系统,其特征在于,包括采集模块、数据去重模块、格式转换模块、分词提取模块、分词入库模块、热点事件敏感度匹配模块、关联模型分析模块和热点事件识别及追踪模块;

所述采集模块,通过部署于网络上的分布式微博数据采集终端,对互联网上的微博页面和数据进行采集;

所述数据去重模块,对上述采集模块采集到的微博数据内容和地址进行分析,去重掉重复采集的数据;

所述格式转换模块,将上述数据去重模块去重的微博数据转换为统一的数据表示格式;

所述分词提取模块,对上述格式转换模块转换后的数据进行分词提取,提取出页面中的关键敏感词汇,并将所提取到的页面关键词汇存储到数据库;

所述热点事件敏感度匹配模块,对上述存储到数据库中的词汇进行敏感度分析,如果入库的微博主题词汇不符合敏感度匹配的结果,则将该微博数据进行丢弃,否则将访数据暂时保存在临时数据库中;

所述关联模型分析模块,对上述保存在临时数据库中的微博页面数据以及采集模块采集到的微博页面数据进行关联性分析,计算得到针对预先设定的热点词汇与当前的热点关联分析结果,如果热点事件的关联分析结果达到预先设定的预值,则进行热点事件报警;

所述热点事件识别及追踪模块,根据上述关联模型分析模块分析得到的页面关联特性,输出对当前热点事件的所有关联页面,确定页面的分布范围和热点事件的传播过程,实现对微博热点事件的追踪;

上述关联模型分析模块中的关联性分析模型如下:

对于关键词K1,K2,......,Kn,对应的权重分别为p1,p2,......,pn,

对于单个站点中页面价值:

页面价值也即页面权重,通过如下公式计算得到,

pi指的是当前选定的关键词权重;

两个页面之间的关联关系为:Ci表示热点词汇集,C为常数。

2.根据权利要求1所述的微博热点追踪系统,其特征在于,所述数据去重模块对微博数据URL地址进行分析。

3.根据权利要求1所述的微博热点追踪系统,其特征在于,所述热点事件敏感度匹配模块匹配标准如下:

若Q<d,则认为匹配,Q为页面价值;

若Q≥d,则认为不匹配,d为事先设定的阈值。

4.根据权利要求3所述的微博热点追踪系统,其特征在于,所述d的值取0.4。

5.一种权利要求1至4任一项所述微博热点追踪系统的追踪方法,其特征在于,包括以下步骤:

步骤1、在网络上部署微博数据采集终端,且该微博数据采集终端能够自动的传播和扩散,在网络上收集微博原始信息;

步骤2、通过对采集到的微博数据URL地址进行分析,实现微博数据 的去重;

步骤3、将采集到的微博数据转换成统一的数据表示格式;

步骤4、启动分词提取模块对统一的数据格式的数据进行分词提取,获得微博页面上的主题内容词汇;

步骤5、将所提取到的主题词汇存入数据库;

步骤6、启动热点事件敏感度匹配模块,对入库的词汇进行敏感度分析,如果入库的微博主题词汇不符合敏感度匹配的结果,则将该微博数据进行丢弃,否则将访数据暂时保存在临时数据库;

步骤7、启动微博页面关联性模型,对当前的微博页面数据以及之前所采集到的微博页面数据进行关联性分析,计算到针对预先设定的热点词汇与当前的热点关联分析结果;

步骤8、如果热点事件的关联分析结果达到预先设定的预值,则进行热点事件报警;

步骤9、根据之前关联模型所分析到页面关联特性,输出对当前热点事件的所有关联页面,确定页面的分布范围和热点事件的传播过程,实现对微博热点事件的追踪。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西贝腾科技服务有限公司;广西科技大学;柳州职业技术学院,未经广西贝腾科技服务有限公司;广西科技大学;柳州职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310708188.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top