[发明专利]一种识别微博突发热点事件的方法及装置在审
申请号: | 201310452806.X | 申请日: | 2013-09-27 |
公开(公告)号: | CN103455639A | 公开(公告)日: | 2013-12-18 |
发明(设计)人: | 崔安颀;张敏;刘奕群;马少平;金奕江 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 突发 热点 事件 方法 装置 | ||
1.一种识别微博突发热点事件的方法,其特征在于,包括:
提取所有热点事件的微博话题标签,并记录每个话题标签的发布时间、作者信息以及热门程度;其中,所述热门程度是指在不同时间段内的出现次数;
对于所述每个话题标签,计算所述每个话题标签的三个度量值;其中,三个度量值分别为不稳定性程度、在线话题可能性程度和标签作者信息熵;
根据所述三个度量值的高低判断相应的热点事件是否为突发事件。
2.根据权利要求1所述的方法,其特征在于,根据所述三个度量值的高低判断相应的热点事件是否为突发事件包括:
判断所述不稳定性程度是否大于第一阈值、在线话题可能性程度是否小于第二阈值以及标签作者信息熵是否大于第三阈值;
若是,则判定所述相应的热点事件为突发事件;
若否,则判定所述相应的热点事件为非突发事件。
3.根据权利要求1所述的方法,其特征在于,所述不稳定性程度通过以下公式计算:
其中,n是用于归一化的天数,即语料覆盖的时间段;是指不稳定点x的出现概率;p是指事先指定的容忍概率;Inst(x)是指不稳定点x的不稳定性程度,由下式定义:
其中,ε>0,是一个小实数,用于消除零错误。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310452806.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多媒体文件检索的方法和装置
- 下一篇:一种数据查询方法和装置