[发明专利]一种识别微博突发热点事件的方法及装置在审
申请号: | 201310452806.X | 申请日: | 2013-09-27 |
公开(公告)号: | CN103455639A | 公开(公告)日: | 2013-12-18 |
发明(设计)人: | 崔安颀;张敏;刘奕群;马少平;金奕江 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 突发 热点 事件 方法 装置 | ||
技术领域
本发明涉及网络信息智能处理领域,尤其涉及一种识别微博突发热点事件的方法及装置。
背景技术
热点事件发现技术的主要研究方法是对“突发性”的建模,通常通过分析时序的变化,检测信息流中的突发点。这类方法只考虑信息的变化趋势,从数学的角度对信息流的整体进行分析。经典工作是Jon Kleinberg对信息流(电子邮件、新闻等)建立的以自动机为基础的等级化模型,对信息流进行建模。随着时间变化,观测量的数值增长或减少使自动机进入不同的状态,这些状态转移的序列可构建成树形的等级模型,因此通过跟踪状态的变化,可检测到突发现象的发生。在此基础上,Ahmed等将不同内容的各种状态构建一张图,利用图中节点的连接关系完成状态转移,从而发现不同转移模式的特点,以寻找突发的话题。这些方法都是在数值序列中寻找突发点。而Yang等人对在线媒体,特别是微博客的时序变化模式(patterns of temporal variation)进行分析,并采用聚类算法,将相似的模式聚在一起,可识别不同的话题。这种方式与自动机模型的区别在于考察多个基本单元(词或词组)的时序模式,对多个模式进行聚类,可识别多个突发话题,而不仅仅利用数值信息。
为考察突发事件中的语义,Figueiredo等人、Zubiaga等人以词语特征或元信息(meta data,如一条信息的分类、时间等)作为信息的度量,这些内容特征的引入可以更准确地衡量信息扩散的程度。进一步地,Tu等、Pervin等、Mathioudakis等、Pavlyshenko人将词作为话题、事件的组成单元,即话题和事件是在词的向量空间上表示的。在这一表示下,对不同的实例进行聚类或主题分析,可得到基于内容的话题识别结果。这些方法都需要对文本进行分词,之后利用词为特征,采用聚类、主题模型或频繁项挖掘等方法,形成话题。因此任何事件或话题的表示,完全依赖于文本中词的特征。如果文本表示有所不同,那么发现的话题则会分散。特别是对于同一个事件,如果人们讨论事件的不同角度、不同因素(如时间、地点、人物等),以词为特征的表示方法则会识别成不同的话题,使一个事件分散成多个事件,降低了对其影响程度的估计。
综上所述,现有的热点事件发现相关研究工作现状,或者脱离事件内容,只分析数值趋势变化;或者完全依赖于内容的文本(词),不具有灵活性。
发明内容
(一)要解决的技术问题
本发明的目的是,提供一种识别微博突发热点事件的方法及装置,用以克服现有技术脱离内容分析趋势变化、或完全依赖于内容进行事件发现等不足。
(二)技术方案
为解决上述技术问题,本发明提供一种识别微博突发热点事件的方法,包括:
提取所有热点事件的微博话题标签,并记录每个话题标签的发布时间、作者信息以及热门程度;其中,所述热门程度是指在不同时间段内的出现次数;
对于所述每个话题标签,计算所述每个话题标签的三个度量值;其中,三个度量值分别为不稳定性程度、在线话题可能性程度和标签作者信息熵;
根据所述三个度量值的高低判断相应的热点事件是否为突发事件。
优选的,根据所述三个度量值的高低判断相应的热点事件是否为突发事件包括:
判断所述不稳定性程度是否大于第一阈值、在线话题可能性程度是否小于第二阈值以及标签作者信息熵是否大于第三阈值;
若是,则判定所述相应的热点事件为突发事件;
若否,则判定所述相应的热点事件为非突发事件。
优选的,所述不稳定性程度通过以下公式计算:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310452806.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多媒体文件检索的方法和装置
- 下一篇:一种数据查询方法和装置