[发明专利]基于突发词检测和过滤的微博突发话题检测方法有效
申请号: | 201910631334.1 | 申请日: | 2019-07-12 |
公开(公告)号: | CN110489741B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 薛哲;杜军平;张强 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/33 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 突发 检测 过滤 话题 方法 | ||
本发明提出了一种基于突发词检测和过滤的微博突发话题检测方法。方法包括三个部分:基于词突发值计算的突发词检测、基于突发值指数平均值计算的伪突发词识别和基于话题关键字和突发词相似度的突发话题识别。理论系统完备,创新性突出,主要用于社交网络文本处理中。该发明为微博突发话题检测提供了解决方案,具有很高的实用价值。
技术领域
本发明属于互联网技术领域,具体涉及一种突发话题检测方法。
背景技术
近年来,随着Web 2.0社交网络的兴起,微博以其方便快捷的优点迅速流行起来,现在已经发展成为网络信息传播的主要途径。突发话题在微博中传播速度非常迅速,能够产生巨大的影响力,因此,微博平台上的社会突发话题检测技术对于社会热点的及时发现、网络民意的尽快感知、突发话题及早响应等方面都具有积极的现实意义。然而,目前对于微博的突发话题检测而言依旧存在一些挑战。首先,微博上话题具有多样性。同一时间微博上各种话题如社会话题类话题、娱乐八卦类话题、个人生活琐事等多种话题掺杂在一起,存在大量对于话题检测而言无意义的信息。其次,微博上有的话题表现出间歇性。通常同一个话题会随着微博用户的关注程度和时间的推移经历一个产生、发展、成熟、衰退和消亡的完整生命周期。通常这个生命周期是连续的,但是一些话题在产生后会沉寂两到三天,之后随着相关的后续消息出现再次出现。
本发明提出了基于突发词检测和过滤的微博突发话题检测方法。从两个方面进行研究。突发词提取上,综合考虑了词的基本权重和突发权重,利用词出现频次、包含词的微博数、词出现频次的增长速度计算词的突发值;利用词突发值趋势分析的方法,计算短期突发值的均值与长期突发值的均值的差,过滤无效的突发词。本发明能够更加准确地检测突发话题。
发明内容
本发明所提出的基于突发词检测和过滤的微博突发话题检测方法分为三个部分:突发词的提取、伪突发词的过滤和突发话题识别。首先,分别计算一个词在某个时间片的基本权重与突发权重,根据这个词的基本权重与突发权重计算一个词的突发值;其次,计算一个词突发值在两个不同长度时间段内的指数平均值,根据两个指数平均值的差判断词突发值的变化趋势;最后,使用主题模型和聚类的方法检测出当前时间片的话题,并选出每个话题出现频次最高的3个词作为关键词。如果一个话题中的关键词包含突发词,则认为这个话题是突发话题。
为达到上述目的,如图1所示,本发明的技术方案划分为三个部分:
1.基于词突发值计算的突发词检测;
2.基于突发值指数平均值的伪突发词识别;
3.基于话题关键字和突发词相似度的突发话题识别
本发明有以下一些技术特征:
(1)提出基于词突发值计算的突发词检测,突发词提取上,综合考虑了词的基本权重和突发权重,利用词出现频次、包含词的微博数、词出现频次的增长速度计算词的突发值。
(2)提出基于突发值指数平均值的伪突发词识别,计算一个词突发值在两个不同长度时间段内的指数平均值,根据两个指数平均值的差判断词突发值的变化趋势。
(3)提出基于话题关键字和突发词相似度的突发话题识别,使用主题模型与聚类算法结合的方法来检测时间片内的话题。当一个话题的前三个关键词与突发词的相似度大于一个阈值时,此话题为突发话题。算法的精确率、召回率比传统算法有较大提高。
本发明提出了一种突发话题检测方法,理论系统完备,创新性突出,主要用在社交网络数据中。本发明应用在社交网络突发话题检测领域,可以处理各种话题混杂的社交网络文本数据,识别出伪突发词,提高突发话题检测的准确性和实时性。
附图说明
图1为基于突发词检测和过滤的微博突发话题检测模型的基本内容结构图;
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910631334.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语义解析方法及相关产品
- 下一篇:一种分词方法、装置、电子设备及存储介质