[发明专利]一种社交网络事件的实时增量式检测方法和系统有效

专利信息
申请号: 201410509359.1 申请日: 2014-09-28
公开(公告)号: CN104281670B 公开(公告)日: 2017-12-15
发明(设计)人: 李建欣;邰振赢;于伟仁;张日崇;胡春明 申请(专利权)人: 北京航空航天大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京同立钧成知识产权代理有限公司11205 代理人: 刘芳
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 社交 网络 事件 实时 增量 检测 方法 系统
【说明书】:

技术领域

发明涉及信息技术,尤其涉及一种社交网络事件的实时增量式检测方法和系统。

背景技术

社交网络中的短文本,例如微博,往往具有以下特点:长度严格限制在140字以内;用户在发布短文本的同时还可以通过@符号和其他用户进行互动;用户还可以利用#符号来表明短文本所属的主题。

作为一种互动性和传播性极强的工具,社交网络中的短文本数量往往随着新闻事件的发生呈现出爆炸性的增长,从而使得在社交网络上实时信息更替得更频繁;同时,由于社交网络中的短文本的长度限制,使得文本更加地碎片化。总的来说,社交网络中的短文本的实时性、社会化以及碎片化特征给事件检测带来了巨大的挑战。

现有技术中,对于事件检测包括基于突发词检测方法,以及基于主题模型检测方法。其中,基于突发词检测方法中,事件表示为一组相关联的突发词的集合。首先,基于词频加速度或小波分析等方法检测突发词;其次,计算突发词之间的相似性;然后,基于图划分或K-均值(K-means)等方法进行突发词的聚类。但基于突发词检测方法中存在如下几个问题:首先,缺少概率的背景和解释;其次,并不能追踪事件的主题随时间的变化;最后,数据集中不同时间发生事件无法区分。

另外一种基于主题模型检测方法中,事件表示为一个主题。主题模型是被广泛应用在文本数据集中挖掘潜在变量的方法。在经典的主题模型,例如潜在狄利克雷分析(Latent Dirichlet Allocation,LDA),根据文档内的词与词之间的共现关系识别出主题。但基于主题模型的检测方法中存在一些问题:首先,经典的主题模型适用于长文本的数据集,短文本的词与词之间的共现关系太稀疏,计算结果很难收敛;其次,数据集中不同时间发生事件无法区分;最后,相关方法适用于离线处理的场景,并且相关的算法是顺序计算不具有并行性。

因此,现有技术中的事件检测均不能同时适应社交网络中的短文本的实时性、社会化以及碎片化特征,导致检测结果不准确。

发明内容

本发明提供一种社交网络事件的实时增量式检测方法和系统,用于解决现有技术中的事件检测均不能同时适应社交网络中的短文本的实时性、社会化以及碎片化特征,导致检测结果不准确的技术问题。

本发明的第一个方面是提供一种社交网络事件的实时增量式检测方法,包括:

采用概率图模型,根据短文本的时间、文档和主题标签,对短文本进行模型学习,获得似然函数;

采用EM算法,对似然函数进行求解,获得参数;

采用增量更新方式,对所获得的参数进行迭代更新,直至参数收敛;

采用分布式方式,根据收敛后的参数执行EM算法中的E步和M步,计算获得短文档的内容。

本发明的另一个方面是提供一种社交网络事件的实时增量式检测系统,包括:

模型学习模块,用于采用概率图模型,根据短文本的时间、文档和主题标签,对短文本进行模型学习,获得似然函数;

似然函数模块,用于采用EM算法,对似然函数进行求解,获得参数;

增量更新模块,用于采用增量更新方式,对所获得的参数进行迭代更新,直至参数收敛;

分布式计算模块,用于采用分布式方式,根据收敛后的参数执行EM算法中的E步和M步,计算获得短文档的内容。

本发明提供的社交网络事件的实时增量式检测方法和装置,通过采用概率图模型,根据短文本的时间、文档和主题标签,对短文本进行模型学习,获得似然函数;采用EM算法,对似然函数进行求解,获得参数;采用增量更新方式,对所获得的参数进行迭代更新,直至参数收敛;采用分布式方式,根据收敛后的参数执行EM算法中的E步和M步,计算获得短文档的内容,从而解决了现有技术中的事件检测均不能同时适应社交网络中的短文本的实时性、社会化以及碎片化特征,导致检测结果不准确的技术问题。并且,提出了有监督的短文本事件检测模型,增量学习与预测相结合的算法和基于内存计算平台的事件检测模型。

附图说明

图1为本发明一实施例提供的一种社交网络事件的实时增量式检测方法的流程示意图;

图2为本发明另一实施例提供的一种社交网络事件的实时增量式检测方法的流程示意图;

图3为概率图模型;

图4为本发明一实施例提供的一种社交网络事件的实时增量式检测系统的结构示意图。

具体实施方式

图1为本发明一实施例提供的一种社交网络事件的实时增量式检测方法的流程示意图,如图1所示,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410509359.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top