[发明专利]一种多特征融合的微博中社会安全事件检测方法有效

专利信息
申请号: 201810970734.0 申请日: 2018-08-24
公开(公告)号: CN109325117B 公开(公告)日: 2022-10-11
发明(设计)人: 张仰森;黄改娟;蒋玉茹;尤建清;陈若愚 申请(专利权)人: 北京信息科技大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/332;G06F16/951;G06F16/955;G06F16/9535;G06F40/242;G06F40/289;G06F40/30
代理公司: 北京科亿知识产权代理事务所(普通合伙) 11350 代理人: 汤东凤
地址: 100101 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 特征 融合 微博中 社会 安全 事件 检测 方法
【权利要求书】:

1.一种多特征融合的微博中社会安全事件检测方法,其特征在于,包括以下步骤:

步骤一、获取微博文本数据后对获取到的微博文本进行预处理,清除其中的异常数据和噪声数据,实现数据格式的标准化,并构建相应的微博数据资源库;

步骤二、提取微博文本中的社会安全事件特征词,其中社会安全事件特征词包括:表征事件基本要素的实体词、表征事件信息主题的特征词、与事件话题标签相关的特征词、体现社会安全事件突发性的特征词、过滤广告性的特征词,将以上各项特征词的取值进行综合,计算每个特征词的得分,具体的得分计算规则为:

其中,score(wi)表示特征词wi的最终得分,feature j(wi)表示表征事件基本要素的实体词以外的表征事件信息主题的特征词、与事件话题标签相关的特征词、体现社会安全事件突发性的特征词、过滤广告性的特征词的得分,max(featurej)表示该特征词的最大得分,min(featurej)表示该特征词的最小得分,if(wi)∈Entity表示该特征词属于表征事件基本要素的实体词,j表示微博个数;

表征事件基本要素的实体词、表征事件信息主题的特征词、与事件话题标签相关的特征词、体现社会安全事件突发性的特征词、过滤广告性的特征词的提取具体为:

(1)表征事件基本要素的实体词的提取:事件的基本要素中包括时间、地点、人物、机构、日期、数量命名实体词语,这些词语表征了事件的基本特征;

(2)表征事件信息主题的特征词的提取:如果在一条微博文本中,某个词的出现频率即TF值较高,但在其他微博文本中出现频率即IDF值较低,则认为此词能够很好地表征这篇微博文本的主题,因此,采用TF-IDF模型来衡量每一个词与事件主题的相关程度,具体的TF-IDF计算公式如下:

tfidf(wij)=tf(wij)*idf(wij)

其中,|wij|表示词语wi在微博j内出现的频次,表示微博j中所有词数之和,|D|表示当前时间窗内所有微博数目,表示当前时间窗内出现词wi的微博数目,tfidf(wij)则表示词wi在微博j中的TF-IDF值,为每条微博选取TF-IDF排名前三的词语作为特征词,并设定相应的过滤规则对其过滤;

(3)与事件话题标签相关的特征词的提取:在微博中,具有一定影响力的话题或事件都会被创建成为一定的话题标签,通过使用两个“#”符号将话题标签包含起来进行标记,通过计算每个词语的话题标签价值度Hashtag Value来衡量该词语与某个社会安全事件话题标签的相关程度,其计算公式如下:

其中,hv(wi)表示词语wi的话题标签价值度,M表示所有微博的集合,H表示M中所有话题标签的集合,表示在H中存在一个话题标签h包含词语wi,表示在H中不存在话题标签h包含词语wi,|H|表示H中包含的话题标签的总数目,|h|表示包含词语wi的话题标签的数目,|M|表示M中包含的微博的总数目,表示在M中存在一条微博m包话题标签h,并且m中包含有词语wi,表示上述微博m的数目;

话题标签价值度的计算将词语分为了两类,一类是出现在话题标签中的词语,该类词语的话题标签价值度采用包含该词语的话题标签的数目与总的话题标签的数目的比值来衡量;另一类是未出现在话题标签中的词语,该类词语的话题标签价值度采用包含该词语的微博且微博中包含有话题标签的微博数目与总的微博数目的比例来衡量;通过对预处理后微博中的词语进行话题标签价值度分析,利用二八原则,选取上述两类词语话题标签价值度分别排名前20%的词语作为与事件话题标签相关的特征词;

(4)体现社会安全事件突发性的特征词的提取:利用词频增量来对某个时间窗内表征事件突发性的特征词进行提取,词频增量通过词语在相邻时间窗的词频变化情况来进行衡量,在相邻时间窗的基础上,引入了相对时间窗,将两者合称为参照时间窗,通过当前时间窗与参照时间窗词语频次的变化来对词频增长率进行计算,计算公式如下:

其中,ft(wij)表示词语wi在当前时间窗j的词频增长率,f(wij)表示词wi在时间窗j内微博中出现的次数,f(wi(j-1))表示词wi在前一个时间窗j-1内微博中出现的次数,f(wij)表示词wi在相对时间窗内微博中出现的次数,对于相对时间窗的选取策略,需根据事件的发展周期和时间片大小来确定,若时间片以天为时间单位,相对时间窗选取为j-2的时间窗,若时间片以小时为时间单位,则相对时间窗选取为前一天的第j个时间窗,α1和α2分别是调节系数,表示相邻时间窗和相对时间窗的影响力,通过对预处理后的微博按时间片进行划分,分别对每个时间片微博中词语进行突发性分析,同样利用二八原则,选取突发性排名前20%的词语作为能够体现社会安全事件突发性的特征词;

(5)过滤广告性的特征词的提取:设广告性的特征词词语wi出现在n条微博中,发布这些微博的用户{a1,a2,…,ak}采用词wi分别发布了{c1,c2,…,ck}(∑ci=n)条消息,则词语wi的词语信息扩散熵en(wi)计算公式如下:

词语信息扩散熵en(wi)是广告性的特征词词语wi扩散程度的度量,其值越大,表示包含该词语的微博传播的用户越多,扩散范围越大,影响程度越大;反之,则包含该词语的微博传播的用户很少,扩散范围很小,影响力也有限,通过对选取的特征词进行词语信息扩散熵分析,同样利用二八原则,将广告性的特征词词语信息扩散熵排名最后的20%的词语从特征词中剔除;

步骤三、基于语境的词语语义相关度计算方法计算社会安全事件特征词的相关度;具体的计算步骤如下:

Step1:采用微博数据爬取方法和微博文本预处理方法对当前一段时间的微博文本进行获取和预处理,构建微博语料库;

Step2:提取微博语料库中每条微博中的共现词语对,计算每个共现词语对的共现频次和互信息,互信息的计算公式如下:

其中,P(w1,w2)表示词语w1、w2在同一条微博中共同出现的频率,P(w1)、P(w2)表示词语w1、w2在微博语料中各自单独出现的频率,其计算公式如下:

其中,c(w1)、c(w2)、c(w1,w2)表示词w1、w2在微博语料中各自单独出现的频次和共现的频次,N为微博语料中词语的总数,通过词语之间的互信息MI(w1,w2)和共现频次c(w1,w2)的阈值αmi和αc实现对共现词语对的筛选;

Step3:将抽取的共现词语对进行组合,构建词语共现关系图;

Step4:抽取每个词语对在共现关系图中的路径的数量n和每条路径的长度Li(1≤i≤n),仅考虑长度小于α(α>1)的路径,并且为不同长度(1,α)的路径分别赋予对应的权重βk(1≤k≤α),采用加权长度βkLi对路径的长度进行衡量,则词语Ei到Ej之间的平均加权路径总长计算公式如下:

将公式进行改进为如下公式:

其中,对于不同长度路径的权值βk的计算公式如下:

则对于词语Ei和Ej,其词语语义相关度的计算模型如下:

Step5:获取实时的微博语料,对词语共现关系图进行更新;

步骤四、构建社会安全事件侦测模型:利用社会安全事件特征词选取方法抽取每一单位时间窗口内所有微博文本的特征词,结合特征词相关度计算算法,计算每个特征词相互之间的相关度,构建特征词相关度矩阵,通过相关度矩阵采用凝聚式层次聚类的算法对特征词进行聚类,实现每个时间窗口内的社会安全事件的侦测。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810970734.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top