[发明专利]一种多特征融合的微博中社会安全事件检测方法有效
申请号: | 201810970734.0 | 申请日: | 2018-08-24 |
公开(公告)号: | CN109325117B | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 张仰森;黄改娟;蒋玉茹;尤建清;陈若愚 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332;G06F16/951;G06F16/955;G06F16/9535;G06F40/242;G06F40/289;G06F40/30 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 100101 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种多特征融合的微博中社会安全事件检测方法,包括获取微博文本数据后对获取到的微博文本进行预处理、提取微博文本中的社会安全事件特征词、基于语境的词语语义相关度计算方法计算社会安全事件特征词的相关度、构建社会安全事件侦测模型。本发明在对特征词进行相关度计算时,充分考虑了事件侦测过程中的领域性需求,利用大规模语料建立词语共现关系图实现特征词的相关度计算,在对事件进行识别的过程中,采用层次聚类和增量聚类相结合,充分考虑了事件随时间不断变化的过程,同时,采用特征词进行聚类,有效减小了特征维度,提升了模型的运行效率。 | ||
搜索关键词: | 一种 特征 融合 微博中 社会 安全 事件 检测 方法 | ||
【主权项】:
1.一种多特征融合的微博中社会安全事件检测方法,其特征在于,包括以下步骤:步骤一、获取微博文本数据后对获取到的微博文本进行预处理,清除其中的异常数据和噪声数据,实现数据格式的标准化,并构建相应的微博数据资源库;步骤二、提取微博文本中的社会安全事件特征词,其中社会安全事件特征词包括:表征事件基本要素的实体词、表征事件信息主题的特征词、与事件话题标签相关的特征词、体现社会安全事件突发性的特征词、过滤广告性的特征词,将以上各项特征词的取值进行综合,计算每个特征词的等分,具体的得分计算规则为:
其中,score(wi)表示特征词wi的最终得分,featurej(wi)表示特征词wi除了第一个特征以外其他四个特征的得分,max(featurej)表示该特征的最大得分,min(featurej)表示该特征的最小得分,if(wij)∈Entity表示该特征词属于第一个特征,即该词属于实体词;步骤三、基于语境的词语语义相关度计算方法计算社会安全事件特征词的相关度;步骤四、构建社会安全事件侦测模型:利用社会安全事件特征词选取方法抽取每一单位时间窗口内所有微博文本的特征词,结合特征词相关度计算算法,计算每个特征词相互之间的相关度,构建特征词相关度矩阵,通过相关度矩阵采用凝聚式层次聚类的算法对特征词进行聚类,实现每个时间窗口内的社会安全事件的侦测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810970734.0/,转载请声明来源钻瓜专利网。