[发明专利]面向事件检测的多策略媒体数据流过滤方法及其装置有效

专利信息
申请号: 201810645129.6 申请日: 2018-06-21
公开(公告)号: CN108959484B 公开(公告)日: 2020-07-28
发明(设计)人: 陈刚;唐永旺;魏晗;席耀一;郭志刚;袁江林 申请(专利权)人: 中国人民解放军战略支援部队信息工程大学
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/35
代理公司: 郑州大通专利商标代理有限公司 41111 代理人: 周艳巧
地址: 450000 河*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 事件 检测 策略 媒体 数据流 过滤 方法 及其 装置
【权利要求书】:

1.一种面向事件检测的多策略媒体数据流过滤方法,其特征在于,包含如下内容:

离线阶段,根据收集到的媒体用户数据,构建垃圾用户数据库和应用来源黑名单列表;

在线识别阶段,针对媒体数据流,通过垃圾用户数据库和应用来源黑名单列表进行媒体数据过滤,通过媒体内容及上下文特征过滤非事件媒体数据,并对媒体数据进行在线聚类,识别事件类簇,对事件类簇中的媒体数据进行净化;

在线识别阶段中针对媒体数据流,首先,通过垃圾用户数据库和应用来源黑名单列表进行媒体数据过滤;然后,利用媒体内容及上下文特征对媒体数据进行二分类,过滤非事件媒体数据;对主题相似的媒体数据进行聚类分析,提取类簇特征,识别事件类簇,其中,提取类簇特征至少包含提取类簇时间和类簇主题;并基于主题一致原则,对事件类簇中的媒体数据进行清理,净化媒体数据;

过滤非事件媒体数据,包含如下内容:首先,媒体数据流通过非监督机器学习进行在线聚类处理,获取媒体类簇,提取类簇特征;然后,利用监督机器学习进行模型训练,通过训练好的模型对非事件媒体类簇进行过滤;

类簇特征包含主题特征、社交特征和时序特征,其中,主题特征,通过媒体数据与类簇中心的余弦相似度的平均值和方法获取;社交特征,通过统计每个媒体类簇中包含转发、评论、回复和提及所占的比例获取;时序特征,通过统计媒体类簇中高频词的出现频次并按时间排序生成的频次直方图来获取;

时序特征包含如下两类特征:1)高频词期望偏差,统计当前时刻类簇中每个高频词的出现频次与期望频次的差值,并将该差值与类簇中每小时的媒体数据数量相除,其中,期望频次根据历史时间段内频次的均值进行计算得到,根据类簇中高频词出现的频次信息给各个高频词分配权重,得到加权类簇的高频词期望偏差;2)高频词直方图分布与指数函数的拟合程度,基于社交网络中的热点词呈现指数分布特征的特性,利用最小二乘法拟合高频词的分布直方图对应的指数分布函数,通过计算统计量来度量高频词直方图分布与指数函数的拟合程度。

2.根据权利要求1所述的面向事件检测的多策略媒体数据流过滤方法,其特征在于,离线阶段中,基于用户和来源的媒体数据过滤,收集用户个人社交关系及发表的媒体数据,提取用户行为特征及媒体数据内容特征,离线构建垃圾用户数据库和应用来源黑名单列表,通过监督机器学习对垃圾用户进行识别;判断媒体数据流中媒体用户是否存在于垃圾用户数据库,或媒体数据是否来源于应用来源黑名单列表,对媒体数据进行直接过滤。

3.根据权利要求2所述的面向事件检测的多策略媒体数据流过滤方法,其特征在于,用户行为特征包含用户声誉度、转发率和活跃度,用户声誉度根据用户粉丝数、用户关注对象数量、粉丝用户的粉丝数量和粉丝用户的关注对象数量获取,转发率通过用户发表的多条媒体数据中转发媒体数据所占比例获取,活跃度根据用户发表媒体数据所跨越的天数与用户注册天数获取。

4.根据权利要求2所述的面向事件检测的多策略媒体数据流过滤方法,其特征在于,媒体数据内容特征包含短链接特征、标签特征、博文长度特征、博文重复度特征、博文用字多样性特征和被转发评论率,短链接特征根据用户发表的若干媒体数据中含有URL的媒体数据的占比得到;标签特征根据用户发表的若干媒体数据中含有热门话题标签的媒体数据的占比得到;博文长度特征根据用户发表的若干媒体数据的平均长度和长度方差计算得到;博文重复度特征根据用户发表的若干媒体数据两两之间的余弦相似度的平均值获取;博文用字多样性特征通过统计用户发布的若干媒体数据,并根据非重复字符个数,及每个非重复字符出现次数和媒体数据总字符比率三者来获取;被转发评论率通过统计用户发布的若干媒体数据中转发和评论数之和的占比获取。

5.根据权利要求1所述的面向事件检测的多策略媒体数据流过滤方法,其特征在于,净化媒体数据,包含如下内容:对媒体数据进行分词和停用词去除,根据类簇中词频高低,选择词频大于给定阈值的词汇作为类簇质心;根据博文词频-逆文档频率计算词汇权重,并累加单条媒体数据中质心词汇的权重,得到媒体数据与类簇质心的相似度;将相似度低于指定阈值的媒体数据从类簇中去除。

6.一种面向事件检测的多策略媒体数据流过滤装置,其特征在于,基于权利要求1所述的面向事件检测的多策略媒体数据流过滤方法实现,包含:离线训练模块、过滤模块、聚类模块和净化模块,其中,

离线训练模块,用于根据收集到的媒体用户数据,构建垃圾用户数据库和应用来源黑名单列表;

过滤模块,用于针对媒体数据流,首先基于垃圾用户数据库和应用来源黑名单列表过滤媒体数据,然后利用媒体内容及上下文特征对媒体数据进行二分类,过滤非事件媒体数据;

聚类模块,用于对主题相似的媒体数据进行在线聚类分析,提取类簇特征,识别事件类簇,其中,类簇特征至少包含类簇时间和类簇主题;

净化模块,用于基于主题一致原则对事件类簇中的媒体数据进行清理,净化媒体数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学,未经中国人民解放军战略支援部队信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810645129.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top