[发明专利]面向事件检测的多策略媒体数据流过滤方法及其装置有效

专利信息
申请号: 201810645129.6 申请日: 2018-06-21
公开(公告)号: CN108959484B 公开(公告)日: 2020-07-28
发明(设计)人: 陈刚;唐永旺;魏晗;席耀一;郭志刚;袁江林 申请(专利权)人: 中国人民解放军战略支援部队信息工程大学
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/35
代理公司: 郑州大通专利商标代理有限公司 41111 代理人: 周艳巧
地址: 450000 河*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 事件 检测 策略 媒体 数据流 过滤 方法 及其 装置
【说明书】:

发明涉及一种面向事件检测的多策略媒体数据流过滤方法及其装置,该方法包含:离线阶段,根据收集到的媒体用户数据,构建垃圾用户数据库和应用来源黑名单列表;在线识别阶段,针对媒体数据流,通过垃圾用户数据库和应用来源黑名单列表进行媒体数据过滤,通过媒体内容及上下文特征过滤非事件媒体数据,并对媒体数据进行在线聚类,识别事件类簇,对事件类簇中的媒体数据进行净化。本发明有效解决微博数据流中噪声数据和其它非事件数据对微博事件检测的影响,能够清理微博数据流中的绝大部分非事件微博,有效提高微博事件检测性能,实时性、实用性强,便于及时提取热点话题和突发事件,对新媒体数据流处理技术具有重要的指导意义。

技术领域

本发明属于媒体数据处理技术领域,特别涉及一种面向事件检测的多策略媒体数据流过滤方法及其装置。

背景技术

作为新兴媒体的典型代表,微博是一个可以方便快捷发布观点、分享和传播信息的重要平台。由于微博的便捷、实时性和互动性,对于许多民众关注的热点和重大事件的报道和传播,其优越性甚至超过了传统媒体和门户网站,微博已经成为情报收集、市场营销以及舆情监测等行业的重要信息来源。利用面向微博的事件检测技术,可以从海量微博数据中提取当前社会热点话题和重大突发事件,从而更好的帮助用户了解新闻动态,掌控身边发生的重大事件。然而,除了一些热点新闻和突发事件的报道外,微博中还充斥着大量的无用信息,包括广告信息、日常生活琐事、网络谣言以及服务器自动生成的垃圾信息等,如何将这些垃圾信息与有意义的事件微博区分开来已成为微博数据流事件检测的主要挑战之一。针对该问题,现有学者通过一些过滤策略来净化微博数据以提高微博事件检测的性能,其在一定程度上净化了微博数据流,提高了事件检测性能,但它们所使用的过滤策略较为单一,净化效果有限,并且无法对净化效果进行评估。

发明内容

针对现有技术中的不足,本发明提供一种面向事件检测的多策略媒体数据流过滤方法及其装置,能够清理微博数据流中的绝大部分非事件微博,有效提高微博事件检测性能,更好地帮助用户了解新闻动态。

按照本发明所提供的设计方案,一种面向事件检测的多策略媒体数据流过滤方法,包含如下内容:

离线阶段,根据收集到的媒体用户数据,构建垃圾用户数据库和应用来源黑名单列表;

在线识别阶段,针对媒体数据流,通过垃圾用户数据库和应用来源黑名单列表进行媒体数据过滤,通过媒体内容及上下文特征过滤非事件媒体数据,并对媒体数据进行在线聚类,识别事件类簇,对事件类簇中的媒体数据进行净化。

上述的,离线阶段中,基于用户和来源的媒体数据过滤,收集用户个人社交关系及发表的媒体数据,提取用户行为特征及媒体数据内容特征,离线构建垃圾用户数据库和应用来源黑名单列表,通过监督机器学习对垃圾用户进行识别;判断媒体数据流中媒体用户是否存在于垃圾用户数据库,或媒体数据是否来源于应用来源黑名单列表,对媒体数据进行直接过滤。

优选的,用户行为特征包含用户声誉度、转发率和活跃度,用户声誉度根据用户粉丝数、用户关注对象数量、粉丝用户的粉丝数量和粉丝用户的关注对象数量获取,转发率通过用户发表的多条媒体数据中转发媒体数据所占比例获取,活跃度根据用户发表媒体数据所跨越的天数与用户注册天数获取。

优选的,媒体数据内容特征包含短链接特征、标签特征、博文长度特征、博文重复度特征、博文用字多样性特征和被转发评论率,短链接特征根据用户发表的若干媒体数据中含有URL的媒体数据的占比得到;标签特征根据用户发表的若干媒体数据中含有热门话题标签的媒体数据的占比得到;博文长度特征根据用户发表的若干媒体数据的平均长度和长度方差计算得到;博文重复度特征根据用户发表的若干媒体数据两两之间的余弦相似度的平均值获取;博文用字多样性特征通过统计用户发布的若干媒体数据,并根据非重复字符个数,及每个非重复字符出现次数和媒体数据总字符比率三者来获取;被转发评论率通过统计用户发布的若干媒体数据中转发和评论数之和的占比获取。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学,未经中国人民解放军战略支援部队信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810645129.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top