[发明专利]基于最大频繁项集挖掘的微博炒作群体发现方法有效
申请号: | 201410188004.7 | 申请日: | 2014-05-07 |
公开(公告)号: | CN103927398A | 公开(公告)日: | 2014-07-16 |
发明(设计)人: | 刘琰;张进;罗军勇;罗向阳;董雨辰;陈静;常斌 | 申请(专利权)人: | 中国人民解放军信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 郑州天阳专利事务所(普通合伙) 41113 | 代理人: | 聂孟民 |
地址: | 450052 *** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 最大 频繁 挖掘 炒作 群体 发现 方法 | ||
技术领域
本发明涉及微博舆情监控领域,特别是一种基于最大频繁项集挖掘的微博炒作群体发现方法。
背景技术
微博作为一种新兴的社会媒体形式,兼具博客、媒体、即时通讯功能于一身。微博自身的即时性、草根性、移动性、互动性等特点使其成为网络舆情传播的天然载体。在网络舆情中,微博不仅成为舆论传播的中心和渠道,同时也参与舆论的形成、发展与引导过程。
微博传播是一把双刃剑:一方面,微博为一些社会事件中的信息公开提供了一个快速响应的平台,它在一定程度上弥补了传统媒体和其他网络工具的不足;另一方面,微博不同于传统新闻媒体,其新闻的发布存在重复性,且真实性无法保证,可能会被利用成为谣言传播的载体、不满情绪的导火索,甚至给国家安全和社会稳定造成极坏的后果。网络不实信息始于其制造者,扩散于其传播者。
惠普公司旗下的社交计算研究团队在最新报告中称,新浪微博存在异常严重的话题炒作问题,围绕热门话题转发的微博中有半数都是由炒作用户发送的。研究发现,热门话题传播中人为操纵的虚假转发数量极大,1%的垃圾消息发送者创造了49%的转发量。自2013年8月以来,政府部门加大了对网络舆论引导的力度,根据对“秦火火”、“立二拆四”等所在网络推手公司的调查结果来看,网络中存在着大量有组织的推手团队,他们伙同少数“意见领袖”组织网络“水军”,长期在网上炮制虚假新闻、故意歪曲事实,制造事端,混淆是非,严重扰乱了网络舆论秩序,其行为已经受到国家舆情管控的高度关注,相关人等也因涉嫌犯罪被依法刑事拘留。
因此,面向新兴媒体,针对各种隐藏的舆论煽动行为,开展对炒作微博的识别,分析其传播群体特征,收集虚假推送行为的识别证据,甄别人为制造的炒作热点,对于发现、预测、引导网络舆论,提高政府舆论监管能力,维护社会和谐稳定具有重要的理论价值和现实意义。
随着微博的爆炸式发展,针对微博账户的研究吸引了国内外学者的广泛兴趣,一些研究成果近年来在WWW、KDD等重要会议上发表。目前对微博账户的研究可以大致分为以下三类:1)特征分析,包括账户属性特征和行为特征等;2)影响力分析,包括影响力评价体系构建及度量方法等;3)账户间关系网络分析,包括账户关系网络的基本属性、生成与演进等。
然而,目前国内外对炒作群体研究的文献相对较少,主要相关文献有对垃圾账户(spammer)、马甲账户(sockpuppet)、僵尸账户的识别。垃圾账户是指经常发布垃圾信息的账户,Z.Yi等人从多个角度分析了垃圾账户的特征,并采用机器学习的方式自动识别垃圾账户。Chao Yang等人深入分析了垃圾账户间的社会关系,提出了一种根据账户间亲密度来发现垃圾账户的方法。马甲账户是指通过注册多个账号进行发帖、转发、评论等行为的虚假账户,Xueling Zheng等人提出了一种利用文本内容、相似度匹配来识别马甲账户的方法。僵尸账户是指为了进行粉丝买卖而恶意注册的账户,方明等提出了一种基于微博注册账户名特征提取的智能分类方法,具有较高的准确率。但这些方法并未解决如何发现微博炒作群体,防止虚假炒作,炒作账户与以上几类账户之间最大的区别是,炒作账户侧重于其“炒作”行为,参与炒作的账户较为分散且直接关系不明显,隐蔽性和组织性更强,也更加难以发现。
群体炒作与普通微博类似,传播人群的发帖、转发、评论等行为表面上是孤立的,但是非常规的恶意传播往往不是单个人的行为,而是有组织的群体行为,但是这种群体行为是隐蔽的,难以察觉。因此,如何发现微博炒作群体,防止虚假恶意炒作给社会造成的不良影响和不必要的经济损失,是必需认真解决的技术问题。
发明内容
针对上述情况,为克服现有技术之缺陷,本发明之目的就是提供一种基于最大频繁项集挖掘的微博炒作群体发现方法,可有效解决微博炒作群体的发现,防止虚假恶意炒作的问题。
本发明解决的技术方案是,基于最大频繁项集挖掘的微博炒作账户发现方法包括如下步骤:
(1)炒作微博样本搜集:以炒作微博的相关性为线索,基于爬虫技术或微博公共开放平台获取参与炒作微博传播的账户集合;
(2)事务数据库构建:以单个微博为事务,参与微博传播的账户为项,构建炒作微博事务数据库;
(3)最大频繁项集挖掘:对待检测微博组所对应的事务数据库中的每个事务,利用迭代交集法找出所有事务中包含的最大频繁项集,得到若干最大频繁项集集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军信息工程大学,未经中国人民解放军信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410188004.7/2.html,转载请声明来源钻瓜专利网。