[发明专利]一种识别微博异常用户的方法和系统有效
| 申请号: | 201310076056.0 | 申请日: | 2013-03-11 |
| 公开(公告)号: | CN103150374B | 公开(公告)日: | 2017-02-08 |
| 发明(设计)人: | 王鹏;张鹏;刘铁男;孙亮 | 申请(专利权)人: | 中国科学院信息工程研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京轻创知识产权代理有限公司11212 | 代理人: | 杨立 |
| 地址: | 100093 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 识别 异常 用户 方法 系统 | ||
技术领域
本发明涉及社交网络安全领域,特别是涉及一种微博异常用户快速识别的方法和系统。
背景技术
当前,上网已经成为了多数人必不可少的日常工作,其中微博等社交网络更是成蓬勃发展势头。微博的发展,丰富了信息的传播方式、传播内容,使网络信息的形成机制和传播机制发生了重大变化。但是与此同时,各种垃圾信息也在社交网络上肆意传播,微博异常用户就是利用程序在网上传播广告、话题炒作、商品营销的等垃圾信息。因此,如何有效地规范社交网络的信息传播秩序,是现今面对的一个极大考验。
微博异常用户是指由程序自动生成的微博用户账号,背后没有具体人使用,多数时候都是在由程序控制着进行微博的转发、评论活动。异常用户控制者通过向管理程序发送各种命令来控制异常用户的行为。微博异常用户所形成的网络拥有众多用户节点,可以形成规模庞大且复杂的消息传播网络。假设一条带有社会危害性的消息通过异常用户网络来传播,通过异常用户的传递会在很短的时间内扩大影响范围,最终将会带来严重的危害。经过大量研究表明,微博异常用户的主要危害包括两个方面:
第一是虚假消息传播,这也是微博异常用户网络的主要危害。造谣者向自己控制的所有微博账户发送指令,让它们在特定的时间同时转发同意消息,经过异常用户网的传播,同一消息可能会由不同的路径传递到普通用户。由于消息是由不同路径传播而来,所以普通用户会认为这则消息的可靠性比较高,最终达到造谣者的目的。由于异常用户网络可以形成庞大的规模,这使得消息的传播范围也会非常广,使得这种手段具有更高的危害性,也更难防范。
第二是垃圾信息泛滥。微博网络正经历着当初电子邮件遇到的问题,各种垃圾信息如赚钱信息、商业或个人广告、成人广告等正在网络中流传。大量的垃圾信息不但占用网络资源,降低整个网络的运行效率,而且还可能会耗费用户的时间、精力,屏蔽用户感兴趣的信息。更加严重的是这些垃圾信息可能传播色情、消极的不良内容,对社会危害极大。
由于微博异常用户的危害性很高,所以对其的检测发现成为迫在眉睫的事情,很多著名的公司和组织均参与其中。目前,检测发现微博异常用户的方法大都是设置一些比较简单的规则来判断用户是否是异常用户,比如用户粉丝数、微博数量等。但这些判断标准都过于粗犷,结论过于武断,具有明显的缺陷。
发明内容
本发明所要解决的技术问题是提供准确、快速、高效的识别微博异常用户的方法和系统,用于解决现有技术中存在的对微博异常用户检测的检测结果不准确、不完备的问题。
本发明解决上述技术问题的技术方案如下:一种识别微博异常用户的方法,包括:
步骤1,获取多个用户微博数据,并将用户微博数据存储入数据库中;
步骤2,根据从数据库中获取的用户微博数据,以用户行为的时间间隔的统计分布做为用户的行为时间特征,并根据行为时间特征生成行为时间特征向量和界定参数;
步骤3,计算正常用户行为时间特征向量与待测用户行为时间特征向量的Kullback-Leibler距离,若计算出的Kullback-Leibler距离超出界定参数,则判定待测用户为异常用户,否则为正常用户;
步骤4,对已判定的异常用户的微博内容进行关键词抽取,并将抽取的关键词以用户标签的形式进行展示。
这里,Kullback-Leibler距离也叫做相对熵(Relative Entropy),是一种衡量的是概率空间里的两个概率分布的差异大小,适用于多个领域,也是本领域的常用技术。另外,用户行为的时间间隔包括在用户微博数据中。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述步骤1中采用网络爬虫方法获取多个用户微博数据。
进一步,所述步骤2具体包括:
步骤21,根据从数据库中获取的用户微博数据,以用户行为的时间间隔的统计分布做为用户的行为时间特征;
步骤22,采用聚类算法将所有的认证用户的行为时间特征聚成一类,取其聚类中心为正常用户行为时间特征向量;
步骤23,手动标注出异常用户,并爬取异常用户的微博数据,再根据获得的微博数据计算异常用户的行为时间特征向量;
步骤24,采用聚类算法将异常用户的行为时间特征向量聚成一类,取其聚类中心作为异常用户行为时间特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310076056.0/2.html,转载请声明来源钻瓜专利网。





