[发明专利]一种基于变分自编码和K近邻组合的社交机器人检测方法有效

专利信息
申请号: 202110364341.7 申请日: 2021-04-05
公开(公告)号: CN113158076B 公开(公告)日: 2022-07-22
发明(设计)人: 王秀娟;郑倩倩;郑康锋;随艺;曹思玮;石雨桐 申请(专利权)人: 北京工业大学;北京邮电大学
主分类号: G06F16/9536 分类号: G06F16/9536;G06Q50/00;G06F16/33;G06K9/62;G06N3/04;G06N3/08
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 编码 近邻 组合 社交 机器人 检测 方法
【说明书】:

一种基于变分自编码和K近邻组合的社交机器人检测方法属于异常检测技术领域,本发明通过网络获取社交机器人公开数据,并通过预处理提取特征,通过采用数据进行训练,再使用变分自编码进行编码以及解码,正常样本特征经过解码与初始特征更为相似,而异常样本与初始特征差异大,将原始特征与解码后的特征进行融合,再利用异常检测方法K近邻进行异常检测。该方法考虑在社交网络大环境中,异常用户群体相对于正常用户群体其数量较少,因此在数据的收集过程中,异常用户的收集相对麻烦。本发明提出的方法解决了社交机器人检测现有方法中高成本打标签和正负样本不均衡的缺点,通过减少异常样本参与模型的训练,实现社交网络机器用户的高效检测。

技术领域

本发明属于异常检测技术领域,尤其涉及一种基于差分自编码的社交机器人检测。

背景技术

随着互联网极大的普及与发展,为研究人类行为提供了大量的真实在线用户行为数据。截至2020年12月,我国网民规模达9.89亿,Twitter日活跃用户达到了1.92亿人,截至2020年9月,微博月活用户为5.11亿,,平均日活跃用户数为2.24亿,如此庞大的用户量每天产生TB级的数据,这些数据记录了成千上万用户丰富的上网行为。社交媒体已成为人们生活获取和分享信息不可缺少的一部分。总的来看,像Twitter和微博这样的社交媒体网站带给我们前所未有的机遇,从客观的行为数据去研究用户的行为是否偏离正常社交模式,从而检测出那些破坏网络安全的用户。

现在大多数人们喜爱并愿意在大众社交媒体平台表达情感、记录生活、积极发表言论,整个社交网络已逐渐趋于复杂化和多元化,随之而来的问题层出不穷。目前,用于各种目的的社交机器人(即一种在社交网络中模拟真实正常用户的行为的自动化程序)已应运而生,最初社交机器人的诞生,是本着为人类服务以及提高人类生活质量的宗旨,但后来社交机器人的发展脱离了人类的掌控,会伪装成独立的实体,创建一些虚假的账户,实施窃取用户隐私、发送垃圾邮件、传播恶意链接、发动DDoS攻击等活动,给无辜用户造成伤害,已经成为社交网络中的一大毒瘤,危害社交网络的健康。据美国证券交易委员会报告揭示,2014年Twitter上有超过2300万的活跃账户实际上是社交机器人,其已经成为社交媒体中重要的内容生产与传播动力。网络安全服务商Distil Networks发布的关注自动化网络流量现状的2020年Bad Bot报告指出,在2019年,恶意机器流量占比24.1%,好的机器总流量占比13.1%,人类流量较去年增加1.1%,总占比62.8%,如图1所示。报告中提及的机器人往往以僵尸网络的形式出现,通过匿名代理与其它身份隐藏技术来藏匿其流量发起源头,同时将自己伪装成合法的人类。正是这种特性,使得它们难以被防控。检测机器人的问题具有很强的含义。例如,机器人通过扭曲网络言论、操纵股市或推动导致健康流行病的反疫苗阴谋论来影响政治选举,检测出社交机器人是一份极具挑战而有意义的任务。

社交机器人是一种模仿人类社交行为的程序。早期对于社交网络中的不良用户检测主要集中在水军、垃圾用户和僵尸粉,随着机器用户的出现,各界意识到恶意社交机器人带来的负面影响,由于机器用户出现的时间晚,对于机器用户研究相对比较少,相关研究开始的晚。研究学者将社交网络用户可以分为人类用户,正常机器用户和恶意机器用户。正常机器用户从事恶意行为的可能性小,行为特征和正常用户更为相似,而与恶意机器人有着明显的区别,因此,可将正常机器人定义为正常用户,恶意机器用户定义为机器用户,检测恶意社交机器人可看作是二分类问题:如果一个用户是恶意机器用户,则其被认为是训练集中的一个正例,否则此用户是正常用户,被认为是一个反例。大部分研究将检测机器用户看作分类问题,比如采用随机森林模型(Random Forest,RF)、AdaBoost、线性回归模型(Logistic Regression,LR)和决策树模型(Decision Tree,DT)作为分类器分别进行预测,但基于分类的方法需要提前训练,对训练数据以及各类数据标签的准确性较为依赖,类别不平衡问题缺乏有效方案。现在异常检测研究成果十分显著,也更适用于社交网络中异常用户的检测。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学;北京邮电大学,未经北京工业大学;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110364341.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top