[发明专利]一种基于半监督学习的社交网络垃圾用户过滤方法有效
申请号: | 201610614458.5 | 申请日: | 2016-07-29 |
公开(公告)号: | CN106294590B | 公开(公告)日: | 2019-05-31 |
发明(设计)人: | 徐光侠;赵竞腾;齐锦;刘宴兵;黄德玲;赵璐;李培真;代皓;张令浩 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06K9/62;G06Q50/00 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;李金蓉 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于半监督学习的社交网络垃圾用户过滤方法,将协同训练算法应用于社交网络垃圾用户检测。现有对社交网络中的海量信息进行的分类大多利用监督学习算法,该算法都是基于已标注数据建立的分类模型,但因社交信息规模庞大,标注数据所需人工成本巨大,且解决社交网络用户数据标注的方法不多。提出一种方法,借鉴协同训练算法,将多视图、多分类器运用到大量无标注或有少量标注的社交网络数据中,使不同视图上的分类器相互学习,实现数据标注的目的。 | ||
搜索关键词: | 一种 基于 监督 学习 社交 网络 垃圾 用户 过滤 方法 | ||
【主权项】:
1.一种基于半监督学习的社交网络垃圾用户过滤方法,其特征在于,包括以下步骤:S1:针对某一社交网络,获取多个用户的社交特征X,包括各个用户的消息内容特征和用户行为特征,并将这些特征存储入数据库中;S2:利用信息增益算法对步骤S1中的所有特征数据进行排序选取,得到三组贡献度平均的特征向量X1,X2和X3;具体方法为:S21:训练样本集为D,|D|表示其样本容量,即样本个数;C1表示正常用户,C2表示垃圾用户;此时分类系统的熵可以表示为:
其中,P(Ci)表示在全部用户中Ci用户所占比例,|Ci|表示Ci用户的个数,其中i=1,2;S22:在特征选取过程中,x表示特征X出现,
表示特征X不出现,那么特征X固定时的条件熵为:![]()
![]()
其中,H(C|x)表示特征X出现的条件下分类系统的条件熵、
表示特征X不出现的条件下分类系统的条件熵、P(x)表示特征X出现的概率、
表示特征X不出现的概率、P(Ci|x)表示特征X出现的条件下Ci用户的条件概率、
表示特征X不出现的条件下Ci用户的条件概率;S23:根据S21和S22得到的分类系统的熵和特征X固定时的条件熵,得出特征X给系统带来的信息增益为:IG(X)=H(C)‑H(C|X),然后对全部特征的信息增益进行排序,得到三组贡献度平均的特征向量;S3:从步骤S1所述社交网络中取少量用户作为训练样本,并对其进行部分标注,L表示已标注样本集,U表示未标注样本集;S4:通过自助抽样的方法在已标注的社交用户数据L中随机选取三组不同训练样本集D1,D2,D3;S5:将步骤S2得到的三组贡献度平均的特征向量X1,X2,X3,作为协同训练算法Tri‑training的三个视图,通过三个视图上的训练得到垃圾用户的三个初步分类器h1,h2,h3;S6:利用步骤S5得出的三个初步分类器,采用投票的方式完成对未标注样本集x∈U的标注,并作为新的训练样本{x}更新分类器,通过不断迭代更新,使得分类器达到最优;S7:利用最终得到的分类器对待测用户进行检测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610614458.5/,转载请声明来源钻瓜专利网。
- 上一篇:基于MapReduce的多表数据处理方法及系统
- 下一篇:新型摄像监控装置