[发明专利]一种基于半监督学习的社交网络垃圾用户过滤方法有效

专利信息
申请号: 201610614458.5 申请日: 2016-07-29
公开(公告)号: CN106294590B 公开(公告)日: 2019-05-31
发明(设计)人: 徐光侠;赵竞腾;齐锦;刘宴兵;黄德玲;赵璐;李培真;代皓;张令浩 申请(专利权)人: 重庆邮电大学
主分类号: G06F16/9536 分类号: G06F16/9536;G06K9/62;G06Q50/00
代理公司: 重庆市恒信知识产权代理有限公司 50102 代理人: 刘小红;李金蓉
地址: 400065 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于半监督学习的社交网络垃圾用户过滤方法,将协同训练算法应用于社交网络垃圾用户检测。现有对社交网络中的海量信息进行的分类大多利用监督学习算法,该算法都是基于已标注数据建立的分类模型,但因社交信息规模庞大,标注数据所需人工成本巨大,且解决社交网络用户数据标注的方法不多。提出一种方法,借鉴协同训练算法,将多视图、多分类器运用到大量无标注或有少量标注的社交网络数据中,使不同视图上的分类器相互学习,实现数据标注的目的。
搜索关键词: 一种 基于 监督 学习 社交 网络 垃圾 用户 过滤 方法
【主权项】:
1.一种基于半监督学习的社交网络垃圾用户过滤方法,其特征在于,包括以下步骤:S1:针对某一社交网络,获取多个用户的社交特征X,包括各个用户的消息内容特征和用户行为特征,并将这些特征存储入数据库中;S2:利用信息增益算法对步骤S1中的所有特征数据进行排序选取,得到三组贡献度平均的特征向量X1,X2和X3;具体方法为:S21:训练样本集为D,|D|表示其样本容量,即样本个数;C1表示正常用户,C2表示垃圾用户;此时分类系统的熵可以表示为:其中,P(Ci)表示在全部用户中Ci用户所占比例,|Ci|表示Ci用户的个数,其中i=1,2;S22:在特征选取过程中,x表示特征X出现,表示特征X不出现,那么特征X固定时的条件熵为:其中,H(C|x)表示特征X出现的条件下分类系统的条件熵、表示特征X不出现的条件下分类系统的条件熵、P(x)表示特征X出现的概率、表示特征X不出现的概率、P(Ci|x)表示特征X出现的条件下Ci用户的条件概率、表示特征X不出现的条件下Ci用户的条件概率;S23:根据S21和S22得到的分类系统的熵和特征X固定时的条件熵,得出特征X给系统带来的信息增益为:IG(X)=H(C)‑H(C|X),然后对全部特征的信息增益进行排序,得到三组贡献度平均的特征向量;S3:从步骤S1所述社交网络中取少量用户作为训练样本,并对其进行部分标注,L表示已标注样本集,U表示未标注样本集;S4:通过自助抽样的方法在已标注的社交用户数据L中随机选取三组不同训练样本集D1,D2,D3;S5:将步骤S2得到的三组贡献度平均的特征向量X1,X2,X3,作为协同训练算法Tri‑training的三个视图,通过三个视图上的训练得到垃圾用户的三个初步分类器h1,h2,h3;S6:利用步骤S5得出的三个初步分类器,采用投票的方式完成对未标注样本集x∈U的标注,并作为新的训练样本{x}更新分类器,通过不断迭代更新,使得分类器达到最优;S7:利用最终得到的分类器对待测用户进行检测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610614458.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top