[发明专利]一种基于半监督学习的社交网络垃圾用户过滤方法有效

申请号：	201610614458.5	申请日：	2016-07-29
公开（公告）号：	CN106294590B	公开（公告）日：	2019-05-31
发明（设计）人：	徐光侠;赵竞腾;齐锦;刘宴兵;黄德玲;赵璐;李培真;代皓;张令浩	申请（专利权）人：	重庆邮电大学
主分类号：	G06F16/9536	分类号：	G06F16/9536;G06K9/62;G06Q50/00
代理公司：	重庆市恒信知识产权代理有限公司 50102	代理人：	刘小红;李金蓉
地址：	400065 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于半监督学习的社交网络垃圾用户过滤方法，将协同训练算法应用于社交网络垃圾用户检测。现有对社交网络中的海量信息进行的分类大多利用监督学习算法，该算法都是基于已标注数据建立的分类模型，但因社交信息规模庞大，标注数据所需人工成本巨大，且解决社交网络用户数据标注的方法不多。提出一种方法，借鉴协同训练算法，将多视图、多分类器运用到大量无标注或有少量标注的社交网络数据中，使不同视图上的分类器相互学习，实现数据标注的目的。
搜索关键词：	一种基于监督学习社交网络垃圾用户过滤方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于半监督学习的社交网络垃圾用户过滤方法，其特征在于，包括以下步骤：S1：针对某一社交网络，获取多个用户的社交特征X，包括各个用户的消息内容特征和用户行为特征，并将这些特征存储入数据库中；S2：利用信息增益算法对步骤S1中的所有特征数据进行排序选取，得到三组贡献度平均的特征向量X₁，X₂和X₃；具体方法为：S21：训练样本集为D，|D|表示其样本容量，即样本个数；C₁表示正常用户，C₂表示垃圾用户；此时分类系统的熵可以表示为：其中，P(C_i)表示在全部用户中C_i用户所占比例，|C_i|表示C_i用户的个数，其中i＝1,2；S22：在特征选取过程中，x表示特征X出现，表示特征X不出现，那么特征X固定时的条件熵为：其中，H(C|x)表示特征X出现的条件下分类系统的条件熵、表示特征X不出现的条件下分类系统的条件熵、P(x)表示特征X出现的概率、表示特征X不出现的概率、P(C_i|x)表示特征X出现的条件下C_i用户的条件概率、表示特征X不出现的条件下C_i用户的条件概率；S23：根据S21和S22得到的分类系统的熵和特征X固定时的条件熵，得出特征X给系统带来的信息增益为：IG(X)＝H(C)‑H(C|X)，然后对全部特征的信息增益进行排序，得到三组贡献度平均的特征向量；S3：从步骤S1所述社交网络中取少量用户作为训练样本，并对其进行部分标注，L表示已标注样本集，U表示未标注样本集；S4：通过自助抽样的方法在已标注的社交用户数据L中随机选取三组不同训练样本集D₁，D₂，D₃；S5：将步骤S2得到的三组贡献度平均的特征向量X₁，X₂，X₃，作为协同训练算法Tri‑training的三个视图，通过三个视图上的训练得到垃圾用户的三个初步分类器h₁，h₂，h₃；S6：利用步骤S5得出的三个初步分类器，采用投票的方式完成对未标注样本集x∈U的标注，并作为新的训练样本{x}更新分类器，通过不断迭代更新，使得分类器达到最优；S7：利用最终得到的分类器对待测用户进行检测。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610614458.5/，转载请声明来源钻瓜专利网。

上一篇：基于MapReduce的多表数据处理方法及系统
下一篇：新型摄像监控装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于半监督学习的社交网络垃圾用户过滤方法有效

专利文献下载