[发明专利]基于水军检测模型构建方法和系统及水军检测方法在审
申请号: | 201410146467.7 | 申请日: | 2014-04-09 |
公开(公告)号: | CN103955714A | 公开(公告)日: | 2014-07-30 |
发明(设计)人: | 李倩;牛温佳;管洋洋;黄超;孙卫强;李丹;胡玥;郭莉 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06K9/66 | 分类号: | G06K9/66;G06F19/00 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 水军 检测 模型 构建 方法 系统 | ||
技术领域
本发明涉及水军检测方法,尤其涉及一种基于多任务学习的水军检测模型构建方法和系统及水军检测方法,属于网络安全领域。
背景技术
随着社交网络的普及,论坛已经成为最热门的上网应用之一。但网络论坛的开放性质决定了很难对论坛中的信息进行绝对严格的监管,这就导致论坛中出现了一批以获利为目的,蓄意散播某些言论的网络水军。从“7.23”动车事故天价赔偿事件到秦火火事件,网络水军对网络环境甚至社会秩序造成很严重的影响,可见,对网络水军的识别和监管,已经迫在眉睫。
传统的水军检测的机器学习的方法是建立一个统一的模型,采用的单一任务学习的方法,对于每一个任务都采用独立训练的模式。这种学习方式存在几方面的弊端:其一,训练集合中的样本只反映单个任务的信息,学习的结果往往受到特定任务的限制。例如,现在新浪微博对于水军的判断的标准和论坛的标准是不一样的,通过新浪微博的规则学习出来的水军判定模型,应用至其他论坛可能导致将正常用户误判为水军用户。其二,当训练集合中的样本量较少时,导致单一任务学习构造的模型存在一定的信息特征丢失。而传统方法通过过采样技术生成的新样本试图解决这一问题,但生成的新样本仍不能保证和原来样本的特征属性完全一致。
发明内容
本发明将多任务学习应用与水军检测问题中,以单一任务为标准,能够提取出各个任务学习过程中的共享用户特征信息,提高水军检测的精度。多任务学习和传统的单任务学习不同,它试图通过共享不同任务之间的信息构建一个联合的学习模型。一方面,训练集合中的样本均反映了单个任务的信息,训练集合中的样本存在一定的差异性,可以根据差异度建立多个学习任务,差异度相似的作为同一个任务,将这些任务同时学习,学习的过程中通过共享不同任务之间的信息,从而达到更好的学习效果;另一方面,对于特定数据样本较少的情况,通过融合其他相关任务的数据学习,从而对原始数据的信息进行补偿学习,避免信息特征丢失的情况。实际应用中也证明了通过使用相关任务的数据确实能够提高预测的精度。
本发明所要解决的技术问题是针对现有技术的不足,提供一种基于多任务学习的水军检测模型构建方法。
本发明解决上述技术问题的技术方案如下:一种水军检测模型构建方法,包括如下步骤:
步骤1:对一组给定的向量化的样本数据先进行任务分割,得到对应的多个任务,对多个任务进行平均特征抽取,得到多个任务的训练样本集;
步骤2:对多个任务的训练样本集进行多任务特征选择,得到多个任务的特征权重矩阵;
步骤3:设定一个阈值δ,判断所述特征权重矩阵中的一个列向量中的最大值是否大于阈值δ,如果是,执行步骤4;否则,放弃所述列向量,执行步骤5;
步骤4:将所述列向量添加到共享特征项集合中;
步骤5:判断特征权重矩阵中是否存在未与阈值δ进行比较的列向量,如果是,执行步骤3;否则,执行步骤6;
步骤6:输入新的已知水军特性的向量化的训练数据集,将训练数据集与共享特征项集合进行匹配,将在集合中排列位置匹配的特征项集合在一起,得到新共享特征项集合;
步骤7:对新共享特征项集合通过感知器学习算法(Perceptron Learning Algorithm)计算得到特征系数,通过计算共享特征项集合与特征系数的乘积得到标准线性分类值;
步骤8:根据标准线性分类值的大小设置水军阈值,使被测线性分类值大于水军阈值时判定其数据来源于水军,完成水军判断模型的构建,结束。
本发明的有益效果是:本发明利用多任务学习的方法建立水军检测模型,实现了方便快捷的识别出水军用户。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,还包括水军检测模型测试过程,所述水军检测模型测试过程包括以下步骤:
步骤9:给定一组已知是水军的水军用户集合,采集水军用户集合中所有用户的包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示得到特征向量;
步骤10:将特征向量与步骤4中得到的共享特征项集合进行匹配,将位置匹配的特征项集合在一起,构成水军用户低维的特征向量;
步骤11:结合水军用户低维的特征向量与步骤7中的特征系数计算得到水军用户的线性分类值;
步骤12:判断线性分类值是否大于水军阈值,如果是,执行下一步,否则,将水军阈值适当减小并重新设置,返回执行步骤9;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410146467.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于灯检机的瓶体检测装置
- 下一篇:全息底纹镭射包装材料印刷品质量检测系统