[发明专利]基于集成分类的病毒检测方法有效
申请号: | 201110283055.4 | 申请日: | 2011-09-22 |
公开(公告)号: | CN102346829A | 公开(公告)日: | 2012-02-08 |
发明(设计)人: | 唐朝伟;张雪臻;杨磊;严鸣;时豪;李超群 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F21/00 | 分类号: | G06F21/00 |
代理公司: | 重庆市前沿专利事务所 50211 | 代理人: | 郭云 |
地址: | 400045 *** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于集成分类的病毒检测方法,属于网络安全技术领域。该病毒检测方法由特征提取和集成分类两大模块,其中特征提取采用静态特征提取方法提取病毒的指令序列特征,构成特征集,并选择该特征集中信息增益最大的n个指令序列特征作为优化特征集。集成分类将人工神经网络引入到集成分类算法的构建中,结合AdaBoost算法提出一种新的模式分类器(GRAB)实现对病毒的检测,以达到有效地提高检测准确率,尤其是精确检测未知病毒的目的。通过本发明,可以更加有效地区分病毒和正常程序,并且可以精确地检测出未知病毒。 | ||
搜索关键词: | 基于 集成 分类 病毒 检测 方法 | ||
【主权项】:
1.一种基于集成分类的病毒检测方法,其特征在于:由以下步骤组成:S1、采用静态特征提取方法提取各已知病毒和正常程序的指令序列特征,构成特征集,按照所述特征集中各指令序列特征的信息增益大小对所述特征集排序,选择所述特征集中信息增益最大的n个指令序列特征作为优化特征集;S2、以所述优化特征集为训练集,从所述训练集中随机选择m组训练数据作为训练数据序列
,其中各训练数据的期望分类结果表示为
,下标i表示训练数据在所述训练数据序列中的位置,将所述训练数据序列
中各组训练数据的权重均初始化为
,其中
表示第1轮训练后第i组训练数据的权重,i=1,……,m,m为大于1的整数,并且根据输入输出维数确定GRNN弱分类器的结构,初始化SPREAD参数,其中所述输入维数由所述优化特征集的维数确定;S3、弱分类器预测获得预测序列:采用所述训练数据序列训练t个GRNN弱分类器并预测所述训练数据序列的输出,获得预测序列
,设定所述预测序列的表示函数为
,其中下标t表示训练的轮数,i表示训练数据在所述训练数据序列中的位置,
表示所述训练数据序列经第t轮训练后第i组训练数据的预测分类结果;求取预测误差和
:如果所述训练数据序列经t轮训练后第i组训练数据的预测分类结果
与期望分类结果
不相等,即如果
则表示两者存在误差,将所有存在误差的训练数据的权重相加即获得所述预测序列
的预测误差和
,即
,其中
表示所述训练数据序列经第t轮训练后第i组训练数据的权重,且1≤t≤T,T为大于1的整数;S4、计算预测序列的权重
:根据所述预测序列
的预测误差和
计算所述预测序列
的权重
:
,其中1≤t≤T,T为大于1的整数;S5、获得第t轮训练后第t组弱分类器函数
;S6、判断t≥T是否成立,如果成立则执行步骤S8,如果不成立则执行步骤S7;S7、根据所述预测序列
的权重
调整第t+1轮训练数据序列中各组训练数据的权重
,调整公式为:
,其中
表示所述训练数据序列经第t+1轮训练后第i组训练数据的权重,exp[]表示以自然对数e为底的指数函数,且
是归一化因子,为常数;其后重复执行所述步骤S3~S6;S8、根据各轮训练获得的T组弱分类器函数,由所述T组弱分类器组合获得强分类器F:
;S9、对待检样本按照步骤S1进行特征提取,根据强分类器F对所述待检样本进行识别,输出检测结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110283055.4/,转载请声明来源钻瓜专利网。