[发明专利]基于家族基因码的恶意代码快速归类方法有效
申请号: | 201410571621.5 | 申请日: | 2014-10-23 |
公开(公告)号: | CN104331436A | 公开(公告)日: | 2015-02-04 |
发明(设计)人: | 沈超;程颢;张泽华;管晓宏 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F21/56 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 陆万寿 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 家族 基因 恶意代码 快速 归类 方法 | ||
技术领域
本发明涉及计算机安全防护技术,特别涉及一种计算机恶意代码归类方法。
背景技术
随着社会的进步与科技的发展,计算机已经渗透到了人们生活的方方面面,越来越多的个人信息(如图片、视频、聊天记录等)和敏感信息(如银行账号、商业资料等)被存储于计算机之中。同时,近年来以盗用、破坏这些信息为主要目的的恶意代码数量急剧增加,且呈现出变种多、智能化的特点,这使得计算机恶意代码的识别和分类问题引起各国政府和民众的极大重视。
现有的恶意代码归类方法主要从恶意代码静态特征或动态特征出发,大多集中在对已知的恶意代码的聚类分类上,对新增恶意代码的分类效果较差,同时恶意代码行为的特征分析形式单一且样本数量较少,缺乏准确性和普适性。
发明内容
本发明的目的是提供一种可以快速且准确地对计算机恶意代码进行归类的方法,特别是一种利用海量恶意代码样本经过聚类后得到的恶意代码家族基因码来实现对新增恶意代码快速准确归类的方法。
为达到以上目的,本发明是采取如下技术方案实现的:
一种基于家族基因码的恶意代码快速归类方法,其特征在于,包括下述两大步骤:
第一步,恶意代码家族基因码的生成,包括下述分步骤:
(1)获取由M个恶意代码样本构成的恶意代码样本集,其中,M至少为1000万;
(2)从恶意代码样本中提取行为信息;
(3)对所有恶意代码样本的各种行为出现的频数进行统计排序,选择频数总和不小于3的行为作为刻画恶意代码样本的行为向量;
(4)使用行为向量的每个元素在恶意代码行为信息中出现的频数构成该恶意代码样本的特征向量;
(5)采用曼哈顿距离算法计算恶意代码样本特征向量之间的距离,形成恶意代码样本集的距离矩阵D={dij}M×M,其中,dij表示恶意代码样本i到恶意代码样本j的距离,矩阵D关于对角线对称;
(6)基于恶意代码样本集的距离矩阵D,从恶意代码样本集中提取出恶意代码家族基因码,以方便生成恶意代码家族。
第二步,恶意代码快速归类,包括下述分步骤:
(1)针对新增的恶意代码样本,提取其行为信息,与在恶意代码样本集中得到的行为向量进行比对,将行为向量中每个元素在新增恶意代码样本的行为信息中出现的频数作为该样本的特征向量;
(2)将新增恶意代码样本的特征向量与恶意代码家族基因码进行匹配,对新增恶意代码所属的类别进行判定。
上述方法中,第一步(2)中所述恶意代码的行为信息是指恶意代码在执行过程中对计算机资源的访问行为,包括API导入表的访问行为、文件操作行为、进程操作行为、注册表操作行为、动态链接库调用行为、钩子函数调用行为。
第一步(3)中所述选择频数总和不小于3的行为作为刻画恶意代码样本的行为向量,其具体步骤为:
(1)对恶意代码样本集中每个样本的行为信息进行统计分析,利用出现过的所有行为构成初始特征集;
(2)计算初始特征集中每个元素在所有样本的行为信息中出现频数的总和,排序并去除出现频数总和为1和2的元素,使用剩余的元素作为刻画恶意代码样本的特征。
第一步(6)中所述从样本集中提取恶意代码家族基因码的具体方法为:
1)将恶意代码样本间的距离dij(i<j)进行降序排列,取排列结果的中值作为截断距离dc;
2)采用高斯核函数计算每个恶意代码样本的聚集度ρi,表示该样本被它的邻居样本的包裹程度,计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410571621.5/2.html,转载请声明来源钻瓜专利网。