[发明专利]基于混合特征和EMD的恶意代码半监督聚类方法在审
| 申请号: | 202010164789.X | 申请日: | 2020-03-11 |
| 公开(公告)号: | CN113392397A | 公开(公告)日: | 2021-09-14 |
| 发明(设计)人: | 刘亮;张磊;张文杰;曾跃天 | 申请(专利权)人: | 四川大学 |
| 主分类号: | G06F21/56 | 分类号: | G06F21/56;G06K9/62 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 610065 四川*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 混合 特征 emd 恶意代码 监督 方法 | ||
本发明提出一种基于混合特征和EMD的恶意代码半监督聚类方法。本方法可以自动地从恶意代码中提取静动态特征形成混合特征,使用EMD计算恶意代码特征向量的相似性形成恶意代码相似性矩阵,采用半监督聚类算法S‑DBSCAN对恶意代码进行半监督聚类。主要包括以下几个步骤:(1)提取恶意代码的静动态特征;(2)构造恶意代码混合特征和降维;(3)采用EMD计算恶意代码相似性,构造恶意代码相似性矩阵;(4)将相似性矩阵和监督信息输入恶意代码半监督聚类模型进行恶意代码半监督聚类。
技术领域
本发明涉及机器学习与网络安全技术领域。
背景技术
随着信息技术和计算机网络的发展,同时各种自动化工具的出现,互联网上恶意代码的数量呈现指数增长趋势。当前的恶意代码存在几个特点:1)恶意代码的数量保持急剧增长的趋势;2)绝大多数恶意代码属于已知恶意代码家族; 3)大多数同一家族的恶意代码存在某种共性。
根据以上几点可以得出结论,通过提取恶意代码家族特征对恶意代码进行家族聚类分析可以实现对绝大多数恶意代码的识别和判定。目前恶意代码的聚类分析技术包括动态分析和静态分析两大类。静态分析技术通过提取恶意代码特征码用于恶意代码识别,对已知恶意代码效果较好,简单,快捷。但是静态分析技术受限于反静态技术,如加壳,加密等的影响,从而无法提取出有效的特征码。
而动态分析技术则不受反静态技术的影响,通过提取恶意代码实际运行的行为特征来识别恶意代码,但是动态分析技术的代码覆盖率较小,只能捕获到一条执行路径的行为,因此针对多执行路径的恶意代码,无法捕获到完整的恶意行为。
因此本发明通过结合静态特征和动态特征,弥补各自的缺陷形成混合特征用于代表恶意代码的行为。考虑到当前的恶意代码特征的相似性度量方法无法准确识别同一家族和不同家族的恶意代码,本发明应用一种新的特征相似性度量方法-Earth Mover’sDistance(EMD),通过动态规划的方法来计算特征之间的最小距离,可以有效识别不同家族的恶意代码。为了执行有效聚类,减小收敛时间,在聚类过程中加入少量监督信息,形成半监督聚类算法用于聚类。
发明内容
本发明提出一种基于混合特征和EMD 的恶意代码半监督聚类方法。本方法可以自动地从恶意代码中提取静态字节码特征和动态API特征,使用信息增益提取对聚类贡献较大的特征,应用EMD计算特征之间的距离形成相似性矩阵,最后采用半监督聚类算法S-DBSCAN执行恶意代码家族聚类。具体技术方案如下:
提出一种基于混合特征和EMD 的恶意代码半监督聚类方法,所述方法包括:
A.提取恶意代码的静态字节码特征和动态API特征,根据静态特征和动态特征的平均EMD确定混合特征中静态特征和动态特征的比例从而构造恶意代码混合特征。
B.利用信息增益算法提取对恶意代码聚类贡献较大的恶意代码特征,从而有效减少特征提取时间。
C.应用解决动态规划问题的EMD来计算恶意代码特征之间的距离,构造恶意代码相似性矩阵。
D.通过加入少量监督信息改造已有的密度聚类算法DBSCAN形成S-DBSCAN算法,输入相似性矩阵执行恶意代码家族聚类。
附图说明
为了进一步阐述本发明的实现目标、实现方法和特性,将结合附图进行详细描述,其中:
图1是一个展示本发明提出的方法的具体实现的总体流程图。
图2 是一个说明本发明中特征提取过程的示意图。
图3 是一个说明本发明中EMD有效区分不同家族恶意代码的示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010164789.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:邻氨基苯甲酸及其衍生物及其合成方法和应用
- 下一篇:一种工业互联网平台架构





