[发明专利]一种基于深度学习的恶意软件识别方法在审
申请号: | 202110327181.9 | 申请日: | 2021-03-26 |
公开(公告)号: | CN112906002A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 王小华;潘晓光;焦璐璐;张娜;宋晓晨 | 申请(专利权)人: | 山西三友和智慧信息技术股份有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06N3/04;G06N3/08 |
代理公司: | 太原荣信德知识产权代理事务所(特殊普通合伙) 14119 | 代理人: | 杨凯;连慧敏 |
地址: | 030000 山西省*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 恶意 软件 识别 方法 | ||
本发明属于图像识别技术领域,具体涉及一种基于深度学习的恶意软件识别方法,包括如下步骤:数据获取、数据图像化、数据预处理、数据集划分、模型构建、模型训练、模型评价,所述数据获取采集Malimg数据集;所述数据图像化将数据转换为灰度图像;所述数据预处理对图像数据归一化处理;所述数据集划分将数据划分为训练集、验证集与测试集;所述模型构建基于VGG‑19进行恶意软件识别模型构建,并将SENEet模块融入VGGNet的CNN模块部分;所述模型训练使用训练集数据,利用验证集数据进行验证,得到识别模型;所述模型评价采用模型对测试集数据进行识别,并对识别结果进行评价,构建出高效、高准确度的恶意软件深度学习识别模型。
技术领域
本发明涉及图像识别技术领域,具体涉及一种基于深度学习的恶意软件识别方法。
背景技术
各种传统的机器学习方法,如支持向量机,k-最近邻,随机森林,朴素贝叶斯和决策树已被用于检测和分类已知的恶意软件。这些方法对于恶意软件二进制数据的特征选取不够完全,导致对恶意软件的识别效果不佳,且此类算法识别效率较低。
存在问题或缺陷的原因:现在的静态恶意软件识别方法多使用软件的二进制表示来进行识别,现有方法的识别效果较差,且速度较慢,无法第一时间对恶意软件进行阻止。
发明内容
本发明的目的在于提供一种基于深度学习的恶意软件识别方法。
为实现上述目的,本发明提供如下技术方案:一种基于深度学习的恶意软件识别方法,包括下列步骤:
S100、数据获取:采集Malimg数据集;
S200、数据图像化:将数据转换为灰度图像;
S300、数据预处理:对图像数据进行归一化处理;
S400、数据集划分:将数据按照一定比例划分为训练集、验证集与测试集;
S500、模型构建:基于VGG-19进行恶意软件识别模型的构建,并将SENEet模块融入VGGNet的CNN模块部分;
S600、模型训练:使用训练集数据,用指定的优化器、学习率、损失函数、batch_size、epoch参数对模型进行训练,利用验证集数据进行验证,得到识别模型;
S700、模型评价:采用模型对测试集数据进行识别,并对识别结果进行评价。
进一步的,所述S100数据获取中,使用的Malimg数据集为恶意软件二进制数据,数据集包括9342个恶意软件样本代码,共有恶意软件25个类别,最大的类别包含2950个样本,最小的类别包含81个样本,所有数据都为PE文件。
进一步的,所述S200数据图像化中,恶意软件二进制文件被转换成图像,将二进制PE文件转换成一个8位矢量二进制,每个8位矢量代表一个数字,在恶意软件图像中可以转换为像素,以此得到恶意软件灰度图像数据。
进一步的,所述S300数据预处理中,转换后得到的图像数据为像素范围为[0,255]的灰度图像,对数据进行归一化处理,将所有数据归一化到[0,1]范围内,方式为对每条数据除以灰度图像像素点的最大值255。
进一步的,所述S400数据集划分中,以7:2:1的比例将恶意软件数据划分为训练集、验证集与测试集,其中训练集用于网络的参数迭代训练,获取恶意软件识别模型;验证集用于验证网络训练结果是否达到最优状态,测试集用于评价模型识别效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西三友和智慧信息技术股份有限公司,未经山西三友和智慧信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110327181.9/2.html,转载请声明来源钻瓜专利网。