[发明专利]一种宏程序的混淆检测方法、装置、电子设备和存储介质在审
申请号: | 202110322284.6 | 申请日: | 2021-03-25 |
公开(公告)号: | CN113065132A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 闫华;位凯志;古亮 | 申请(专利权)人: | 深信服科技股份有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 胡亮;张颖玲 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 程序 混淆 检测 方法 装置 电子设备 存储 介质 | ||
1.一种宏程序的混淆检测方法,其特征在于,所述方法包括:
对待检测的宏程序的关键词进行提取,得到恶意关键词和正常关键词;
分别使用第一标识和第二标识对所述恶意关键词和所述正常关键词进行替换,得到替换后的宏程序;
将所述替换后的宏程序转换成目标图片,输入至预先训练的检测模型进行检测,得到检测结果。
2.根据权利要求1所述的方法,其特征在于,所述第一标识和所述第二标识的颜色、形状和个数中至少一项存在区别。
3.根据权利要求1所述的方法,其特征在于,所述检测结果用于指示所述待检测的宏程序为正常宏程序或混淆宏程序。
4.根据权利要求1所述的方法,其特征在于,所述待检测的宏程序包括VBA程序。
5.根据权利要求1所述的方法,其特征在于,所述对待检测的宏程序的关键词进行提取,包括:
使用词频-逆文本频率指数TF-IDF算法对所述待检测的宏程序的关键词进行提取。
6.根据权利要求1所述的方法,其特征在于,所述对待检测的宏程序的关键词进行提取,包括:
在确定所述待检测的宏程序的长度小于或等于设定长度的情况下,对所述待检测的宏程序的关键词进行提取。
7.根据权利要求1所述的方法,其特征在于,所述使用第一标识对所述恶意关键词进行替换,包括:
基于不同恶意程度的恶意关键词,使用不同的第一标识对所述恶意关键词进行替换。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述检测模型是根据第一训练数据集训练得到的;所述第一训练数据集包括:宏程序样本和所述宏程序样本的标签信息。
9.一种检测模型的训练方法,其特征在于,所述方法包括:
获取第一训练数据集;所述第一训练数据集包括:宏程序样本和所述宏程序样本的标签信息;
对每个宏程序样本的关键词进行提取,得到所述每个宏程序样本的恶意关键词和正常关键词;
分别使用第一标识和第二标识对所述每个宏程序样本的恶意关键词和正常关键词进行替换,得到替换后的每个宏程序样本;
将所述替换后的每个宏程序样本转换成对应的图片样本,通过每个图片样本和所述宏程序样本的标签信息对所述检测模型进行训练,得到初始检测模型。
10.根据权利要求9所述的方法,其特征在于,在得到所述初始检测模型后,所述方法还包括:
基于所述初始检测模型的质量检测结果,得到训练完成的检测模型;所述质量检测结果包括所述混淆宏程序的检出率和/或误报率。
11.根据权利要求10所述的方法,其特征在于,所述基于所述初始检测模型的质量检测结果,得到训练完成的检测模型,包括:
判断所述初始检测模型的质量检测结果是否达到设定要求,得到第一判断结果;
在所述第一判断结果为是的情况下,得到训练完成的检测模型;
在所述第一判断结果为否的情况下,对所述初始检测模型继续进行训练,得到训练完成的检测模型。
12.根据权利要求11所述的方法,其特征在于,所述对所述初始检测模型继续进行训练,得到训练完成的检测模型,包括:
获取漏报的混淆宏程序样本,对所述漏报的混淆宏程序样本进行第一变异操作,得到第一混淆宏程序样本;和/或,
获取误报的混淆宏程序样本,对所述误报的混淆宏程序样本进行第二变异操作,得到第二混淆宏程序样本;
将所述第一训练数据集与目标混淆宏程序样本进行合并,得到第二训练数据集;使用所述第二训练数据集对所述检测模型继续进行训练,得到训练完成的检测模型;所述目标混淆宏程序样本包括:所述第一混淆宏程序样本和/或第二混淆宏程序样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深信服科技股份有限公司,未经深信服科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110322284.6/1.html,转载请声明来源钻瓜专利网。