[发明专利]文件特征提取范围配置及静态恶意软件识别的方法、系统有效
申请号: | 202011413307.6 | 申请日: | 2020-12-03 |
公开(公告)号: | CN113935031B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 赵毅强;王志刚;刘恒;齐向东;吴云坤 | 申请(专利权)人: | 奇安信网神信息技术(北京)股份有限公司;奇安信科技集团股份有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06N20/00 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 鄢功军 |
地址: | 100044 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 特征 提取 范围 配置 静态 恶意 软件 识别 方法 系统 | ||
1.一种用于静态恶意软件识别的文件特征提取范围配置的方法,其特征在于,包括:
根据预设的n个不同扫描范围的候选配置对训练集中的m个样本文件进行特征提取,以得到针对m个样本文件中每个样本文件的n类特征向量,n≥2,m≥2,n和m为正整数,其中,所述n个不同扫描范围的候选配置中,每个扫描范围的候选配置包括:节头部扫描范围和节尾部扫描范围;
基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练,以得到n个用于判定待识别文件是否为恶意文件的判别模型;
基于相同的评价指标对n个判别模型进行评价,以得到n个归一化的效果指标值;
根据预设的n个不同扫描范围的候选配置确定n个归一化的IO指标值,包括:
将每个候选配置的节头部扫描范围和节尾部扫描范围相加得到每个候选配置的绝对IO指标值;确定n个候选配置的绝对IO指标值中的最大值、最小值以及最大值与最小值之间的极差;以及根据所述最大值和每个候选配置的绝对IO指标值的差值与所述极差的比值得到每个候选配置归一化的IO指标值;或者
将每个候选配置的节头部扫描范围和节尾部扫描范围相加得到每个候选配置的绝对IO指标值;以及根据第一预设值和每个候选配置的绝对IO指标值的差值与所述第一预设值的比值得到每个候选配置归一化的IO指标值;其中,第一预设值大于等于样本文件的最大扫描范围;
根据每个候选配置的IO指标值和效果指标值确定所述n个不同扫描范围的候选配置中的最优化配置,所述最优化配置为待识别文件用于进行特征提取的扫描范围配置。
2.根据权利要求1所述的方法,其特征在于,所述根据每个候选配置的IO指标值和效果指标值确定所述n个不同扫描范围的候选配置中的最优化配置,包括:
将每个候选配置的IO指标值与效果指标值进行融合,以得到综合效果指标值;以及
根据综合效果指标值的大小确定综合效果指标值最大的候选配置为n个不同扫描范围的候选配置中的最优化配置。
3.根据权利要求2所述的方法,其特征在于,其中,所述融合的方法包括以下一种:将所述IO指标值与效果指标值进行加权平均计算,或者,将所述IO指标值与效果指标值进行算术平均计算,或者,将所述IO指标值与效果指标值进行调和平均数计算。
4.根据权利要求1所述的方法,其特征在于,基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练,以得到n个用于判定待识别文件是否为恶意文件的判别模型,包括:
将第1个样本文件~第m个样本文件的第j类特征向量输入至机器学习模型中进行训练,机器学习模型的输出为:所输入的样本文件是否为恶意文件的结果,训练标签为样本文件是否为恶意文件的真实情况,其中j的取值遍历1~n中的每一个,针对j为不同取值的训练过程,保证训练程度相当,以得到n个用于判定待识别文件是否为恶意文件的判别模型。
5.一种静态恶意软件识别的方法,其特征在于,包括:
基于最优化配置对待识别文件进行特征提取,以得到待识别文件的特征向量;所述最优化配置采用权利要求1-4中任一项所述的方法获得;
将所述待识别文件的特征向量输入至最优化判别模型进行识别,以得到待识别文件是否为恶意文件的结果;其中,所述最优化判别模型为所述最优化配置对应的判别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奇安信网神信息技术(北京)股份有限公司;奇安信科技集团股份有限公司,未经奇安信网神信息技术(北京)股份有限公司;奇安信科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011413307.6/1.html,转载请声明来源钻瓜专利网。