[发明专利]文件特征提取范围配置及静态恶意软件识别的方法、系统有效
申请号: | 202011413307.6 | 申请日: | 2020-12-03 |
公开(公告)号: | CN113935031B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 赵毅强;王志刚;刘恒;齐向东;吴云坤 | 申请(专利权)人: | 奇安信网神信息技术(北京)股份有限公司;奇安信科技集团股份有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06N20/00 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 鄢功军 |
地址: | 100044 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 特征 提取 范围 配置 静态 恶意 软件 识别 方法 系统 | ||
一种文件特征提取范围配置及静态恶意软件识别的方法、系统,根据预设的n个不同扫描范围的候选配置对m个样本文件进行特征提取,以得到针对m个样本文件中每个样本文件的n类特征向量,n≥2,m≥2,n和m为正整数。基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练,以得到n个用于判定待识别文件是否为恶意文件的判别模型。基于相同的评价指标对n个判别模型进行评价,以得到n个归一化的效果指标值。根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值。根据每个候选配置的IO指标值和效果指标值确定n个扫描范围的候选配置中的最优化配置,最优化配置为待识别文件用于进行特征提取的扫描范围配置。
技术领域
本公开涉及人工智能技术领域,更具体地,涉及一种文件特征提取范围配置及静态恶意软件识别的方法、系统。
背景技术
恶意软件是对破坏系统正常运行的软件的统称,恶意软件同时具备正常功能和恶意行为,恶意软件例如含有病毒、木马程序,或者具有其他恶意行为,诸如为:未经用户允许的广告行为、在用户不知情的情况下开启后门的行为、对用户的浏览器进行篡改的行为、采用非法手段强制捆绑的共享软件行为等,给用户带来实质危害。
在实现本公开构思的过程中,发明人发现现有技术中至少存在如下问题:现有的机器学习模型在进行恶意软件识别时,需要先将待识别文件提取出特征向量,然后输入至机器学习模型中进行判别。通常可执行文件,例如软件,具有文件头和若干个节的结构,在进行特征提取时,无法实现特征提取和模型识别结果之间的权衡。有的研究只使用文件头的信息生成特征向量,这种方式虽然具有读取速度快的优点,但是由于丢弃了文件主体的全部信息,提升了误报和漏报的风险,所以在实际应用中不常使用;有的研究是使用文件全部内容生成向量,这种方式虽然具有文件信息损失小,有利于提高模型预测的准确度的优点,但是由于需要扫描文件的全部内容,读取量与文件大小成正比,对于超多、超大文件来说,处理速度慢,严重影响用户体验;有的研究采用头文件和人工制定规则来选取节的部分片段以进行特征提取,但是上述方式需要领域专家总结并量化经验,基于人工的方式事先设定好各个节的扫描范围,难度大,且后续维护或者更新这些规则的成本很大,灵活性较差。
发明内容
有鉴于此,本公开提供了一种文件特征提取范围配置及静态恶意软件识别的方法、系统。
本公开的第一个方面提供了一种用于静态恶意软件识别的文件特征提取范围配置的方法。上述方法包括:根据预设的n个不同扫描范围的候选配置对训练集中的m个样本文件进行特征提取,以得到针对m个样本文件中每个样本文件的n类特征向量,n≥2,m≥2,n和m为正整数。上述方法还包括:基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练,以得到n个用于判定待识别文件是否为恶意文件的判别模型。上述方法还包括:基于相同的评价指标对n个判别模型进行评价,以得到n个归一化的效果指标值。上述方法还包括:根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值。上述方法还包括:根据每个候选配置的IO指标值和效果指标值确定n个扫描范围的候选配置中的最优化配置,最优化配置为待识别文件用于进行特征提取的扫描范围配置。
根据本公开的实施例,n个扫描范围的候选配置中,每个扫描范围的候选配置包括:节头部扫描范围和节尾部扫描范围。根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值包括:将每个候选配置的节头部扫描范围和节尾部扫描范围相加得到每个候选配置的绝对IO指标值。根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值还包括:确定n个候选配置的绝对IO指标值中的最大值、最小值以及最大值与最小值之间的极差。根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值还包括:根据最大值和每个候选配置的绝对IO指标值的差值与极差的比值得到每个候选配置归一化的IO指标值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奇安信网神信息技术(北京)股份有限公司;奇安信科技集团股份有限公司,未经奇安信网神信息技术(北京)股份有限公司;奇安信科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011413307.6/2.html,转载请声明来源钻瓜专利网。