[发明专利]基于机器学习的恶意文件检测方法及系统在审
申请号: | 202110231625.9 | 申请日: | 2021-03-02 |
公开(公告)号: | CN112966267A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 王卓超;于金龙;王智民;王高杰 | 申请(专利权)人: | 北京六方云信息技术有限公司;北京六方云科技有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06N20/00 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 肖冰滨;王晓晓 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 恶意 文件 检测 方法 系统 | ||
本发明提供一种基于机器学习的恶意文件检测方法及系统,属于信息安全技术领域。所述方法包括:识别待测文件的文件类型;提取所述待测文件的特征;将所述待测文件的特征输入与所述待测文件的文件类型对应的训练好的分类器中分类计算,得到所述待测文件的分类结果。使用该方法在文件发生变种、混淆的情况下依然可以识别出恶意文件,且占用资源少,能够快速得到检测结果。
技术领域
本发明涉及信息安全技术领域,具体地涉及一种基于机器学习的恶意文件检测方法以及一种基于机器学习的恶意文件检测系统。
背景技术
恶意文件检测是网络安全领域重要的课题,近年来,恶意文件的数量呈指数增长,传统的处理方式已经不能及时有效的处理鉴定海量的数据。
传统的恶意文件检测技术无外乎两种,一种是基于静态特征的检测分析,例如,基于应用程序编程接口序列的检测方法,将文件的编程接口特征提取出来,建立特征库用于恶意文件的检测。这一类的检测技术虽然对软件代码的分析速度比较快,但恶意文件可以通过代码混淆、变种等方式对抗这些检测。因此静态检测存在误报率高,无法识别混淆、变种的文件,容易被绕过的问题。
另一种是基于动态特征的检测方式,例如,基于沙箱的恶意文件检测,通过在沙箱环境中观察恶意文件的行为特征,从而判断出文件是否是恶意的。这种方法虽然能够解决在静态检测中存在的准确率不够的问题,但是这种算法消耗大量的资源,耗时较为严重。因此动态检测存在检测效率低,资源消耗严重问题。
发明内容
本发明实施方式的目的是提供一种基于机器学习的恶意文件检测方法及系统,使用该方法在文件发生变种、混淆的情况下依然可以识别出恶意文件,且占用资源少,能够快速得到检测结果。
为了实现上述目的,本发明第一方面提供一种基于机器学习的恶意文件检测方法,所述方法包括:
识别待测文件的文件类型;
提取所述待测文件的特征;
将所述待测文件的特征输入与所述待测文件的文件类型对应的训练好的分类器中分类计算,得到所述待测文件的分类结果。
进一步地,所述识别待测文件的文件类型,包括:
获取待测文件的文件头数据;
根据所述文件头数据识别所述待测文件的文件类型。文件头数据用于显示这个文件的实际用法,并且不容易人为修改,根据文件头数据确定的文件类型更准确。
可选的,所述特征包括:所述待测文件的熵序列的统计特征、所述待测文件中每个字符的字符占比以及所述待测文件中的“https”字段个数。
进一步地,所述提取所述待测文件的特征,包括:
将所述待测文件转换为二进制数据;
将所述二进制数据划分为预设长度的数据块;
计算每个所述数据块的信息熵,得到所述待测文件的熵序列;
计算所述熵序列的统计特征;
计算所述待测文件中每个字符的字符占比;
计算所述待测文件中的“https”字段个数。通过将待测文件划分为若干块后,计算每个数据块的信息熵,再对整个文件的所有数据块的信息熵进行统计,能够有效检测出待测文件中较短的恶意片段,准确率更高。
可选的,所述统计特征包括:平均值、方差、最大值以及最小值。
可选的,所述训练好的分类器的训练过程包括:
收集一定数量的训练数据文件;
识别训练数据文件的文件类型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京六方云信息技术有限公司;北京六方云科技有限公司,未经北京六方云信息技术有限公司;北京六方云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110231625.9/2.html,转载请声明来源钻瓜专利网。