[发明专利]一种用于恶意WebShell检测的深度集成学习模型构建方法在审
申请号: | 202110321377.7 | 申请日: | 2021-03-25 |
公开(公告)号: | CN112948834A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 艾壮;陆亚平 | 申请(专利权)人: | 国药(武汉)医学实验室有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56 |
代理公司: | 武汉蓝宝石专利代理事务所(特殊普通合伙) 42242 | 代理人: | 谢洋 |
地址: | 430000 湖北省武汉市东湖新技术开发区*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 恶意 webshell 检测 深度 集成 学习 模型 构建 方法 | ||
本发明涉及一种用于恶意WebShell检测的深度集成学习模型构建方法,包括:获取正常样本与恶意WebShell样本并随机打乱,按照4:1的比例分为训练集和测试集;提取训练集和测试集中各个样本的动态特征和静态特征并进行组合,得到训练集特征集合和测试集特征集合;选取m个基分类器,利用所述训练集特征集合,采用K折交叉验证方法对深度集成学习模型进行训练,得到各基分类器的权重值;利用所述测试集特征集合作为所述深度集成学习模型的输入,进行模型测试,得到测试集样本的综合平均预测概率值,并对所述深度集成学习模型进行评估。该方法基于深度集成学习,可以提高检测率,能够完好的吸收机器学习与深度学习之间的优点。
技术领域
本发明涉及互联网技术领域,具体涉及一种用于恶意WebShell检测的深度集成学习模型构建方法。
背景技术
随着互联网的快速发展,人们足不出户就可以获取到自己在网上预定的一切物品,这种生活方式将大量的个人信息遍布在各个网络上,导致各大互联网公司存储并如何去保护这些数据成为了一大难题。最近大量黑客利用一些手段非法获取这些数据进行谋利,最常见的方式即为上传各种恶意脚本文件去获取数据库信息从而获取私人信息。网站管理员如何去从正常文件中找出这些恶意文件成为一大难题。其中最为常见的为以php开发的网站中的恶意php文件。因此需要一种恶意php文件检测方法来帮助网站管理员快速查找恶意文件。
而现有的检测模型大都存在以下几个问题:
A:不能完全保留WebShell原始特征,也就是没有保留opcode编码的信息,而这个正好是最能体现这个WebShell样本的特征信息。
B:WebShell特征信息的重要性,可以体现哪一些特征对分类重要性。
C:在检测WebShell样本中的机器学习模型,过于简单,检测率不高;深度学习模型,过于复杂,检测率很高,但是没有可解释性。
发明内容
本发明针对现有技术中存在的一些技术问题,提供一种用于恶意WebShell检测的深度集成学习模型构建方法,该方法基于深度集成学习,可以提高检测率,能够完好的吸收机器学习与深度学习之间的优点。
本发明解决上述技术问题的技术方案如下:
本发明提供一种用于恶意WebShell检测的深度集成学习模型构建方法,包括以下步骤:
获取构建模型需要的正常样本与恶意WebShell样本,并将正常样本和恶意WebShell随机打乱,按照4:1的比例分为训练集和测试集;
分别提取训练集和测试集中各个样本的动态特征和静态特征并进行组合,得到训练集特征集合和测试集特征集合;
选取m个基分类器,m≥3,利用所述训练集特征集合,采用K折交叉验证方法对深度集成学习模型进行训练,得到各基分类器的权重值;
利用所述测试集特征集合作为所述深度集成学习模型的输入,进行模型测试,得到测试集样本的综合平均预测概率值,并根据所述综合平均预测概率值对所述深度集成学习模型进行评估。
进一步的,获取构建模型需要的正常样本与恶意WebShell样本时,对获取的样本文件执行去重操作。
进一步的,所述动态特征包括操作码序列动态特征,所述静态特征包括字符串长度特征、文件重合指数IC特征、信息熵特征、特征码匹配特征。
对于操作码序列动态特征的抽取,采用VLD工具进行。VLD工具:VLD(Vulcan LogicDumper)是一个在Zend引擎(Zend引擎是开源的解释php语言的脚本引擎)中,以挂钩的方式实现的用于输出PHP脚本生成的中间代码(opcode)的扩展。
a:字符串长度静态特征:最长的字符串也许潜在的被恶意编码或者加密处理,因此可以提供一种检测WebShell样本的特征数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国药(武汉)医学实验室有限公司,未经国药(武汉)医学实验室有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110321377.7/2.html,转载请声明来源钻瓜专利网。