[发明专利]一种网页后门检测方法和装置、计算机可读存储介质在审
| 申请号: | 201811418384.3 | 申请日: | 2018-11-26 |
| 公开(公告)号: | CN109657467A | 公开(公告)日: | 2019-04-19 |
| 发明(设计)人: | 虎志强 | 申请(专利权)人: | 北京兰云科技有限公司 |
| 主分类号: | G06F21/56 | 分类号: | G06F21/56;G06K9/62 |
| 代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 陶丽;李丹 |
| 地址: | 100094 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特征向量 网页脚本 检测 后门 网页 计算机可读存储介质 随机森林分类器 方法和装置 长字符串 特征向量提取 字符串数组 脚本文件 数组元素 注释信息 信息熵 字符串 拼接 去除 申请 | ||
1.一种网页后门检测方法,其特征在于,包括:
获取网页脚本文件,去除网页脚本文件中的注释信息;
提取网页脚本文件的特征向量,所述特征向量包括文件中的各字符串数组的数组元素拼接所得的字符串中最长字符串的长度及所述最长字符串的信息熵;
使用预先训练好的随机森林分类器模型对提取的特征向量进行检测,以确定所述网页脚本文件是否为网页后门Webshell文件。
2.根据权利要求1所述的方法,其特征在于,所述特征向量还包括以下至少之一:
所述文件的信息熵、所述字符串变量长度的均值、所述字符串变量长度的方差、所述文件长度、所述最大字符串变量长度、所述最大字符串的信息熵、所述文件中敏感函数的频率、所述文件中匹配的特征代码段个数。
3.根据权利要求1所述的方法,其特征在于,所述方法之前还包括:
获取网页脚本文件样本,提取所述网页脚本文件样本中的特征向量,将提取的特征向量划分为原始训练集和原始测试集;
使用所述原始训练集和随机森林算法训练所述随机森林分类器模型;
使用所述原始测试集对训练好的所述分类器模型进行验证,并根据预设的评估指标,对所述随机森林分类器模型进行参数调整。
4.根据权利要求3所述的方法,其特征在于,所述使用所述原始训练集和随机森林算法训练所述随机森林分类器模型,包括:
从所述原始训练集中进行k轮随机有放回采样,得到k个训练集,每个训练集包括n个所述训练样本,k和n均为自然数;
对k个训练集,根据训练集中的训练样本以及所述训练样本的特征向量选择分裂属性,依据分裂属性对训练集进行训练生成决策树;
将生成的多棵决策树组成所述随机森林分类器。
5.根据权利要求4所述的方法,其特征在于,所述决策树为分类回归树CART决策树;生成所述决策树时,根据基尼指数选择分裂点进行分裂。
6.根据权利要求3所述的方法,其特征在于,所述预设的评估指标,包括:准确率、检出率、误报率、受试者工作特征曲线ROC下面积AUC指标。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至6中任一项所述的网页后门检测方法的步骤。
8.一种网页后门检测装置,其特征在于,包括处理器及存储器,其中:所述处理器用于执行存储器中存储的程序,以实现如权利要求1至6中任一项所述的网页后门检测方法的步骤。
9.一种网页后门检测装置,其特征在于,包括获取单元、提取单元和检测单元,其中:
获取单元,用于获取网页脚本文件,去除网页脚本文件中的注释信息;
提取单元,用于提取网页脚本文件的特征向量,所述特征向量包括文件中的各字符串数组的数组元素拼接所得的字符串中最长字符串的长度及所述最长字符串的信息熵;
检测单元,用于使用预先训练好的随机森林分类器模型对提取的特征向量进行检测,以确定所述网页脚本文件是否为Webshell文件。
10.根据权利要求9所述的装置,其特征在于,所述提取单元提取的特征向量还包括以下至少之一:
所述文件的信息熵、所述字符串变量长度的均值、所述字符串变量长度的方差、所述文件长度、所述最大字符串变量长度、所述最大字符串的信息熵、所述文件中敏感函数的频率、所述文件中匹配的特征代码段个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京兰云科技有限公司,未经北京兰云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811418384.3/1.html,转载请声明来源钻瓜专利网。





