[发明专利]一种网页后门检测方法、装置、终端及存储介质有效
申请号: | 201810226945.3 | 申请日: | 2018-03-15 |
公开(公告)号: | CN110198291B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 张壮;董志强 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06F21/56;G06K9/62;H04L67/02 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 贾允;肖丁 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 后门 检测 方法 装置 终端 存储 介质 | ||
1.一种网页后门检测方法,其特征在于,包括:
获取待检测网页脚本文件;所述待检测网页脚本文件的语言为脚本语言;
计算黑白样本集合的词向量;求黑样本集合和白样本集合的差集,找出所述黑样本集合与所述白样本集合的不同点;基于所述不同点找出能够区分所述黑样本集合和所述白样本集合的分类特征;
计算所述分类特征所对应的词向量与其他词向量的距离;选取与所述分类特征的距离小于预设阈值的词作为所述分类特征的同义词,并将所述同义词扩充为所述分类特征;
根据所述分类特征提取所述待检测网页脚本文件的特征;所述待检测网页脚本文件的特征之间存在连续的语义连接;
将所述待检测网页脚本文件的特征输入支持向量机预测模型,并通过所述预测模型输出检测结果;
其中,当所述待检测网页脚本文件经检测后确认为webshell时,从所述待检测网页脚本文件和所述样本集合中选取分类特征;根据所述分类特征对黑样本和白样本进行特征提取;将所述特征输入所述支持向量机预测模型进行训练学习;根据训练结果生成更新后的支持向量机预测模型。
2.根据权利要求1所述的一种网页后门检测方法,其特征在于,所述计算黑白样本集合的词向量具体包括:
获取所述黑白样本,对所述黑白样本的文本进行分词;
统计所述文本中的每个词的词频;
根据所述词频进行哈夫曼编码;
根据所述哈夫曼编码对所述文本进行词向量训练。
3.一种网页后门检测装置,其特征在于,包括:
获取模块,用于获取待检测网页脚本文件;所述待检测网页脚本文件的语言为脚本语言;
词向量计算模块,用于计算黑白样本集合的词向量;
黑白样本碰撞模块,用于求黑样本集合和白样本集合的差集,找出所述黑样本集合与所述白样本集合的不同点;基于所述不同点找出能够区分所述黑样本集合和所述白样本集合的分类特征;
距离计算模块,用于计算所述分类特征所对应的词向量与其他词向量的距离;
同义词选取模块,用于选取与所述分类特征的距离小于预设阈值的词作为所述分类特征的同义词,并将所述同义词扩充为所述分类特征;
提取模块,用于根据所述分类特征提取所述待检测网页文件的特征;所述待检测网页脚本文件的特征之间存在连续的语义连接;
检测模块,用于将所述待检测网页脚本文件的特征输入支持向量机预测模型,并通过所述预测模型输出检测结果;
预测模型更新模块,用于当所述待检测网页脚本文件经检测后确认为webshell时,从所述待检测网页脚本文件和所述样本集合中选取分类特征;根据所述分类特征对黑样本和白样本进行特征提取;将所述特征输入所述支持向量机预测模型进行训练学习;根据训练结果生成更新后的支持向量机预测模型。
4.根据权利要求3所述的一种网页后门检测装置,其特征在于,所述词向量计算模块包括:
分词模块,用于获取所述黑白样本,对所述黑白样本的文本进行分词;
词频统计模块,用于统计所述文本中的每个词的词频;
编码模块,用于根据所述词频进行哈夫曼编码;
词向量训练模块,用于根据所述哈夫曼编码对所述文本进行词向量训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810226945.3/1.html,转载请声明来源钻瓜专利网。