[发明专利]一种网页篡改的检测方法及装置有效
申请号: | 201611207732.3 | 申请日: | 2016-12-23 |
公开(公告)号: | CN106778357B | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 古琳莹;吴昊;张楠;张维 | 申请(专利权)人: | 北京神州绿盟信息安全科技股份有限公司;北京神州绿盟科技有限公司 |
主分类号: | G06F21/64 | 分类号: | G06F21/64;G06K9/62;G06F16/958;G06F16/33 |
代理公司: | 11291 北京同达信恒知识产权代理有限公司 | 代理人: | 黄志华 |
地址: | 100089 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 篡改 检测 方法 装置 | ||
1.一种网页篡改的检测方法,其特征在于,包括:
确定到达预设的检测周期的情况下,提取待检测网页的特征词,获取所述待检测网页对应的目标特征词集合,并基于所述目标特征词集合,获取所述待检测网页对应的特征向量;
将所述特征向量输入预先建立的网页特征预测模型,获取所述待检测网页对应的隶属度集合,其中,所述隶属度集合是所述待检测网页在各个网页类别下分别对应的隶属度的集合;
计算所述目标特征词集合与在上一检测周期中获取到的基准特征词集合之间的特征词相似度以及所述隶属度集合与在上一检测周期中获取到的基准隶属度集合之间的隶属度相似度,并基于所述特征词相似度和所述隶属度相似度,判断所述待检测网页是否被篡改。
2.如权利要求1所述的方法,其特征在于,所述网页特征预测模型是采用以下方式建立的:
针对采集到的各个网页类别下的每一个样本网页进行分词处理,获取各个网页类别下的每一个样本网页分别对应的样本特征词集合;
对各个网页类别下的每一个样本网页分别对应的样本特征词集合进行约减处理,获取各个网页类别下的每一个样本网页分别对应的训练样本特征词集合;
对各个网页类别下的每一个样本网页分别对应的训练样本特征词集合进行归一化处理,获取各个网页类别下的每一个样本网页分别对应的样本特征向量;
对各个网页类别下的每一个样本网页分别对应的样本特征向量进行网页分类训练,获取用于确定待检测网页对应的隶属度集合的网页分类函数,并将所述网页分类函数作为处理函数,建立所述网页特征预测模型。
3.如权利要求1所述的方法,其特征在于,提取待检测网页的特征词,获取所述待检测网页对应的目标特征词集合,并基于所述目标特征词集合,获取所述待检测网页对应的特征向量,包括:
对所述待检测网页进行分词处理,获取所述待检测网页对应的初始特征词集合,并对所述初始特征词集合进行约减处理,获取所述待检测网页对应的目标特征词集合,以及对所述目标特征词集合包含的每一个特征词进行归一化处理,获取所述待检测网页对应的特征向量。
4.如权利要求1所述的方法,其特征在于,基于所述特征词相似度和所述隶属度相似度,判断所述待检测网页是否被篡改,包括:
若确定所述特征词相似度和/或所述隶属度相似度小于预设阈值,则认定所述待检测网页已被篡改;
若确定所述特征词相似度和所述隶属度相似度均大于等于所述预设阈值,则认定所述待检测网页未被篡改。
5.如权利要求1-4任一项所述的方法,其特征在于,基于所述特征词相似度和所述隶属度相似度,判断所述待检测网页是否被篡改之后,进一步包括:
在认定所述待检测网页已被篡改的情况下,输出所述待检测网页已被篡改的检测结果以及用于判断是否认可所述检测结果的反馈窗口;
若接收到在所述反馈窗口中输入的表征不认可所述检测结果的第一指示信息,则基于在当前检测周期中获取到的所述目标特征词集合和所述隶属度集合,修改在上一检测周期中获取到的基准特征词集合和基准隶属度集合,并将修改后的基准特征词集合和修改后的基准隶属度集合作为在下一检测周期中使用的基准特征词集合和基准隶属度集合;若接收到在所述反馈窗口中输入的表征认可所述检测结果的第二指示信息,则依然将在上一检测周期中获取到的基准特征词集合和基准隶属度集合作为在下一检测周期中使用的基准特征词集合和基准隶属度集合。
6.一种网页篡改的检测装置,其特征在于,包括:
第一获取单元,用于确定到达预设的检测周期的情况下,提取待检测网页的特征词,获取所述待检测网页对应的目标特征词集合,并基于所述目标特征词集合,获取所述待检测网页对应的特征向量;
第二获取单元,用于将所述特征向量输入预先建立的网页特征预测模型,获取所述待检测网页对应的隶属度集合,其中,所述隶属度集合是所述待检测网页在各个网页类别下分别对应的隶属度的集合;
检测结果确定单元,用于计算所述目标特征词集合与在上一检测周期中获取到的基准特征词集合之间的特征词相似度以及所述隶属度集合与在上一检测周期中获取到的基准隶属度集合之间的隶属度相似度,并基于所述特征词相似度和所述隶属度相似度,判断所述待检测网页是否被篡改。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州绿盟信息安全科技股份有限公司;北京神州绿盟科技有限公司,未经北京神州绿盟信息安全科技股份有限公司;北京神州绿盟科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611207732.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:机顶盒设备防止丢失核心数据的方法
- 下一篇:一种保护方法、装置和电子设备