[发明专利]基于动静态分离模板的客户端网页篡改检测方法有效
申请号: | 201810106150.9 | 申请日: | 2018-02-02 |
公开(公告)号: | CN108182370B | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 孟雷;袁劲松;徐钟豪 | 申请(专利权)人: | 上海斗象信息科技有限公司 |
主分类号: | G06F21/64 | 分类号: | G06F21/64;G06F16/958;G06F21/56 |
代理公司: | 上海翰信知识产权代理事务所(普通合伙) 31270 | 代理人: | 张维东 |
地址: | 201203 上海市浦东新区碧波路6*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 静态 分离 模板 客户端 网页 篡改 检测 方法 | ||
1.一种基于动静态分离模板的客户端网页篡改检测方法,其特征在于,包括以下步骤:
步骤1,抓取同一URL在不同时间段的网页源码作为训练数据集;
步骤2,对所述训练数据集进行预处理:将所述训练数据集中的每份网页源码解析为Dom Tree结构,以Dom Tree的每个标签为处理单元,将处理单元格式化,并将每个Dom Tree中的格式化的处理单元序列化为有序列表的形式,其中,所述格式化的处理单元中至少包括textnum、tag、hash、depth、sig和动态区域统计特征信息,textnum为处理单元文本数量、tag为标签名称、hash为处理单元的哈希值、deph为处理单元所在的深度值、sig表示处理单元是否为动态区域起始标识节点;
步骤3,生成模板:提取所有预处理过的网页源码中最长公共子序列,将所述最长公共子序列与预处理过的网页源码对比识别出静态区域、动态区域和动态区域起始标识节点,并统计动态区域统计特征信息,提取静态区域并根据静态区域中每个处理单元是否为动态区域起始节点对每个处理单元的sig值进行更新,根据统计出的动态区域特征信息对属于动态区域起始标识节点的处理单元的动态区域统计信息进行更新,将更新后的有序列表作为模板,其中,动态区域起始标识节点为动态区域起始节点的前一个节点,每个节点表示一个处理单元;
步骤4,抓取待测试的与步骤1中相同的URL的网页源码;
步骤5,对步骤4中的网页源码进行预处理:预处理过程与步骤2的预处理过程相同,其中,格式化的处理单元中至少包括xpath、textnum、tag、hash、deph、sig和动态区域统计特征信息,xpath为每个处理单元的路径表达式,textnum为处理单元文本数量、tag为标签名称、hash为处理单元的哈希值、depth为处理单元所在的深度值、sig用于标识动静态区域;
步骤6,提取步骤5中预处理的网页源码和所述模板的最长公共子序列,将最长公共子序列与步骤5中预处理后的网页源码对比识别出静态区域、动态区域和动态区域起始标识节点,并统计各动态区域特征统计信息;
步骤7,提取步骤6中静态区域并根据该静态区域中每个处理单元是否为动态区域起始节点对每个处理单元的sig值进行加1或加0,根据静态区域中处理单元的sig值来判断与其对应的动态区域是静态篡改点或是原始动态区域,若识别出模板中的动态区域起始标识节点和/或结束节点被篡改,则需要对模板中该动态区域进行动态区域扩展,并更新模板中动态区域统计信息,无论步骤6中的静态区域中对应的节点的sig值的大小,扩展的动态区域对应的步骤6中提取的动态区域均作为原始动态区域,并输出被篡改的静态区域数据;
步骤8,根据原始动态区域和原始动态区域的动态区域特征统计信息、对应的模板中的动态区域和该动态区域的动态区域特征统计信息检测提取的原始动态区域是否被篡改;
步骤9,输出被篡改的动态区域数据;
步骤10,根据待测试的网页源码有序列表中各节点的xpath将被篡改的静态区域数据和动态区域数据在待测网页上展示。
2.根据权利要求1所述的基于动静态分离模板的客户端网页篡改检测方法,其特征在于:
步骤1和步骤4中,通过网络抓取引擎爬取URL的网页源码。
3.根据权利要求1所述的基于动静态分离模板的客户端网页篡改检测方法,其特征在于:
在训练模板时采用循环处理或并行处理的方式。
4.根据权利要求3所述的基于动静态分离模板的客户端网页篡改检测方法,其特征在于:
步骤3中,在训练模板时,处理单元的参数sig的值是递增操作,在得到模板时,还需将训练得到的模板做格式化处理:将模板中处理单元的参数sig大于1的节点重新赋值为1。
5.根据权利要求1所述的基于动静态分离模板的客户端网页篡改检测方法,其特征在于:
动态区域特征统计信息至少包含:tagmax、tagmin、textmax、以及textmin,tagmax为动态区域标签数量最大值,tagmin为动态区域标签数量最小值,textmax为动态区域文本数量最大值,textmin为动态区域文本数量最小值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海斗象信息科技有限公司,未经上海斗象信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810106150.9/1.html,转载请声明来源钻瓜专利网。