[发明专利]一种基于广告网络拓扑的恶意网页广告检测方法有效
申请号: | 201710572122.1 | 申请日: | 2017-07-13 |
公开(公告)号: | CN107437026B | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 尹小燕;王华;汤战勇;倪礼刚;牛进平;侯爱琴;徐丹;陈峰;陈晓江;房鼎益 | 申请(专利权)人: | 西北大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F16/955 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 李婷;张明 |
地址: | 710069 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 广告 网络 拓扑 恶意 网页 检测 方法 | ||
1.一种基于广告网络拓扑的恶意网页广告检测方法,其特征在于,包括以下步骤:
步骤一,提取待测网站中的所有URL;
步骤二,利用广告检测插件提取所述的URL中所有广告的URL;
步骤三,根据URL之间的请求响应关系,结合步骤一得到的所有URL和步骤二提取的广告相关的URL,重新构造广告重定向链;
步骤四,对所述的广告重定向链上的每一个URL节点,注释其角色属性、域的生命周期、URL属性、重定向链的长度、节点的频率这些特征;
步骤五,对URL节点注释特征后,提取每一个URL节点所有的3-节点短路径段;所述的3-节点短路径段是指广告重定向链上,每相邻的三个URL节点构成的路径段;
步骤六,将已知的恶意网页广告路径和从步骤五中得到的3-节点短路径段中选取每个节点的域的生命周期都超过一年的路径段作为训练数据,构建一颗完整的决策树,并对决策树进行剪枝,生成一组精简的检测规则来检测恶意网页广告。
2.如权利要求1所述的基于广告网络拓扑的恶意网页广告检测方法,其特征在于,所述的步骤五的具体步骤包括:
步骤5.1,对广告重定向链进行预处理
删除广告重定向链上所有已知的出版商节点;如果一组连续的节点来自相同的域共享相同的属性,则将这些节点合并为一个节点;
步骤5.2,预处理之后,对广告重定向链提取所有可能的3-节点短路径段;所述的3-节点短路径段是指广告重定向链上,每相邻的三个URL节点构成的路径段;如果一条路径段短于3个节点,则用空节点来补全。
3.如权利要求1所述的基于广告网络拓扑的恶意网页广告检测方法,其特征在于,所述的步骤六中,构建决策树的步骤包括:
1)以步骤六中所述的训练数据为样本,作为一个节点开始;
2)如果样本都在同一个类中,即样本的属性取值都相同,则该节点成为决策树的叶子节点,不再对其划分;否则,选择一个最具有分类能力的属性,根据样本对于该属性取值的不同,将样本划分为若干个子样本,每个取值形成一个决策树的分枝,有几个取值则形成几个分枝;
3)针对上一步得到的一个子样本,重复进行先前步骤,递归形成每个子样本上的决策树;
4)递归的过程当且仅当下列条件之一成立时停止:
①每一个子样本都属于同一类,为决策树的叶子节点;
②没有剩余的属性可以用来进一步划分样本;在这种情况下,就认为这些样本都属于同一类,把它们作为决策树的叶子节点;
5)决策树中每一条到叶子节点的分支即为一条检测规则。
4.如权利要求3所述的基于广告网络拓扑的恶意网页广告检测方法,其特征在于,所述的“最具有分类能力的属性”是指具有最大信息增益的属性,所述的信息增益的计算公式为:
上式中,A表示样本S的一个属性,Value(A)是属性A所有的取值集合,v是A的其中一个取值,Sv是样本S中A的取值为v的子样本集合,所述的样本的属性指步骤四所述的特征;Entropy(S)表示信息熵,其计算公式为:
其中,m为样本的类别数,p(ui)为类别ui在样本S中出现的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710572122.1/1.html,转载请声明来源钻瓜专利网。