[发明专利]一种基于代码分析与图像处理的网页广告屏蔽方法在审
| 申请号: | 201810485860.7 | 申请日: | 2018-05-15 |
| 公开(公告)号: | CN110489636A | 公开(公告)日: | 2019-11-22 |
| 发明(设计)人: | 许蕾;汪睿;李言辉;徐宝文 | 申请(专利权)人: | 南京大学 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06Q30/02 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 210023 江苏省南京市仙林大*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 广告标识 广告区域 脚本 监听 屏蔽 图像 代码分析 结果返回 事件获得 图像处理 图像文本 网页广告 正常图像 遍历 触发 递归 网页 制定 | ||
1.本发明提出了一种基于代码分析与图像处理的网页广告屏蔽方法,其特征是前端脚本通过监听DOMContentLoaded事件获得触发该事件的DOM树,然后递归地遍历DOM树识别可能的广告标识,当遇到包含图像的节点时,通过制定相应规则避免网页正常图像发送到后端判断,对于不符合屏蔽规则的节点使用AJAX技术发送到后端进行判断,后端监听前端请求并响应,利用图像文本识别模型对请求的图像进行判断,并将结果返回给前端脚本,前端脚本根据返回结果通过广告标识查找广告区域,并对广告区域进行屏蔽。
2.根据权利要求1所描述的一种基于代码分析与图像处理的网页广告屏蔽方法,其特征包括以下步骤:
1)前端脚本监听DOMContentLoaded事件获得DOM树;
2)递归地遍历DOM树识别可能的广告标识;
3)制定相应规则避免网页正常图像发送到后端判断,对于可能包含广告标识的图像利用AJAX技术发送到后端进行判断;
4)后端监听前端请求,利用图像文本识别模型对请求的图像进行判断,并将结果返回给前端脚本;
5)根据广告标识识别广告区域,并对广告区域进行屏蔽。
3.根据权利2所描述的一种基于代码分析与图像处理的网页广告屏蔽方法,其特征是在步骤1)中前端脚本通过监听DOMContentLoaded事件,得到触发该事件的DOM树,以供后续步骤对此做进一步的处理。
4.根据权利2所描述的一种基于代码分析与图像处理的网页广告屏蔽方法,其特征是在步骤2)中递归地遍历DOM树识别可能的广告标识,该递归程序将全面的分析整个页面,对不同类型的节点进行不同的处理,即:当遇到text文本节点时,通过获得该节点的value属性值中是否包含“广告”字符串来判断该节点是否属于广告标识;当遇到img元素节点和包含backgroundImage(简写为backImg)属性节点时,将发送到后端,使用图像文本识别模型判断这类节点是否属于广告标识。
5.根据权利2所描述的一种基于代码分析与图像处理的网页广告屏蔽方法,其特征是在步骤3)中通过使用相应的规则来避免网页正常图像发送到后端判断以减轻服务端压力,对于需要发送到后端判断的、包含非正常图像的节点,通过构建XMLHttpRequest对象、使用AJAX技术发送到后端进行判断,设计的过滤网页正常图像的规则为:
规则1:对于img元素类型节点,当图像的width属性值范围在20-50px之间,其图像的height属性值范围在12-30px之间,直接将该图像发送到后端服务器进行判断;
规则2:对于img元素类型节点,当图像的width属性值小于20或图像的height属性值小于12时,直接忽略此情况,不进行处理;
规则3:对于img元素类型节点,当图像的width属性值大于50或图像的height属性值大于30,首先会找到包含此img元素的上层块级元素,然后会递归地遍历该块级区域,查找此区域内是否包含文本节点值,如果包含的话,则认为此区域为网站的正常内容区域,不会发送到后端进行判断,否则发送到后端进行判断;
规则4:对于包含backImg属性类型节点,当其backgroundImage属性值不为空,并且节点width属性值范围在20-50px之间,height属性值范围在12-30px之间,则将其发送到后端服务器进行判断。
6.根据权利2所描述的一种基于代码分析与图像处理的网页广告屏蔽方法,其特征在步骤4)中后端通过监听前端请求并进行响应,下载图像后将其转换为灰度值图,使用Canny算子对其进行二值化处理,然后从中提取HOG特征,最后使用SVM分类模型对其进行判断,完成图像文本识别处理,最后将图像文本识别模型的结果返回给前端脚本。
7.根据权利2所描述的一种基于代码分析与图像处理的网页广告屏蔽方法,其特征在步骤5)中根据广告标识,向上查找块级区域是否包含特定广告结构代码,如果包含的话,则停止查找并屏蔽广告区域,否则直到向上查找块级元素层数达到两层才停止查找,对于找到的广告区域使用removeChild()函数屏蔽该广告区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810485860.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据对象搜索控制方法、装置及系统
- 下一篇:一种AI算法融合的推荐方法及系统





