[发明专利]广告地址确定方法、装置、设备以及存储介质有效
| 申请号: | 202011522221.7 | 申请日: | 2020-12-21 |
| 公开(公告)号: | CN112508627B | 公开(公告)日: | 2022-11-04 |
| 发明(设计)人: | 杨玉柳 | 申请(专利权)人: | 苏州三六零智能安全科技有限公司 |
| 主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F16/958;G06F16/957;G06V30/40;G06V30/10 |
| 代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 谢阅 |
| 地址: | 215000 江苏省苏州市苏州工业*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 广告 地址 确定 方法 装置 设备 以及 存储 介质 | ||
本发明公开一种广告地址确定方法、装置、设备以及存储介质,网络安全领域。其中,广告地址确定方法包括:获取目标网页的超文本标记语言HTML数据以及至少一张网页截图;从至少一张所述网页截图中截取出待识别图片;对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息;将所述文本信息中具有预设关键词的待识别图片作为目标图片;从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。本发明提供的广告地址确定方法具有通用性,可对不同编写逻辑的网页确定出该网页包含的广告地址。
技术领域
本发明涉及网络安全领域,特别涉及一种广告地址确定方法、装置、设备以及存储介质。
背景技术
互联网广告随着互联网的普及而得到大力发展,也就需要对各个网站媒体页上的广告进行识别,以监测该网站推送的广告是否符合相关法律法规。
但是目前的通过解析网页的超文本标记语言HTML数据进行广告地址识别的方法不能对网页编写逻辑不同的网页进行识别,即广告地址确定方法不具有通用性。
发明内容
本发明的主要目的是提供一种广告地址确定方法、装置、设备以及存储介质,旨在解决现有技术中广告识别方法不具有通用性的技术问题。
为实现上述目的,本发明提出的一种广告地址确定方法,包括:
获取目标网页的超文本标记语言HTML数据以及至少一张网页截图;
从至少一张所述网页截图中截取出待识别图片;
对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息;
将所述文本信息中具有预设关键词的待识别图片作为目标图片;
从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。
可选的,所述获取目标网页的超文本标记语言HTML数据以及至少一张网页截图的步骤之后,所述方法还包括:
从所述HTML数据中提取出多张图片;
所述从至少一张所述网页截图中截取出待识别图片的步骤,包括:
从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片。
可选的,从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片的步骤之前,所述方法还包括:
根据任一张所述图片,确定任一张所述图片对应的截取框;
从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片的步骤,包括:
基于所述截取框,从至少一张所述网页截图确定与任一张所述图片相对应的至少一个框选区域;
截取所述至少一个框选区域,得到任一张所述图片对应的至少一张待识别图片。
可选的,所述对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息的步骤之前,所述方法还包括:
识别出所述图片与所述图片相对应的所述待识别图片的不同区域;
所述对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息的步骤,包括:
对所述不同区域中的显示图像进行光学字符识别,以获得所述不同区域中的文本信息。
可选的,所述从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址的步骤之后,所述方法还包括:
基于所述广告落地页地址,获得广告落地页网站截图与广告主体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州三六零智能安全科技有限公司,未经苏州三六零智能安全科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011522221.7/2.html,转载请声明来源钻瓜专利网。





