[发明专利]网页场景识别方法、装置、电子设备及存储介质有效
申请号: | 201911381343.6 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111125603B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 刘浪宇 | 申请(专利权)人: | 百度时代网络技术(北京)有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F18/241 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100193 北京市海淀区东*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 场景 识别 方法 装置 电子设备 存储 介质 | ||
1.一种网页场景识别方法,其特征在于,包括:
根据不同网页场景下的网页元素特征构建特征库;
针对待识别的网页场景,当待处理的网页打开后处于运行状态时,获取其中的网页元素;
针对任一网页元素,分别从所述网页中获取所述网页元素在所述网页场景下的各特征的特征信息,并通过将获取到的各特征信息与所述特征库中的对应特征信息进行比较,确定出所述网页元素是否符合所述网页场景;其中,所述对应特征信息为对所述特征库中所述网页场景下的特征进行条件配置后的特征信息;
其中,所述网页场景包括:静态类网页场景以及动态类网页场景;
若所述待识别的网页场景为动态类网页场景,则该方法进一步包括:针对符合所述网页场景的网页元素,监听针对所述网页元素的交互操作,并确定所述交互操作所带来的页面变动是否符合预期。
2.根据权利要求1所述的方法,其特征在于,
所述特征库中包含适用于各网页场景的通用特征以及适用于特定网页场景的专用特征;不同类别的特征分别按照预定的特征数据格式进行存储。
3.根据权利要求1所述的方法,其特征在于,
所述通过将获取到的各特征信息与所述特征库中的对应特征信息进行比较,确定出所述网页元素是否符合所述网页场景包括:
通过将获取到的各特征信息与所述对应特征信息进行比较,确定出所述网页元素的置信度;
若所述置信度大于预先设定的阈值,则确定所述网页元素符合所述网页场景,否则,确定所述网页元素不符合所述网页场景。
4.根据权利要求3所述的方法,其特征在于,
该方法进一步包括:分别为所述特征库中的各特征设置角色、分组及权重;
所述通过将获取到的各特征信息与所述对应特征信息进行比较,确定出所述网页元素的置信度包括:确定获取到的各特征信息与所述对应特征信息是否相匹配,根据确定结果以及各特征的角色、分组及权重信息,按照预定规则计算出所述网页元素的置信度。
5.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:获取网页场景识别请求,若所述网页场景识别请求中包含多于一个网页场景,则确定各网页场景的识别顺序,并按照所述识别顺序,依次将各网页场景作为所述待识别的网页场景进行处理。
6.根据权利要求5所述的方法,其特征在于,
该方法进一步包括:当任一网页场景识别完成后,若进行了页面变动,则将所述网页恢复为页面变动之前的状态,并基于恢复后的网页进行下一网页场景的识别。
7.一种网页场景识别装置,其特征在于,包括:预处理单元以及识别单元;
所述预处理单元,用于根据不同网页场景下的网页元素特征构建特征库;
所述识别单元,用于针对待识别的网页场景,当待处理的网页打开后处于运行状态时,获取其中的网页元素,针对任一网页元素,分别从所述网页中获取所述网页元素在所述网页场景下的各特征的特征信息,并通过将获取到的各特征信息与所述特征库中的对应特征信息进行比较,确定出所述网页元素是否符合所述网页场景,其中,所述对应特征信息为对所述特征库中所述网页场景下的特征进行条件配置后的特征信息;
其中,所述网页场景包括:静态类网页场景以及动态类网页场景;
若所述待识别的网页场景为动态类网页场景,则所述识别单元进一步用于,针对符合所述网页场景的网页元素,监听针对所述网页元素的交互操作,并确定所述交互操作所带来的页面变动是否符合预期。
8.根据权利要求7所述的装置,其特征在于,
所述特征库中包含适用于各网页场景的通用特征以及适用于特定网页场景的专用特征;不同类别的特征分别按照预定的特征数据格式进行存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度时代网络技术(北京)有限公司,未经百度时代网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911381343.6/1.html,转载请声明来源钻瓜专利网。