[发明专利]一种网页分析方法、装置及存储介质、程序产品有效
申请号: | 201711481065.2 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108196874B | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 邹荣珠 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F8/70 | 分类号: | G06F8/70 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 分析 方法 装置 存储 介质 程序 产品 | ||
1.一种网页分析方法,其特征在于,所述方法包括:
将待分析网页数据与预设筛选条件进行匹配,获得与所述待分析网页数据匹配上的预设筛选条件作为目标条件,并获得各个所述目标条件在所述待分析网页数据中对应的数据;所述预设筛选条件与基础网页元素具有一一对应关系,所述基础网页元素为在网页元素之间的层次构成关系中处于最底层的网页元素;
根据所述预设筛选条件与基础网页元素的对应关系,确定所述目标条件对应的基础网页元素;
将任一目标条件在所述待分析网页数据中对应的数据作为该目标条件对应的基础网页元素的数据;
将各个所述目标条件对应的基础网页元素以及该目标条件对应的基础网页元素的数据作为网页分析结果输出;
将所述目标条件对应的基础网页元素作为获得数据的网页元素;根据网页元素之间的层次构成关系,当检测到父级网页元素的各个下一级网页元素均为所述获得数据的网页元素,利用所述父级网页元素的各个下一级网页元素的数据生成所述父级网页元素的数据,所述父级网页元素为所述获得数据的网页元素的上一级网页元素;将所述父级网页元素作为所述获得数据的网页元素,重复执行所述当检测到父级网页元素的各个下一级网页元素均为所述获得数据的网页元素,利用所述父级网页元素的各个下一级网页元素的数据生成所述父级网页元素的数据,直到所述父级网页元素为顶层网页元素;
将所述待分析网页与边界筛选条件进行匹配,获得与所述待分析网页数据匹配上的边界筛选条件作为边界条件,并获得所述边界条件在所述待分析网页数据中对应的数据;根据所述边界筛选条件与网页元素的对应关系,确定所述边界条件对应的网页元素;将任一边界条件在所述待分析网页数据中对应的数据作为该边界条件对应的网页元素的数据;将所述边界条件对应的网页元素作为获得数据的网页元素,重复执行所述当检测到父级网页元素的各个下一级网页元素均为所述获得数据的网页元素,利用所述父级网页元素的各个下一级网页元素的数据生成所述父级网页元素的数据,直到所述父级网页元素为顶层网页元素;将各个所述父级网页元素的数据作为网页分析结果输出。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据网页元素之间的层次构成关系,确定与所述目标条件对应的基础网页元素具有层次构成关系的上层网页元素;
将与所述目标条件对应的基础网页元素具有层次构成关系的上层网页元素作为网页分析结果输出。
3.根据权利要求2所述的方法,其特征在于,所述根据网页元素之间的层次构成关系,确定与所述目标条件对应的基础网页元素具有层次构成关系的上层网页元素,包括:
根据网页元素之间的层次构成关系,将所述目标条件对应的基础网页元素的上一级网页元素作为结果网页元素,将所述结果网页元素的上一级网页元素作为所述结果网页元素,直到所述结果网页元素为顶层网页元素,将全部所述结果网页元素作为与所述目标条件对应的基础网页元素具有层次构成关系的上层网页元素。
4.根据权利要求1所述的方法,其特征在于,所述预设筛选条件包括用于描述预设的基础网页元素的数据筛选条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711481065.2/1.html,转载请声明来源钻瓜专利网。