[发明专利]一种网页分析方法、装置及存储介质、程序产品有效
申请号: | 201711481065.2 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108196874B | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 邹荣珠 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F8/70 | 分类号: | G06F8/70 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 分析 方法 装置 存储 介质 程序 产品 | ||
本申请实施例公开了一种网页分析方法及装置,用于快速便捷地进行网页分析,该方法包括:将待分析网页数据与预设筛选条件进行匹配,获得与待分析网页数据匹配上的预设筛选条件作为目标条件,并获得各个目标条件在待分析网页数据中对应的数据;根据预设筛选条件与基础网页元素的对应关系,确定目标条件对应的基础网页元素;将任一目标条件在待分析网页数据中对应的数据作为该目标条件对应的基础网页元素的数据;将各个目标条件对应的基础网页元素以及该目标条件对应的基础网页元素的数据作为网页分析结果输出。
技术领域
本申请涉及数据处理技术领域,具体涉及一种网页分析方法、装置及存储介质、程序产品。
背景技术
随着Internet以及相关技术的发展与成熟,从网页中提取数据已经成为人们获取信息的重要手段。而要从网页中提取数据,就要对网页结构进行分析,通过网页分析获取数据在页面中的具体位置,从而把数据从页面中提取出来。
目前,较常用的网页分析方法是基于文档对象模型(Document Object Model,DOM)的网页分析方法。根据DOM规范可知,网页文档中的每个成分都是一个节点:整个网页文档是一个文档节点,每个网页标签是一个元素节点,包含在元素中的文本是文本节点,每一个网页属性是一个属性节点,注释属于注释节点,这些节点彼此之间都存在关系。基于DOM的网页分析过程包括:解析网页的源代码,得到源代码中定义的节点之间的关系,并调用DOM规范给定的接口将上述节点之间的关系转换为DOM树,然后通过查找DOM树中的节点获取所需要的数据。
然而,由于网页源代码中的标签元素和内嵌代码异常丰富,各种样式和布局千变万化,上述基于DOM的网页分析方法实现复杂且极易出错。
发明内容
有鉴于此,本申请实施例提供一种网页分析方法、装置及存储介质、程序产品,以降低网页分析的复杂度和出错率。
为解决上述问题,本申请实施例提供的技术方案如下:
一种网页分析方法,所述方法包括:
将待分析网页数据与预设筛选条件进行匹配,获得与所述待分析网页数据匹配上的预设筛选条件作为目标条件,并获得各个所述目标条件在所述待分析网页数据中对应的数据;
根据所述预设筛选条件与基础网页元素的对应关系,确定所述目标条件对应的基础网页元素;
将任一目标条件在所述待分析网页数据中对应的数据作为该目标条件对应的基础网页元素的数据;
将各个所述目标条件对应的基础网页元素以及该目标条件对应的基础网页元素的数据作为网页分析结果输出。
可选的,所述方法还包括:
根据网页元素之间的层次构成关系,确定与所述目标条件对应的基础网页元素具有层次构成关系的上层网页元素;
将与所述目标条件对应的基础网页元素具有层次构成关系的上层网页元素作为网页分析结果输出。
可选的,所述根据网页元素之间的层次构成关系,确定与所述目标条件对应的基础网页元素具有层次构成关系的上层网页元素,包括:
根据网页元素之间的层次构成关系,将所述目标条件对应的基础网页元素的上一级网页元素作为结果网页元素,将所述结果网页元素的上一级网页元素作为所述结果网页元素,直到所述结果网页元素为顶层网页元素,将全部所述结果网页元素作为与所述目标条件对应的基础网页元素具有层次构成关系的上层网页元素。
可选的,所述方法还包括:
将所述目标条件对应的基础网页元素作为获得数据的网页元素;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711481065.2/2.html,转载请声明来源钻瓜专利网。