[发明专利]一种网站解析方法和装置在审
申请号: | 202210494646.4 | 申请日: | 2022-05-07 |
公开(公告)号: | CN114817811A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 薛秋雨;柳超 | 申请(专利权)人: | 盐城金堤科技有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/901 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 贾银秋 |
地址: | 224000 江苏省盐城市盐南高新区科城*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 解析 方法 装置 | ||
1.一种网站解析方法,其特征在于,所述方法包括:
对目标网站的主页面的文档结构进行解析以获取所述主页面的页面标签集,根据所述主页面的页面标签集确定至少一个链接页面;
获取至少一个链接页面的页面标签集,根据所述至少一个链接页面的页面标签集和所述主页面的页面标签集,确定适用于所述目标网站的页面链接规则;
基于适用于所述目标网站的页面链接规则,获取所述目标网站的与主页面相关联的所有链接页面和每个链接页面的标签路径;以及
基于标签路径逐级生成每个链接页面的列表块结构,并根据每个链接页面的列表块结构生成所述目标网站的网页数据结构。
2.根据权利要求1所述的方法,其特征在于,所述对目标网站的主页面的文档结构进行解析以获取所述主页面的页面标签集,包括:
获取所述目标网站的主页面的网络地址;
基于所述目标网站的主页面的网络地址,获取所述主页面的网页源代码;
基于所述网页源代码构建所述主页面的文档结构,其中所述文档结构为文档对象模型DOM树;
对所述目标网站的主页面的文档结构进行解析以获取所述主页面的所有标签,根据所有标签确定所述主页面的页面标签集。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述主页面的页面标签集确定至少一个链接页面,包括:
根据预先获取的用于确定链接页面的锚点规则,在所述主页面的页面标签集中查询是否存在页面链接锚点;
当查询到页面链接锚点时,基于所述页面链接锚点确定至少一个链接页面。
4.根据权利要求3所述的方法,其特征在于,当查询不到页面链接锚点时,所述方法还包括:
获取多种页面链接规则,其中基于对海量的页面链接锚点进行统计处理以确定多种页面链接规则;
基于多种页面链接规则,确定所述主页面的至少一个链接页面,其中每个链接页面为能够访问的页面并且每个链接页面的哈希值与所述主页面的哈希值不相同。
5.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个链接页面的页面标签集和所述主页面的页面标签集,确定适用于所述目标网站的页面链接规则,包括:
将所述至少一个链接页面的页面标签集分别与所述主页面的页面标签集进行差别比较,以确定不同的动态参数的数量;
当动态参数的数量为1时,则确定所述动态参数为页面翻页参数;
当动态参数的数量大于1时,获取所述主页面的动态参数和所述主页面下至少两个层级的链接页面的动态参数,对每个动态参数进行枚举校验,参数值发生变化的动态参数确定为页面翻页参数;
基于所述页面翻页参数及所述页面翻页参数的值,确定适用于所述目标网站的页面链接规则。
6.根据权利要求1所述的方法,其特征在于,所述基于适用于所述目标网站的页面链接规则,获取所述目标网站的与主页面相关联的所有链接页面和每个链接页面的标签路径,包括:
基于适用于所述目标网站的页面链接规则,确定所述目标网站的页面链接锚点;
基于所述页面链接锚点进行逐级访问,以获取所述目标网站的与主页面相关联的所有链接页面;
获取每个链接页面的网页源代码,基于网页源代码确定每个链接页面的标签路径。
7.根据权利要求1所述的方法,其特征在于,所述基于标签路径逐级生成每个链接页面的列表块结构,包括:
将每个链接页面的标签路径构成标签路径集合;
基于对标签路径中公共部分进行匹配,对所述标签路径集合中的标签路径进行路径聚合;
将经过路径聚合的标签路径最小公共父节点确定为列表块,生成每个链接页面的列表块结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盐城金堤科技有限公司,未经盐城金堤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210494646.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种涡流纺纱工艺
- 下一篇:一种帘线钢夹杂物塑性化控制方法及帘线钢