[发明专利]一种网站解析方法和装置在审
申请号: | 202210494646.4 | 申请日: | 2022-05-07 |
公开(公告)号: | CN114817811A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 薛秋雨;柳超 | 申请(专利权)人: | 盐城金堤科技有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/901 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 贾银秋 |
地址: | 224000 江苏省盐城市盐南高新区科城*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 解析 方法 装置 | ||
本发明公开了一种网站解析方法和装置,其中方法包括:对目标网站的主页面的文档结构进行解析以获取所述主页面的页面标签集,根据所述主页面的页面标签集确定至少一个链接页面;获取至少一个链接页面的页面标签集,根据所述至少一个链接页面的页面标签集和所述主页面的页面标签集,确定适用于所述目标网站的页面链接规则;基于适用于所述目标网站的页面链接规则,获取所述目标网站的与主页面相关联的所有链接页面和每个链接页面的标签路径;以及基于标签路径逐级生成每个链接页面的列表块结构,并根据每个链接页面的列表块结构生成所述目标网站的网页数据结构。
技术领域
本发明涉及信息处理技术领域,尤其是涉及一种网站解析方法和装置、以及计算机可读存储介质、电子设备和计算机程序产品。
背景技术
目前,在进行数据采集工作时,由于网站的网页层级结构不同,对每个网站都需要使用一系列预先设计的规则进行解析,例如,链接规则、标题规则及翻页规则。当网站数量较大时,开发人员需消耗较多精力和时间进行规则设计。
在这种情况下,存在对自动解析网站列表页的链接、标题及翻页链接和规则的需求。
发明内容
鉴于此,本发明提出了一种网站解析方法和装置、以及计算机可读存储介质、电子设备和计算机程序产品,旨在通过对页面的文档结构进行处理,从而实现对网站列表页中的链接、标题及翻页链接进行自动解析。本发明的技术方案能够提升数据的解析精度及采集效率,极大程度上减少人工花销时间。
根据本发明实施例的一个方面,提供一种网站解析方法,所述方法包括:
对目标网站的主页面的文档结构进行解析以获取所述主页面的页面标签集,根据所述主页面的页面标签集确定至少一个链接页面;
获取至少一个链接页面的页面标签集,根据所述至少一个链接页面的页面标签集和所述主页面的页面标签集,确定适用于所述目标网站的页面链接规则;
基于适用于所述目标网站的页面链接规则,获取所述目标网站的与主页面相关联的所有链接页面和每个链接页面的标签路径;以及
基于标签路径逐级生成每个链接页面的列表块结构,并根据每个链接页面的列表块结构生成所述目标网站的网页数据结构。
根据本发明实施例的另一个方面,提供一种网站解析装置,所述装置包括:
解析单元,用于对目标网站的主页面的文档结构进行解析以获取所述主页面的页面标签集,根据所述主页面的页面标签集确定至少一个链接页面;
确定单元,用于获取至少一个链接页面的页面标签集,根据所述至少一个链接页面的页面标签集和所述主页面的页面标签集,确定适用于所述目标网站的页面链接规则;
获取单元,用于基于适用于所述目标网站的页面链接规则,获取所述目标网站的与主页面相关联的所有链接页面和每个链接页面的标签路径;以及
生成单元,用于基于标签路径逐级生成每个链接页面的列表块结构,并根据每个链接页面的列表块结构生成所述目标网站的网页数据结构。
根据本发明实施例的再一方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于执行上述任一实施例所述的方法。
根据本发明实施例的再一方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述任一实施例所述的方法。
基于本发明实施例的再一方面,提供一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现上述任一实施例所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盐城金堤科技有限公司,未经盐城金堤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210494646.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种涡流纺纱工艺
- 下一篇:一种帘线钢夹杂物塑性化控制方法及帘线钢