[发明专利]栏目更新日期确定方法、装置、设备及可读存储介质有效
申请号: | 201911228627.1 | 申请日: | 2019-12-04 |
公开(公告)号: | CN110826007B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 汪磊;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F8/65 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王云晓 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 栏目 更新 日期 确定 方法 装置 设备 可读 存储 介质 | ||
1.一种栏目更新日期确定方法,其特征在于,包括:
从目标网站中提取目标栏目的目标地址,所述目标栏目为所述目标网站中待确定更新日期的栏目;
按照所述目标地址查询所述目标栏目的源码,并根据所述源码生成目标DOM树;
在所述目标DOM树中查询有效内链地址对应的内链标签元素;
根据所述内链标签元素确定所述目标栏目的更新日期;
其中,所述根据所述内链标签元素确定所述目标栏目的更新日期,包括:
判断所述内链标签元素的父标签元素是否存在父节点;
若否,则在所述父标签元素中查询日期,并将查询到的日期确定为所述目标栏目的更新日期。
2.根据权利要求1所述的栏目更新日期确定方法,其特征在于,所述从目标网站中提取目标栏目的目标地址,包括:
利用目标标签从所述目标网站中提取所述目标地址,所述目标标签包括:nav、menu、nav*和menu*。
3.根据权利要求1所述的栏目更新日期确定方法,其特征在于,所述在所述目标DOM树中查询有效内链地址对应的内链标签元素之前,还包括:
对所述目标DOM树进行去噪。
4.根据权利要求3所述的栏目更新日期确定方法,其特征在于,所述在所述目标DOM树中查询有效内链地址对应的内链标签元素,包括:
在所述目标DOM树中查询内链地址;
对查询到的所述内链地址进行筛选,获得有效内链地址;
从所述目标DOM树中提取所述有效内链地址对应的内链标签元素。
5.根据权利要求4所述的栏目更新日期确定方法,其特征在于,所述对查询到的所述内链地址进行筛选,获得有效内链地址,包括:
确定所述目标地址的第一文件目录,以及查询到的所述内链地址的第二文件目录;
若所述第一文件目录和所述第二文件目录的头部相同,则将所述内链地址确定为有效内链地址;
若所述第一文件目录和所述第二文件目录的头部不相同,则将所述内链地址确定为无效内链地址。
6.根据权利要求1所述的栏目更新日期确定方法,其特征在于,还包括:
若所述父标签元素存在父节点,则确定所述内链标签元素和所述父标签元素所属的标签元素组;
若所述标签元素组中仅有一个日期,则将所述日期确定为所述目标栏目的更新日期。
7.一种栏目更新日期确定装置,其特征在于,包括:
提取模块,用于从目标网站中提取目标栏目的目标地址,所述目标栏目为所述目标网站中待确定更新日期的栏目;
执行模块,用于按照所述目标地址查询所述目标栏目的源码,并根据所述源码生成目标DOM树;
查询模块,用于在所述目标DOM树中查询有效内链地址对应的内链标签元素;
获取模块,用于根据所述内链标签元素确定所述目标栏目的更新日期;
其中,获取模块包括:
判断单元,用于判断内链标签元素的父标签元素是否存在父节点;
第一确定单元,用于若内链标签元素的父标签元素不存在父节点,则在父标签元素中查询日期,并将查询到的日期确定为目标栏目的更新日期。
8.一种栏目更新日期确定设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至6任一项所述的栏目更新日期确定方法。
9.一种可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的栏目更新日期确定方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911228627.1/1.html,转载请声明来源钻瓜专利网。