[发明专利]栏目更新日期确定方法、装置、设备及可读存储介质有效
申请号: | 201911228627.1 | 申请日: | 2019-12-04 |
公开(公告)号: | CN110826007B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 汪磊;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F8/65 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王云晓 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 栏目 更新 日期 确定 方法 装置 设备 可读 存储 介质 | ||
本申请公开了一种栏目更新日期确定方法、装置、设备及可读存储介质。本申请公开的方法包括:从目标网站中提取目标栏目的目标地址,目标栏目为目标网站中待确定更新日期的栏目;按照目标地址查询目标栏目的源码,并根据源码生成目标DOM树;在目标DOM树中查询有效内链地址对应的内链标签元素;根据内链标签元素确定目标栏目的更新日期。本申请仅针对与目标栏目相关的信息进行处理,不涉及其他栏目或页面的信息,因此最后确定的更新日期为目标栏目的更新日期,而非其他日期,从而降低了栏目更新日期的误报率和漏报率。本申请公开的一种栏目更新日期确定装置、设备及可读存储介质,也同样具有上述技术效果。
技术领域
本申请涉及计算机技术领域,特别涉及一种栏目更新日期确定方法、装置、设备及可读存储介质。
背景技术
在现有技术中,一般利用正则匹配方式对网站中含有日期的特征进行提取,进而将提取到的日期确定为网站中栏目的更新日期。但由于网站的展示页面中还可能设有用户打开网站页面时的日期,或用户浏览网站时当前时刻的日期,因此利用正则匹配方式提取到的日期不一定为栏目的更新日期,还可能是用户浏览网站的日期,所以将正则匹配方式提取到的日期确定为网站中栏目的更新日期会增加误报率和漏报率。
因此,如何降低网站中栏目更新日期的误报率和漏报率,是本领域技术人员需要解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种栏目更新日期确定方法、装置、设备及可读存储介质,以降低网站中栏目更新日期的误报率和漏报率。其具体方案如下:
第一方面,本申请提供了一种栏目更新日期确定方法,包括:
从目标网站中提取目标栏目的目标地址,目标栏目为目标网站中待确定更新日期的栏目;
按照目标地址查询目标栏目的源码,并根据源码生成目标DOM树;
在目标DOM树中查询有效内链地址对应的内链标签元素;
根据内链标签元素确定目标栏目的更新日期。
优选地,从目标网站中提取目标栏目的目标地址,包括:
利用目标标签从目标网站中提取目标地址,目标标签包括:nav、menu、nav*和menu*。
优选地,在目标DOM树中查询有效内链地址对应的内链标签元素之前,还包括:
对目标DOM树进行去噪。
优选地,在目标DOM树中查询有效内链地址对应的内链标签元素,包括:
在目标DOM树中查询内链地址;
对查询到的内链地址进行筛选,获得有效内链地址;
从目标DOM树中提取有效内链地址对应的内链标签元素。
优选地,对查询到的内链地址进行筛选,获得有效内链地址,包括:
确定目标地址的第一文件目录,以及查询到的内链地址的第二文件目录;
若第一文件目录和第二文件目录的头部相同,则将内链地址确定为有效内链地址;
若第一文件目录和第二文件目录的头部不相同,则将内链地址确定为无效内链地址。
优选地,根据内链标签元素确定目标栏目的更新日期,包括:
判断内链标签元素的父标签元素是否存在父节点;
若否,则在父标签元素中查询日期,并将查询到的日期确定为目标栏目的更新日期。
优选地,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911228627.1/2.html,转载请声明来源钻瓜专利网。