[发明专利]一种网页获取方法及装置在审
申请号: | 202110517593.9 | 申请日: | 2021-05-12 |
公开(公告)号: | CN113343141A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 朱茵茵;詹亮;崔晓燕;张俊浩;王炜;丁力 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958 |
代理公司: | 北京曼威知识产权代理有限公司 11709 | 代理人: | 方志炜 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 获取 方法 装置 | ||
1.一种网页获取方法,其特征在于,包括:
从待获取的各网页中,确定最近一次获取的各目标网页,以及未获取的各其它网页;
针对每个目标网页,根据最近两次获取到的该目标网页的页面信息,确定并存储该目标网页的更新参数,所述更新参数用于表征网页内容是否发生变化;
根据该目标网页历史上存储的至少一个更新参数,确定该目标网页在单位时间内的更新概率;
根据各目标网页的更新概率以及页面评价指标、各其它网页最近一次确定出的更新概率以及页面评价指标,确定待获取的各网页的获取顺序;
根据确定出的各网页的获取顺序,重新确定待获取的各目标网页,获取并存储各目标网页的页面信息。
2.如权利要求1所述的方法,其特征在于,根据最近两次获取到的该目标网页的页面信息,确定该目标网页的更新参数,具体包括:
根据最近两次获取到的该目标网页的页面信息,分别确定各页面信息对应的页面特征;
根据最近两次获取到的各页面信息对应的页面特征,确定该目标网页的更新参数。
3.如权利要求1所述的方法,其特征在于,根据各目标网页的更新概率以及页面评价指标、各其它网页最近一次确定出的更新概率以及页面评价指标,确定待获取的各网页的获取顺序,具体包括:
根据各目标网页的更新概率以及当前距离最近一次获取各目标网页的时间间隔,确定各目标网页的当前更新概率;
根据各其它网页最近一次确定出的更新概率以及当前距离最近一次获取各其它网页的时间间隔,确定各其它网页的当前更新概率;
根据各目标网页的当前更新概率以及页面评价指标、各其它网页的当前更新概率以及页面评价指标,确定待获取的各网页的获取顺序。
4.如权利要求1所述的方法,其特征在于,根据该目标网页历史上存储的至少一个更新参数,确定该目标网页的更新概率,具体包括:
针对该目标网页历史上存储的每个更新参数,根据该更新参数以及该更新参数对应的时间间隔,确定该目标网页在所述时间间隔内的更新概率表达式,其中,所述更新参数对应的时间间隔为用于确定更新参数的两次获取操作的时间差;
根据该目标网页的至少一个更新概率表达式,确定该目标网页更新的似然函数,并以最大化所述似然函数为目标,确定该目标网页的更新概率。
5.如权利要求2所述的方法,其特征在于,所述页面信息包含页面标题以及页面内容中的至少一种;
根据最近两次获取到的该目标网页的页面信息,分别确定各页面信息对应的页面特征,具体包括:
根据最近两次获取到的该目标网页的页面标题,确定各页面标题的哈希值;和/或
根据最近两次获取到的该目标网页的页面内容,确定各页面内容的内容特征;
根据最近两次获取到的各页面信息对应的页面特征,确定该目标网页的更新参数,具体包括:
根据各页面标题的哈希值以及各页面内容的内容特征中的至少一种,确定该目标网页的更新参数。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据该目标网页的更新参数,判断该目标网页是否发生变化;
若是,更新搜索引擎中的索引文件;
若否,不更新搜索引擎中的索引文件。
7.如权利要求1所述的方法,其特征在于,当获取并存储各目标网页的页面信息后,所述方法还包括:
继续确定最近一次获取的各目标网页以及未获取的各其它网页,以及确定并存储各目标网页的更新参数,根据各目标网页历史上存储的至少一个更新参数,确定各目标网页在单位时间内的更新概率,以根据各目标网页的更新概率以及页面评价指标、各其它网页的更新概率以及页面评价指标,重新确定待获取的各目标网页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110517593.9/1.html,转载请声明来源钻瓜专利网。