[发明专利]一种索引页更新方法及装置有效
申请号: | 201010165297.9 | 申请日: | 2010-04-29 |
公开(公告)号: | CN102236674A | 公开(公告)日: | 2011-11-09 |
发明(设计)人: | 邓大付;颜俊伟;薛晶晶;文杰 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州三环专利代理有限公司 44202 | 代理人: | 郝传鑫;潘中毅 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 索引 更新 方法 装置 | ||
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种索引页更新方法及装置。
背景技术
互联网上的网页,分为索引页和信息页。索引页,指网站内不断发布新内容(新链接)的页面,比如:新闻频道首页、体育频道首页、论坛版的页面、博客日志列表页等。信息页,指包括文本信息的页面,比如:点击新闻频道首页的某链接而打开的页面、点击体育频道首页的某链接而打开的页面、点击博客日志列表页中某列表而打开的某日志的页面等。
搜索引擎(search engine)指根据一定的策略,运用特定的计算机程序搜集互联网上的信息,对信息进行组织和处理后,将处理后的信息显示给用户,并为用户提供检索服务。搜索引擎发现互联网上出现的新页面的主要途径即是对索引页的更新,当搜索引擎预测到索引页发生变化时,及时从互联网上获取新内容以更新索引页,并提供给用户检索。
现有通过搜索引擎对索引页更新的方案主要有两种:
其一为:搜索引擎根据经验或统计,将索引页数据库内的各个索引页分别预先设定更新频率的简单分级,比如:一分钟一次、一小时一次、一天一次、一星期一次等多个级别,每个索引页分别按各自的更新频率进行更新。这种更新方法采用固定频率更新方式,由于索引页的变化是动态的,比如:某索引页可能一段时间更新变快或忽然变慢,采用固定频率更新的方式显然不符合对动态变化的索引页的更新,降低了用户体验。
其二为:搜索引擎预先为每个索引页设定一个更新频率序列,比如为某索引页预设等比的更新频率序列:5分钟、10分钟、20分钟、40分钟、80分钟、160分钟、320分钟......,第一次更新该索引页时采用一个默认级别,比如160分钟,当本次更新索引页后,将更新得到的索引页内容与上次的内容对比,如果页面有变化,则将更新频率调整为80分钟,如果页面没有变化,则将更新频率调整为320分钟。这种更新方法采用动态调整更新频率的方式,对于变化频率较低,比如:一天变化一次的索引页,或者在一天内变化频率比较均匀的索引页,其更新效果较好,可以比较精确的预测索引变化的时间点。
上述的索引页的更新方案都是基于频率的,发明人在实施本发明的过程中发现,现有的基于频率的索引页的更新方案主要存在以下缺陷:
1、存在更新时延,时效性差。现有的方案并不适用于一天内变化频率较高,且在不同时间段变化频率有明显变化的索引页的更新。比如:大部分新闻频道首页上午变化很快,但夜间基本不变化,采用现有的方案,由于在夜间长期探测到页面没有变化,多次探测以后,搜索引擎会将这个新闻频道首页的更新频率下调到很低,比如:几个小时才更新一次,第二天上午再更新这个新闻频道首页时,可能已经产生了几个小时的时延,甚至可能更早时发布的新闻已经从该新闻频道的首页上撤下,搜索引擎无法发现这个新闻,从而造成了更新时延,降低了搜索引擎的收录时效性,同时降低了用户体验;
2、耗费资源。如1所述,大部分索引页白天变化频繁,夜间基本不变化;由于在白天探测到页面频繁变化,多次探测后,搜索引擎会将这个索引页的更新频率上调到很高,比如:几分钟就更新一次,到夜晚时,索引页基本未变化,但依然会根据该频率进行多次更新,造成搜索引擎的资源浪费,降低了对索引页变化时间点的探测精确度。
发明内容
本发明的目的在于,提供一种索引页更新方法及装置,采用基于概率和分时间段的更新方案,能够精确预测索引页变化时间点,减少更新时延,提高时效性,提高用户体验。
为了实现上述目的,本发明实施例提供了一种索引页更新方法,包括:
根据预设的周期,从索引页数据库读取索引页的相关信息,所述索引页的相关信息包括:索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种;
根据所述相关信息,判断所述索引页当前是否需要更新;
当所述判断结果为是时,根据所述相关信息更新所述索引页。
优选地,所述根据所述相关信息,判断所述索引页当前是否需要更新,包括:
根据所述相关信息,计算当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内所述索引页的页面变化概率的累积概率;
判断所述累积概率是否大于1;
当所述判断结果为是时,判定所述索引页当前需要更新。
优选地,所述根据所述相关信息更新所述索引页,包括:
根据所述索引页的url,从网络中抓取所述url对应的网页源内容;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010165297.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:Ka波段混频器盒
- 下一篇:一种信息的分类方法和装置