[发明专利]一种索引页更新方法及装置有效
申请号: | 201010165297.9 | 申请日: | 2010-04-29 |
公开(公告)号: | CN102236674A | 公开(公告)日: | 2011-11-09 |
发明(设计)人: | 邓大付;颜俊伟;薛晶晶;文杰 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州三环专利代理有限公司 44202 | 代理人: | 郝传鑫;潘中毅 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 索引 更新 方法 装置 | ||
1.一种索引页更新方法,其特征在于:
根据预设的周期,从索引页数据库读取索引页的相关信息,所述索引页的相关信息包括:索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种;
根据所述相关信息,判断所述索引页当前是否需要更新;
当所述判断结果为是时,根据所述相关信息更新所述索引页。
2.如权利要求1所述的方法,其特征在于,所述根据所述相关信息,判断所述索引页当前是否需要更新,包括:
根据所述相关信息,计算当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内所述索引页的页面变化概率的累积概率;
判断所述累积概率是否大于1;
当所述判断结果为是时,判定所述索引页当前需要更新。
3.如权利要求2所述的方法,其特征在于,所述根据所述相关信息更新所述索引页,包括:
根据所述索引页的url,从网络中抓取所述url对应的网页源内容;
对所述抓取的网页源内容进行抽取分析,获得新的索引页的主要内容,所述主要内容包括所述新的索引页的文本信息和链接。
4.如权利要求3所述的方法,其特征在于,所述根据所述相关信息更新所述索引页之后,还包括:
根据所述新的索引页的主要内容,计算所述新的索引页的页面指纹;
判断所述计算得到的新的索引页的页面指纹和从所述索引页数据库读取的所述索引页的页面指纹是否相同;
如果判断结果为是,则将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别下调;
如果判断结果为否,则将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别上调,并用所述新的索引页的页面指纹替换所述索引页数据库内的所述索引页的页面指纹。
5.如权利要求1-4任一项所述的方法,其特征在于,所述根据预设的周期,从索引页数据库读取索引页的相关信息之前,还包括:
预先设定索引页数据库的访问周期,所述索引页数据库包括:多个索引页以及各索引页的相关信息;
预先将一天分为多个预设时间段;
预先设定索引页在所述各个预设时间段内的页面变化概率。
6.一种索引页更新装置,其特征在于,包括:
调度模块,用于根据预设的周期,从索引页数据库读取索引页的相关信息,并根据所述相关信息,判断所述索引页当前是否需要更新;
更新模块,用于当所述调度模块判断结果为是时,根据所述相关信息更新所述索引页。
7.如权利要求6所述的装置,其特征在于,所述调度模块包括:
读取单元,用于根据预设的周期,从索引页数据库读取索引页的相关信息,所述索引页的相关信息包括:索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种;
计算单元,用于根据所述读取单元读取的相关信息,计算当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内所述索引页的页面变化概率的累积概率;
第一判断单元,用于判断所述计算单元计算的所述累积概率是否大于1;
更新判定单元,用于当所述第一判断单元判断结果为是时,判定所述索引页当前需要更新。
8.如权利要求7所述的装置,其特征在于,所述更新模块包括:
抓取单元,用于根据所述调度模块读取的所述索引页的url,从网络中抓取所述url对应的网页源内容;
抽取单元,用于对所述抓取单元抓取的网页源内容进行抽取分析,获得新的索引页的主要内容,所述主要内容包括所述新的索引页的文本信息和链接。
9.如权利要求8所述的装置,其特征在于,还包括:
回写模块,用于计算所述更新模块更新后的新的索引页的页面指纹,对比所述调度模块读取的所述索引页的页面指纹,根据所述对比的结果调整所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010165297.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:Ka波段混频器盒
- 下一篇:一种信息的分类方法和装置