[发明专利]时效性种子页的抓取方法及装置在审
申请号: | 201310637281.7 | 申请日: | 2013-12-02 |
公开(公告)号: | CN103631919A | 公开(公告)日: | 2014-03-12 |
发明(设计)人: | 魏少俊 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市浩天知识产权代理事务所 11276 | 代理人: | 宋菲;刘云贵 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时效性 种子 抓取 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,具体涉及一种时效性种子页的抓取方法及装置。
背景技术
互联网总是在不断产生新的内容,比如新闻、各种热门的讨论等等。这些新内容分散在互联网不同的角落,搜索引擎为了能及时对它们提供检索,需要从浩如烟海的互联网上及时把它们找到并抓取回来。幸运的是,指向时效性内容的链接几乎总是在一类特定的页面上出现,这类页面叫做时效性种子页(简称hub页),比如http://news.sina.com.cn/。所以理论上只需要找到这些hub页,然后及时检查它们的变化,便能把时效性链接全部找到。
hub页面的内容是在不断变化的,新链接出现一段时间后就很可能会消失。像论坛的版面,滚动非常快,新帖子要不了多久就沉下去了。如果不能及时发现它们的变化,就会导致新链接丢失。但是每检查一次页面,就需要发起一次抓取,假如搜索引擎不停地检查这类页面,则会对所属网站产生大量抓取。这种大量的抓取在很多情况下未必能发现新链接,造成大量无意义抓取,而且也是一种很不礼貌的行为,甚至会触发网站对搜索引擎爬虫的封禁,导致一段时间内爬虫无法访问网站。
因此,既保证时效性新链接不丢失,又不会过度对网站进行访问,这是搜索引擎爬虫在时效性链接发现问题上期望达到的目标。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的时效性种子页的抓取装置和相应的抓取方法。
根据本发明的一个方面,提供了一种时效性种子页的抓取方法,包括:对于一时效性种子页,获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子;确定与所述当前预设时间段存在对应关系的历史预设时间段的抓取频率;基于所述频率调整因子计算频率调整系数;根据所述抓取频率以及所述频率调整系数,动态调整所述当前预设时间段的抓取频率。
可选地,所述获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子具体为:对于发起的一次抓取,根据该次抓取是否发现新链接的结果确定该次抓取对应的频率调整因子。
可选地,所述对于发起的一次抓取,根据该次抓取是否发现新链接的结果确定该次抓取对应的频率调整因子具体包括:如果该次抓取发现新链接,则确定该次抓取对应的频率调整因子为大于1的第一预定值;如果该次抓取没有发现新链接,则确定该次抓取对应的频率调整因子为小于1的第二预定值。
可选地,所述获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子具体为:对于发起的一次抓取,根据该次抓取之前一段预设时间内发现新链接的次数与发起抓取的次数的比率确定该次抓取对应的频率调整因子。
可选地,所述当前预设时间段内对所述种子页已经发起的抓取次数为n;所述基于所述频率调整因子计算频率调整系数具体为:计算n次抓取对应的频率调整因子的乘积作为所述频率调整系数。
可选地,所述根据所述抓取频率以及所述频率调整系数,动态调整所述当前预设时间段的抓取频率具体为:将所述抓取频率与所述频率调整系数的乘积作为动态调整后的所述当前预设时间段的抓取频率。
可选地,该方法还包括:如果所述历史预设时间段的抓取频率为无效值,则根据与所述历史预设时间段相邻的预设时间段的抓取频率和所述频率调整系数,动态调整所述当前预设时间段的抓取频率。
可选地,该方法进一步包括:基于动态调整后的抓取频率在当前预设时间段中对种子页进行抓取。
根据本发明的另一方面,提供了一种时效性种子页的抓取装置,包括:获取模块,用于对于一时效性种子页,获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子;抓取频率确定模块,用于确定所述当前预设时间段存在对应关系的历史预设时间段的抓取频率;计算模块,用于基于所述频率调整因子计算频率调整系数;调整模块,用于根据所述抓取频率以及所述频率调整系数,动态调整所述当前预设时间段的抓取频率。
可选地,所述获取模块具体用于:对于发起的一次抓取,根据该次抓取是否发现新链接的结果确定该次抓取对应的频率调整因子。
可选地,所述获取模块进一步用于:如果该次抓取发现新链接,则确定该次抓取对应的频率调整因子为大于1的第一预定值;如果该次抓取没有发现新链接,则确定该次抓取对应的频率调整因子为小于1的第二预定值。
可选地,所述获取模块具体用于:对于发起的一次抓取,根据该次抓取之前一段预设时间内发现新链接的次数与发起抓取的次数的比率确定该次抓取对应的频率调整因子。
可选地,所述当前预设时间段内对所述种子页已经发起的抓取次数为n;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310637281.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种后浇带止水装置
- 下一篇:一种中压开关设备操作孔遮挡装置