[发明专利]网页抓取方法和网页抓取服务器有效

专利信息
申请号: 200710198530.1 申请日: 2007-12-11
公开(公告)号: CN101178736A 公开(公告)日: 2008-05-14
发明(设计)人: 王为;纪宇 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京汇泽知识产权代理有限公司 代理人: 张若华
地址: 518044广东省深圳市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网页 抓取 方法 服务器
【说明书】:

技术领域

发明涉及信息处理技术领域,尤其涉及一种无线搜索网页转换系统中的网页抓取方法和网页抓取服务器。

背景技术

随着网络技术的发展,无线互联网技术也在迅速地发展,人们可以通过移动通信终端(例如移动电话、无线掌上电脑等)可以随时随地地与他人联系,同时随着通信资费的降低以及3G技术的推广,无线互联网将有极大的发展,并改变我们的生活方式。

目前互联网上存在最多的资源是网页,但是这些网页是专为个人计算机(PC)设计的超文本标记语言(HTML,HyperText Markup Language)格式,由于移动通信终端屏幕大小、处理能力和网络带宽的限制,这些网页无法直接在移动通信终端上进行浏览,针对这种情况,目前设计了一种无线标记语言(WML,Wireless Markup Language)格式的标记语言,用于撰写在移动通信终端上能够显示的网页。

无线互联网的用户也存在搜索信息的需求,因此,需要提供一个类似于PC上的搜索引擎来帮助用户搜索信息,由于目前HTML网页数量远远大于WML网页数量,用户搜索的结果大部分是存在于HTML网页中,因此目前出现了一种无线搜索网页转换系统,能够自动将HTML网页转换成WML网页,供无线互联网用户直接在移动通信终端上进行浏览。

无线搜索网页转换系统包括网页抓取服务器、转换服务器、和存储服务器。其基本处理过程是网页抓取服务器先获取移动通信终端用户的请求,分离出原始的HTML网页地址,之后将自动抓取该HTML网页,交给转换服务器进行解析,转换成WML网页,并将所述WML网页存储到存储服务器中,供移动通信终端访问查找。

对于网页抓取服务器如何抓取HTML网页,现有的技术方案如下:

利用标准模板库(STL,Standard Template Library)中的Map数据结构作为缓存,该缓存用于存储URL对象,一个URL对象的关键字为网页URL的信息摘要算法(MD5,Messsage-Digest algorithm 5)值,取值为网页的抓取时间。同时,统一设定网页的抓取时间间隔的时间阈值,例如通常设置为10分钟。

移动通信终端通过无线搜索引擎搜索到相应的网页,当用户点击搜索结果后,移动通信终端将对应的网页请求发送到无线搜索网页转换系统,无线搜索网页转换系统收到网页请求后,分离出所请求网页的URL地址,并计算出该URL地址的MD5值,以该MD5值为关键字,当前时间为值,在网页抓取服务器的缓存中进行查找,如果存在相同关键字的URL对象,则查询这个URL对象的抓取时间,并与当前时间进行比较,如果两者差大于或等于所述设定的时间阈值,则改写缓存中的这个URL对象,即将该URL对象的值更新为当前时间,并重新抓取该URL对象的网页,并由转换服务器转换成WML网页存入存储服务器;如果两者差小于所述设定的时间阈值,则表示无需重新抓取该网页,网页抓取服务器会直接丢弃所述网页请求,由所述存储服务器向发起请求的移动通信终端返回目前存储的该URL对象对应的WML网页。

上述现有技术存在以下的缺点:

现有技术对所有类型的网页只设定一个网页抓取间隔的时间阈值,不能灵活适应不同类型网页的更新情况,假设如果设置时间阈值为10分钟,那么对于某些更新频繁的网页,例如论坛、评论之类的网页,10分钟的抓取时间间隔过长;反之,对于那些更新频率非常低的网页类型,例如新闻网页,很可能发布之后就不会更新了,但是目前系统无法适应这种情况,还是要每隔10分钟去重新抓取一次网页。当网页的抓取间隔超过设定的时间阈值后,即该网页从缓存中过期后,并不能代表该网页内容已经做了更新,需要重新抓取,然而事实上,互联网上大部分网页的更新周期都比较长。

因此,现有技术的无线搜索网页转换系统无法适应网页更新周期长的这种情况,造成重复抓取了很多并没有进行内容更新的网页,加重了网页抓取服务器的负担,占用了过多的网络带宽资源,并且抓取网页的效率较低。

发明内容

有鉴于此,本发明所要解决的技术问题在于提供一种网页抓取方法,以减轻网页抓取服务器的负担,减少对网络带宽资源的占用,提高网页抓取的效率。

本发明所要解决的另一技术问题在于提供一种网页抓取服务器,以减轻自身系统的负担,减少对网络带宽资源的占用,提高网页抓取的效率。

为了实现上述发明目的,本发明的主要技术方案为:

一种网页抓取方法,包括:

A、接收网页请求;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710198530.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top