[发明专利]网页收集的方法及其系统有效
| 申请号: | 200810111298.8 | 申请日: | 2008-06-13 |
| 公开(公告)号: | CN101303700A | 公开(公告)日: | 2008-11-12 |
| 发明(设计)人: | 辛阳;雷宇;李娜;刘利锋 | 申请(专利权)人: | 华为技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
| 地址: | 518129广东省*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网页 收集 方法 及其 系统 | ||
技术领域
本发明涉及网络通信技术领域,特别涉及一种网页收集的方法及其系统。
背景技术
网页收集功能作为网络搜索引擎、URL分类系统、数据挖掘系统等必不可缺的系统中首要的功能,强大完备的网页收集功能是各类系统能够提供丰富全面准确信息的基础。
据不完全估计,目前全世界数亿张网页,近亿的站点,要收录如此大数量级的网页数据并且及时地进行更新,这将是一项非常艰巨的任务。近年来,国内外的网页搜索引擎先后成为大家上网时广泛使用的搜索工具,这类工具的背后大都有一个功能强大的网页收集系统(WC,Web Crawler)。对互联网上的各个站点的页面进行获取和分析,需要海量数据的录入才能保证提供翔实的搜索结果,网页收集系统一般都是以指定的统一资源定为符(URL,Uniform ResourceLocator)为入口,通过超文本传输协议(HTTP,Hyper Text Transfer Protocol)请求,获取该页面的超文本标记语言(HTML,Hyper Text Markup Language)代码,然后将该页面中的超链接等信息进行提取,获得更多的URL,然后以提取出的URL为获取目标,获取该URL指定的网络资源,通过循环上述过程,不断地获取收录网页代码。并且为了提高效率,尽量的要求系统能够不重复的获取网页,减少资源消耗。获取网页的功能可以分为域名服务系统(DNS,DomainName System)请求部分和页面代码获取部分,当对一个URL中的主机(host)获取之后,即可发起DNS请求,得到正确的回复之后,就可以通过HTTP协议,获取该URL指向的资源。
目前的分布式网页收集系统比较多,其中比较常用的一种就是分布式元收集系统,该系统拥有多个单个的网页收集引擎,中心引擎是将这些分布的单个的引擎的结果结合在一起而得到最终的结果。该系统要求各个单元的收集引擎拥有相同的排序算法和基本相同的数据输出结构,以便由中心引擎进行综合整理。因此,对中心引擎的抗压能力要求很高,对于大规模的并发情况不能很好的解决。且中心引擎的更新效率较低,各个元引擎的信息源容易不稳定或过分单一,影响整体的收录效率。
在进行本发明创造过程中,发明人发现现有技术中至少存在如下问题:现有技术提供的网页收集方案,由于中心引擎的更新效率较低,各个元引擎的信息源容易不稳定或过分单一,影响整体的收录效率,因此,网页收集效率较低。
发明内容
本发明实施例提供一种网页收集的方法及其系统,能够提高网页收集的运转效率。
本发明实施例提供一种网页收集的方法,其包括:
从URL数据库中逐条获取URL,并根据URL获得对应的host名;
根据所述host名,进行DNS请求,对DNS请求的结果进行管理,所述管理包括将请求成功的DNS请求结果保存在DNS数据库中;
进行域名服务系统DNS请求的同时,根据所述DNS数据库中DNS请求成功的URL,进行页面获取。
本发明实施例还提供一种网页收集的系统,其包括:
URL输入控制台,用于从URL数据库中逐条获取URL,并根据URL解析对应的host名;
DNS请求处理装置,用于根据所述host名,进行DNS请求,对DNS请求的结果进行管理,所述管理包括将请求成功的DNS请求结果保存在DNS数据库中,并发送所述DNS数据库中请求成功的DNS请求的URL;
网页获取处理装置,用于在所述DNS请求处理装置进行DNS请求的同时,根据从DNS请求处理装置接收到的DNS请求成功的URL,进行页面获取。
通过本发明实施例提供的网页收集的方法及其系统,DNS请求和页面获取分别同时进行,因此当获取页面代码时,也在不断的进行DNS请求,从而提高了网页收集的运转效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明网页收集的方法一个实施例的流程图;
图2为本发明网页收集的系统一个实施例的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施方式,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
请参照图1,为本发明网页收集的方法一个实施例的流程图,其具体过程包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810111298.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种预应力砼箱梁液压内模车及液压内模系统
- 下一篇:恶意代码检测方法及系统





