[发明专利]基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法无效

专利信息
申请号: 201210034195.2 申请日: 2012-02-15
公开(公告)号: CN102591992A 公开(公告)日: 2012-07-18
发明(设计)人: 曹武龙;王国圃 申请(专利权)人: 苏州亚新丰信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 苏州创元专利商标事务所有限公司 32103 代理人: 范晴
地址: 215123 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 垂直 搜索 聚焦 爬虫 技术 网页 分类 识别 系统 方法
【说明书】:

技术领域

发明属于网页搜索引擎技术领域,具体涉及一种基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法。

背景技术

随着信息的不断膨胀,人们越来越离不开搜索引擎。百度、谷歌等通用搜索引擎虽然给人们提供了很多便利,但是随着人们需求的多样化和对搜索结果质量的要求越来越高,通用搜索引擎在一些专门化的领域已经不能满足人们的要求,于是垂直搜索就应运而生,它是服务于局部专业领域的精确搜索技术,更加专业,返回的结果更具有针对性,通过特定行业主题的领域知识,可以提供根据语义信息的查询,从而能满足用户的特殊搜索需求。

随着垂直搜索引擎的日益流行,作为垂直搜索引擎的关键技术一聚焦爬虫也显得越来越重要。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择地访问万维网上的网页与相关的链接,获取所需要的信息。

针对垂直搜索和聚焦爬虫技术的网页分类识别具备一定的难度,有如下原因:第一、聚焦爬虫很难判断如何从待爬行URL队列中挑出最可能包含主题相关信息的网页进行爬行。第二、现在许多开源爬虫系统不具备从抓取的网页中定向提取网页结构化信息的功能。第三、同一网页的内容和结构常有变化,聚焦爬虫的重访策略很难适应这一变化。由上可见,采用传统开源的聚焦爬虫技术很难准确的识别不同类别的网页。因此,必须另辟蹊径。本发明因此而来。

发明内容

本发明目的在于提供一种基于垂直搜索和聚焦爬虫技术的网页分类识别系统,针对导航类网站建立一种基于垂直搜索和聚焦爬虫技术的网页分类识别方法,并设计其识别模型和算法,通过对导航类网站的识别,获取导航类网站中不同分类的URL,便于用户对网站的精确搜索,同时能给出未知URL所属的网页分类。

为了解决现有技术中的这些问题,本发明提供的技术方案是:

一种基于垂直搜索和聚焦爬虫技术的网页分类识别系统,其特征在于所述系统包括应用表示模块、数据采集模块和内容解析模块,所述数据采集模块通过Web协议完成对网页数据的采集,然后将采集到的页面数据交给内容解析模块;所述内容解析模块根据数据采集模块采集的页面数据进行HTML解析,提取页面中的超链接,将超链接加入到URL队列中,得到网址类别和URL的对应关系表;所述应用表示模块接受用户输入关键字进行搜索,将搜索到的特定领域的网址和/或所属的网址类别结果反馈给用户。

优选的,所述系统设置在聚焦爬虫进程和Internet网络之间,所述聚焦爬虫进程按照规则自动的抓取Internet网络的导航站点信息。

本发明的另一目的在于提供一种采用所述系统进行网页分类识别方法,其特征在于所述方法包括以下步骤:

(1)创建聚焦爬虫进程,聚焦爬虫进程读取预设网址导航站点的URL列表;

(2)数据采集模块从URL列表上取出需要进行数据采集的站点URL,对取得的URL进行网页源码获取;内容解析模块利用垂直搜索技术和聚焦爬虫技术对网页内容解析,获取此站点下的网页类别信息及各个网页类别中对应的网址信息,并将网页类别信息及各个网页类别中对应的网址信息加入到Category列表中;依次循环直至URL列表全部遍历;所述Category列表存储已经识别的URL和其隶属的网址类别。

优选的,于所述方法步骤(2)当URL列表为空,则遍历直接结束。

优选的,所述方法步骤(2)当数据采集模块从URL列表上取出需要进行数据采集的站点URL后,数据采集模块先将需要进行数据采集的站点URL放入未访问URL列表中,当未访问URL列表非空时,从未访问URL列表取出一URL,并对取得的URL进行网页源码获取,并通过内容解析模块对网页源码进行解析,并将该URL加入到已访问URL列表中,并从未访问URL列表中删除该URL。

优选的,所述方法步骤(2)中当未访问URL列表为空时,通知聚焦爬虫进程读取预设网址导航站点的URL列表。

优选的,所述方法中当从未访问URL列表取出的URL已经访问过,则继续访问未访问URL列表的下一URL。

优选的,所述方法步骤(2)内容解析模块进行内容解析的步骤包括:

A1)聚焦爬虫进程抓取取得的URL的网页源文件,然后根据正则表达式定时学习器模式学习得到的网页结构特征利用正则表达式抽取网页的结构化信息;

A2)使用正则表达式从网页的结构化信息中提取符合网址分类信息的新链接;并将新链接加入URL队列中;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州亚新丰信息技术有限公司,未经苏州亚新丰信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210034195.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top