[发明专利]基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法在审
申请号: | 201611247621.5 | 申请日: | 2016-12-29 |
公开(公告)号: | CN106649823A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 掌明;卢艳宏;杨瑞;樊纪山;王经卓;宋永献;孙巧榆;张金学;洪露 | 申请(专利权)人: | 淮海工学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市领专知识产权代理有限公司11590 | 代理人: | 林辉轮 |
地址: | 222005 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 综合 主题词 垂直 搜索 聚焦 爬虫 网页 分类 识别 方法 | ||
技术领域
本发明涉及网页搜索引擎技术领域,具体的涉及一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法。
背景技术
随着垂直搜索引擎的日益流行,作为垂直搜索引擎的关键技术—聚焦爬虫也显得越来越重要。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择地访问万维网上的网页与相关的链接,获取所需要的信息;爬虫最主要的处理对象就是URL,它根据URL地址取得所需要的文件内容,然后对它进行进一步的处理。
随着互联网的快速增长,网络上的信息量也在呈爆炸性的呈现,人们特别关注如何在海量的信息中获取有效的信息,通用搜索引擎给人们提供了很多的便利,但无法满足个性化、多样化和精确化的需求,所以垂直搜索的出现受到了普遍关注,它搜索某一个特定行业或者主题的信息,针对性和目的性更强;通过主题词来提供语义信息查询,能满足特定用户的特殊需求;它更加专业,返回的结果也更具有针对性,使用很少的服务器资源可以覆盖某一特定行业、主题的数据。而聚焦爬虫作为垂直搜索的核心构件,根据指定的主题词访问互联网上相关的网页与链接,抓取需要的信息。
基本的垂直搜索和聚焦爬虫的网页分类识别方法包括下列步骤:
(1)输入待查询综合主题词;
(2)创建爬虫;
(3)读取预设网址导航站点的URL列表;
(4)判断URL列表是否为空,若为空,则转步骤(8);
(5)取出一个站点URL,将其放入未访问的URL列表(UVURL列表)中;
(6)判断UVURL列表是否为空,若为空,则转步骤(3);
(7)从UVURL列表中取出一个URL,根据表VURL判断此URL是否被访问过,若是,则转步骤(6);
(8)对取得的URL进行网页源码获取,利用垂直搜索技术和聚焦爬虫技术对网页内容解析,获取此站点下的网页类别信息及各个类别中对应的网址信息;
(9)将网页类别信息及各个类别中对应的网址信息加入到Category列表中;
(10)从表UVURL中删除URL,并将其添加到VURL中,转步骤(6);
(11)结束。
该方法存在一定的难度,有如下原因:聚焦爬虫很难从待爬行URL队列中选出与主题信息关系密切的爬行队列;网络爬虫在URL提取过程中,采用深度、宽度等搜索策略,容易产生“维数灾”问题;现有的很多开源爬虫系统从抓取的网页中获取结构化信息的功能较弱;现有的聚焦爬虫策略很难适应网页的内容和结构的动态变化。综上所述,传统的聚焦爬虫技术不同类别的网页识别率较低,必须另辟蹊径。
发明内容
1.要解决的技术问题
本发明要解决的技术问题在于提供一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法,通过对基于综合主题词的垂直搜索和聚焦爬虫技术研究,我们能够较好的解决下列问题:
(1)利用超链接价值和综合主题词相关性价值构建待爬行URL队列。
(2)能够根据用户特定的综合主题词的特殊搜索得到具有针对性的精准搜索结果。
(3)通过综合主题词垂直搜索和聚焦爬虫获取未知URL所属的网页类别。
2.技术方案
为解决上述问题,本发明采取如下技术方案:
通过对网站观察和分析发现如下规律:网站基本上由目录页面和内容页面组成,目录页面包含许多指向各种不同内容页面的链接,而内容页面则包括属于该页面内容的网站链接。属于同一类别的页面之间有着很强的相似性,即有相似的结构,可以通过正则表达式来获取页面的结构化信息。为了适应网页内容不定期的变化,更好的抽取页面特征的网页结构化信息,引入了URL正则表达式学习器来适应网页的动态变化和解决主题词孤岛问题,需要同时获取与主题词相关页面的URL正则表达式、与主题词相关的目录页面的正则表达式,只抓取和这两类正则表达式匹配的URL。与此同时本发明提出了基于综合主题词的定向深度优先搜索策略。
一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法,包括如下步骤:
(1)输入待查询综合主题词;
(2)创建爬虫;
(3)调用页面内容分析算法;
(4)读取网址搜索表Search;
(5)判断网址搜索表Search是否为空,若为空则转步骤(15);
(6)取出Search表中第一个URL,将其放入UVURL列表中;
(7)删除Search表中的第一个URL;
(8)判断UVURL列表是否为空,若为空则转步骤(4);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮海工学院,未经淮海工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611247621.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:茶几(BY188)
- 下一篇:一种行为预测方法和装置