[发明专利]基于稀疏隧道的主题网页爬取方法无效
| 申请号: | 201010196540.3 | 申请日: | 2010-06-08 |
| 公开(公告)号: | CN101872357A | 公开(公告)日: | 2010-10-27 |
| 发明(设计)人: | 林怀忠;蒋雨倩 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
| 地址: | 310027 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 稀疏 隧道 主题 网页 方法 | ||
技术领域
本发明涉及一种基于稀疏隧道的主题网页爬取方法。
背景技术
垂直搜索引擎时针对某一个行业的专业搜索引擎,相比较通用搜索引擎的海量信息无序化,其特点就是专、精、深。通用搜索引擎的目标是要发现和下载尽可能多的网页,以使搜索引擎能回答更多的用户查询,因此通用网络蜘蛛(Generic Crawler)在技术上采用了宽度优先或深度优优先的搜索策略,使网络蜘蛛有更广的覆盖面。
专业网络蜘蛛(Focused Crawler)是与通用网络蜘蛛相对的一个概念,专业网络蜘蛛只抓取与主题相关的网页,忽视那些与主题无关的网页。它的优点在于不用遍历整个网络就可以找到尽可能多与主题相关的网页。但是,专业网络蜘蛛也存在着问题,由于它使用的最佳优先算法是一种局部最优算法,只能收集到初始爬取网址周边的一些相关网页,还有很大一部分相关的网页无法通过该方法搜索到。特别是由于网络社区的存在,使得这种问题更加复杂严重。
Bergmark提出了隧道技术来解决上述问题,隧道技术是一种启发式的全局最优算法,使用隧道技术的网络蜘蛛在碰到不相关的网页时,不是立即停止,而继续往这个路径上向前探索K步,K的大小由人工设定。这样就允许专业网络蜘蛛从一个网络社区跳到另外一个网络社区,尽管两个网络社区之间没有直接的链接关系。如果两个网络社区之间的距离不大的前提下,就可能发现Web中所有与主题相关的网页。隧道技术还有一个优点在于初始爬取网址中的网页不要求是主题相关的,专业网络蜘蛛会穿过若干不相关的网页,最终找到相关的网页,这种优势在高质量的初始爬取网址收集工作有一定难度的场合下是比较受欢迎的。当然初始爬取网址与主题相关会减少这种无谓的穿越,相应地提高网络蜘蛛的性能。
但是,隧道技术在扩大搜索范围从而提高网络社区发现概率的同时,也引进了“噪音”。隧道技术原理,可以形象地理解为网络蜘蛛扩大了探索范围,也就是说,网络蜘蛛以初始爬取网址和相关网页为圆心,以K为半径的圆周范围中探索其它的网络社区,随着半径K的增大,发现其它网络社区的概率也在增大,探索到相关网页的概率也相应增大,同时增大的还有大量无关网页的下载,需要处理的无关网页的以指数递增,极大地降低了网络蜘蛛的效率,增加了网络的负载和本地的负担。
为了解决这个问题,本文对隧道技术进行了改进,提出了一种基于稀疏隧道的主题网页爬取方法,该方法在隧道技术的基础上,建立网络社区黑名单,网络社区黑名单避免网络蜘蛛陷入到无关网络社区中去探索资源,同时对探索的方向和数量进行控制,使得专业网络蜘蛛能够在整个Web中有选择性地探索未知网页,从而在保证网页质量的前提下有效地提高了网络蜘蛛的效率。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于稀疏隧道的主题网页爬取方法。
基于稀疏隧道的主题网页爬取方法包括以下步骤:
1)从存放初始爬取网址的队列开始,对队列中的网址的主题相关度进行预测,并根据预测值的高低进行调度,预测值高的网址具有更高的优先权,爬虫按照优先权的高低顺序下载网址所指定的网页;
2)从所指定的网页中提取网址,判别网址是否指向网络社区黑名单中的某个站点,若是,则放弃该网址;
3)对于没有指向网络社区黑名单中站点的网址,计算该网址的穿越步长,穿越步长是一个整数,代表了主题相关的最近的祖先网页到本网页长度,判断该穿越步长是否超过一个指定的步长阈值K,K为1~30,如果超过步长阈值K,表明已经穿越了连续K个不相关的网页,应该放弃这条路径,则放弃该网址;
4)将路径没有超过步长阈值K的网址分为两部分,一部分是指向主题相关的网络社区,对应网址的穿越步长为0,另一部分则是指向未知类型的网络社区,对应网址的穿越步长大于等于1。将指向主题相关的网络社区的网址直接放入队列中;对于指向未知类型的网络社区的网址,计算在队列中与该网址具有相同站点的网址数,限定该网址数不能超过一个数量阈值R,R为15,超过数量阈值R的放弃该网址,没有超过数量阈值R的将该网址放入队列中;
5)从队列中取出主题相关度值最高的网址,下载指定的网页,并重复步骤2)~步骤5),直到队列为空。
所述的网络社区黑名单的建立方法为:如果指向某些网络社区的无关网页数量超过预先设定的数值P,P为20,则将该网络社区放入黑名单中,同时将一些非常明显的不相关站点手工加入到网络社区黑名单中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010196540.3/2.html,转载请声明来源钻瓜专利网。





