[发明专利]基于锚文本上下文和链接分析的主题抓取方法有效
申请号: | 201410128171.2 | 申请日: | 2014-04-01 |
公开(公告)号: | CN103914538B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 郑小林;陈德人;林臻;郭华 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州中成专利事务所有限公司33212 | 代理人: | 周世骏 |
地址: | 310027 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 上下文 链接 分析 主题 抓取 方法 | ||
技术领域
本发明是关于互联网搜索技术,特别涉及基于锚文本上下文和链接分析的主题抓取方法。
背景技术
随着互联网的飞速发展,各种互联网产品层出不穷,社交网络,即时通讯,网络购物,个人博客,垂直社区等等,这些产品改变了以往人们获取信息的方式。尤其是web2.0时代的到来,使得人人都是信息的产生者。CNNIC发布的《第31次中国互联网络发展状况统计报告》显示,中国的互联网普及率超过四成,网民已经达到5.64亿。
网络上的信息也在爆炸性的增长,根据研究显示,在21世纪初,Google索引的网页为20亿,而当时网络的规模为40亿到100亿左右。网页的增长速度显然远远超过了搜索引擎索引的速度,这就导致了很多网页根本不会通过搜索引擎呈现给大家。
Google或白度等搜索引擎是大家获取网络的资源的主要入口,但研究显示,通用性的搜索引擎存在一定的局限性:
a)不同领域、不同背景的用户往往其有不同的检索目的和需求,通用搜索擎所返回的结果包含大量用户不关心的网页。
h)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。
c)万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含密集且具有一定结构的数据无能为力,不能很好地发现和获取。
d)通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。
用户在搜索的时候,往往出发点是某一个主题领域的信息,而通用搜索引擎会返回大量无关的主题内的信息,这样就导致用户查的信息的准确率和召回率都偏低。为了解决这个问题,大量的垂直搜索引擎应运而生。而主题爬虫是这些主题搜索的基础和关键部分,直接决定了主题搜索的广度和深度,具有很高的研究价值和实际意义。
主题爬虫是一种根据已知主题而爬行下载与其相关页面的程序。与通用网络爬虫不同的是,主题爬虫并不试图抓取互联网上尽可能多的网页,而是试图尽可能多地抓取与主题相关网页。因此主题爬行策略是最为关键的一个研究热点,主题爬虫抓取与用户主题相关的网页的同时尽可能少的遍历不相关的网页,使搜索的范围下幅度缩小,提高资源的利用率。
主题爬虫与通用爬虫最主要的区别在于主题爬虫需要判断抓取到的网页是否属于某个主题,并且需要预测通过哪个url更加可能获取主题相关的网页。从逻辑上来看,主题爬虫主要是多了两个判别过程:文档是否属于主题领域和待抓取的哪个URL更加可能贴近主题。
Chakrabarti等人首先提出了主题爬虫的概念,之后各国学者对主题爬虫的研究越来越多,经过多年的发展,已经有了大批的研究成果。按照主题判断策略,主要可以分为三类:根据网页内容进行判断的主题爬虫;根据链接结构进行判断的主题爬虫:根据锚文本和超链接进行判断的主题爬虫。不管哪一类主题爬虫,均使用了文本分类方法对主题进行识别。
根据网页内容进行判断的主题爬虫:这是最直观最简单的思路,由Chakrabarti等人提出,需要在爬虫的运行过程中把下载器下来的网页进行主题相似度的评分,评分使用朴素贝叶斯分类器,计算出的分数作为网页中的URL的优先级分数,调度器根据这个分数进行调度,于是那些与主题相似度高的网页中抽取出的URL会被优先抓取。
根据Gyongyi等的研究,仅仅根据网页内容进行判断会使爬虫很容易被垃圾信息干扰,并且对每个网页进行分类也非常耗赀计算资源。随着研究的进行,链接上下文的信息,也就是锚文本,被考虑了进来,以帮助快速合理的进行决策。
根据锚文本和超链接进行判断的主题爬虫:这个方面最具代表性的就是llersovici等提出的Shark Scarch算法,它由Dc等提出的Fish Scarch算法发展而来。Fi sh Scarch算法把网页的抓取看作是鱼的觅食和繁衍过程,大体思路如下,每个URL用一条鱼代表,假如这个URL的网页跟主题相关,那么鱼就会觅食和并繁衍下一代(此页面包含的URL),假如URL跟主题不相关,鱼不能觅食,于是就被饿死,这种算法使用二值判断来划分,Shark Search算法对其进行了改进,根据三个因子对子节点进行模糊评分:链接文本,链接上下文和对父节点的相关性的继承。但是这种算法没有利用网页的结构特征,链接上下文区分不够合理,没有使用链接分析网页质量等,根据苏等的研究,算法会导致同一个网页的子链接相关度区分不明显。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410128171.2/2.html,转载请声明来源钻瓜专利网。