[发明专利]一种动态脚本网站数据快速收集方法无效

专利信息
申请号: 200910090288.5 申请日: 2009-08-04
公开(公告)号: CN101625692A 公开(公告)日: 2010-01-13
发明(设计)人: 夏冰;高军;王腾蛟;杨冬青 申请(专利权)人: 北京大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京纪凯知识产权代理有限公司 代理人: 徐 宁;关 畅
地址: 100871北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 动态 脚本 网站 数据 快速 收集 方法
【说明书】:

技术领域

发明涉及一种网络数据收集方法,特别是关于一种动态脚本网站数据快速 收集方法。

背景技术

随着Web 2.0时代的到来,互联网越来越多地在服务器端和客户端采用了动 态脚本的方式进行交互。网页的内容,从以前的静态方式转变到从数据库中获取 数据动态生成。一方面,网页主页面下载到本地后还需要与服务器端再进行数次 交互才能获得全部的数据,如新浪博客的阅读数和评论数即为页面载入后再向服 务器发送请求获取的;另一方面,网页内容的链接很多也不再是传统的“<a>”标 签,而是使用了JavaScript的方式,如腾讯论坛、网易论坛等的翻页方式是采用 JavaScript来控制的。

爬虫是搜索引擎的第一步,也是对互联网数据分析的基础。传统爬虫对待现 有的网站存在先天不足的缺陷:主流搜索引擎对待动态脚本网站一般采取回避、 硬编码的方式和某些网站预留给搜索引擎接口的三种态度。有研究机构提出了模 拟用户行为依次点击页面所有的页面元素来进行抓取动态脚本网站的技术,但这 一方式速度很慢,不适合实际应用。

发明内容

针对上述问题,本发明的目的是提供一种可以只通过触发特定页面元素上的 特定事件,从而大幅减少了需要触发的事件数目,提高了动态脚本网站数据的收 集速度的动态脚本网站数据快速收集方法。

为实现上述目的,本发明采取以下技术方案:一种动态脚本网站数据快速收 集方法,其特征在于:它包括以下步骤:i)获取Index页面并保存,将Index页 面加入待处理队列;ii)判断所述待处理队列是否为空,若为空则表明抓取完成, 退出抓取过程;否则从所述待处理队列中任意选择一个页面,利用页面相似性得 到当前页面的类型,根据训练步骤中提取出的所述XPath路径特征,确定所述类 型需要触发哪些页面元素上的哪些事件;iii)判断所述当前页面是否有未触发过 的事件,若没有则跳转到步骤ii);否则触发事件,判断所述当前页面是否变化且 变化后的页面为新页面,若没有变化或非新页面则跳转到步骤v);否则继续执行 步骤iv);vi)保存所述新页面并将所述新页面加入到步骤i)中的待处理队列; v)回退到触发事件前的页面状态,并跳转到步骤iii)。

所述步骤ii)中,所述训练步骤包括:1)由人工给出各类型页面成训练样本 集合;2)判断所述训练样本集合是否为空,若为空则跳转到步骤5),否则从所述 训练样本集合中选择一个页面;3)判断当前页面上是否还有未触发过的事件,若 没有则跳转到步骤2);否则触发当前事件,记录当前事件的事件信息;4)回退到 触发事件前的页面状态,并跳转到步骤3);5)根据所述事件信息提取各类型页面 需触发事件的XPath路径特征及事件类型。

所述步骤3)中,所述当前页面的事件信息包括,事件类型、触发事件的页面 元素、页面是否变化、变化后页面是哪种类型。

所述步骤5)中,所述XPath路径特征的提取方法如下:被归约的XPath路径 经过的页面元素名称必须相同,对页面元素的序号进行归约。

本发明由于采取以上技术方案,其具有以下优点:1、本发明由于利用了页面 套用模板的相似性,因此能够预知在哪些页面元素上的点击等事件将导向什么性 质的页面,从而利用页面相似性得到的页面类型确定当前页面的类型需要触发哪 些页面元素上的哪些事件。2、本发明通过对导向需要页面的页面元素的XPath进 行归约,提取出其特征及事件类型,因此只触发特定页面元素上的特定事件,大 幅减少了模拟用户操作的次数,提高了动态脚本网站数据的收集速度。本发明可 应用于各种网络搜索引擎的网页抓取工作。

附图说明

图1是本发明的抓取数据之前的训练步骤流程示意图

图2是本发明的宽度优先的抓取方法步骤流程示意图

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

针对于现有技术中对待动态脚本网站采用的不处理、硬编码方式,本发明方 法的执行过程包括两部分,第一部分为训练,第二部分为抓取。通过页面的相似 性训练,可以知道各个类型的页面应该在哪些页面元素上触发何种事件。训练完 成后即可以进行抓取,本发明的抓取过程可以采用多种抓取策略,本实施例中的 宽度优先抓取方法中,每次触发完一个事件后,都会回退到原页面,直到原页面 所有需要触发的事件触发完为止,再去处理其他的页面。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910090288.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top