[发明专利]一种动态脚本网站数据快速收集方法无效
| 申请号: | 200910090288.5 | 申请日: | 2009-08-04 |
| 公开(公告)号: | CN101625692A | 公开(公告)日: | 2010-01-13 |
| 发明(设计)人: | 夏冰;高军;王腾蛟;杨冬青 | 申请(专利权)人: | 北京大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京纪凯知识产权代理有限公司 | 代理人: | 徐 宁;关 畅 |
| 地址: | 100871北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 动态 脚本 网站 数据 快速 收集 方法 | ||
技术领域
本发明涉及一种网络数据收集方法,特别是关于一种动态脚本网站数据快速 收集方法。
背景技术
随着Web 2.0时代的到来,互联网越来越多地在服务器端和客户端采用了动 态脚本的方式进行交互。网页的内容,从以前的静态方式转变到从数据库中获取 数据动态生成。一方面,网页主页面下载到本地后还需要与服务器端再进行数次 交互才能获得全部的数据,如新浪博客的阅读数和评论数即为页面载入后再向服 务器发送请求获取的;另一方面,网页内容的链接很多也不再是传统的“<a>”标 签,而是使用了JavaScript的方式,如腾讯论坛、网易论坛等的翻页方式是采用 JavaScript来控制的。
爬虫是搜索引擎的第一步,也是对互联网数据分析的基础。传统爬虫对待现 有的网站存在先天不足的缺陷:主流搜索引擎对待动态脚本网站一般采取回避、 硬编码的方式和某些网站预留给搜索引擎接口的三种态度。有研究机构提出了模 拟用户行为依次点击页面所有的页面元素来进行抓取动态脚本网站的技术,但这 一方式速度很慢,不适合实际应用。
发明内容
针对上述问题,本发明的目的是提供一种可以只通过触发特定页面元素上的 特定事件,从而大幅减少了需要触发的事件数目,提高了动态脚本网站数据的收 集速度的动态脚本网站数据快速收集方法。
为实现上述目的,本发明采取以下技术方案:一种动态脚本网站数据快速收 集方法,其特征在于:它包括以下步骤:i)获取Index页面并保存,将Index页 面加入待处理队列;ii)判断所述待处理队列是否为空,若为空则表明抓取完成, 退出抓取过程;否则从所述待处理队列中任意选择一个页面,利用页面相似性得 到当前页面的类型,根据训练步骤中提取出的所述XPath路径特征,确定所述类 型需要触发哪些页面元素上的哪些事件;iii)判断所述当前页面是否有未触发过 的事件,若没有则跳转到步骤ii);否则触发事件,判断所述当前页面是否变化且 变化后的页面为新页面,若没有变化或非新页面则跳转到步骤v);否则继续执行 步骤iv);vi)保存所述新页面并将所述新页面加入到步骤i)中的待处理队列; v)回退到触发事件前的页面状态,并跳转到步骤iii)。
所述步骤ii)中,所述训练步骤包括:1)由人工给出各类型页面成训练样本 集合;2)判断所述训练样本集合是否为空,若为空则跳转到步骤5),否则从所述 训练样本集合中选择一个页面;3)判断当前页面上是否还有未触发过的事件,若 没有则跳转到步骤2);否则触发当前事件,记录当前事件的事件信息;4)回退到 触发事件前的页面状态,并跳转到步骤3);5)根据所述事件信息提取各类型页面 需触发事件的XPath路径特征及事件类型。
所述步骤3)中,所述当前页面的事件信息包括,事件类型、触发事件的页面 元素、页面是否变化、变化后页面是哪种类型。
所述步骤5)中,所述XPath路径特征的提取方法如下:被归约的XPath路径 经过的页面元素名称必须相同,对页面元素的序号进行归约。
本发明由于采取以上技术方案,其具有以下优点:1、本发明由于利用了页面 套用模板的相似性,因此能够预知在哪些页面元素上的点击等事件将导向什么性 质的页面,从而利用页面相似性得到的页面类型确定当前页面的类型需要触发哪 些页面元素上的哪些事件。2、本发明通过对导向需要页面的页面元素的XPath进 行归约,提取出其特征及事件类型,因此只触发特定页面元素上的特定事件,大 幅减少了模拟用户操作的次数,提高了动态脚本网站数据的收集速度。本发明可 应用于各种网络搜索引擎的网页抓取工作。
附图说明
图1是本发明的抓取数据之前的训练步骤流程示意图
图2是本发明的宽度优先的抓取方法步骤流程示意图
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
针对于现有技术中对待动态脚本网站采用的不处理、硬编码方式,本发明方 法的执行过程包括两部分,第一部分为训练,第二部分为抓取。通过页面的相似 性训练,可以知道各个类型的页面应该在哪些页面元素上触发何种事件。训练完 成后即可以进行抓取,本发明的抓取过程可以采用多种抓取策略,本实施例中的 宽度优先抓取方法中,每次触发完一个事件后,都会回退到原页面,直到原页面 所有需要触发的事件触发完为止,再去处理其他的页面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910090288.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:自由伸缩广告旗
- 下一篇:自动暖瓶速热器控制装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





