[发明专利]一种基于HTML流处理的数据采集方法和系统无效

申请号：	201010179377.X	申请日：	2010-05-20
公开（公告）号：	CN101859321A	公开（公告）日：	2010-10-13
发明（设计）人：	施洋;张奇;黄萱菁	申请（专利权）人：	复旦大学
主分类号：	G06F17/30	分类号：	G06F17/30;H04L29/06
代理公司：	上海正旦专利代理有限公司 31200	代理人：	陆飞;盛志范
地址：	20043***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 html 处理数据采集方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于网页信息抽取技术领域，具体涉及一种数据采集方法和系统。

背景技术

网页信息抽取工作是将网络上海量的数据以某种方式收集起来，这些数据是做研究分析，机器学习，数据挖掘等工作的重要素材。已经有很多解决这个问题的方法，但是大多数停留于理论上。目前，网页信息抽取技术可分为基于网页结构和利用概率模型进行机器学习的方法。

1、利用概率模型学习的方法：

首先通过采集一定数量的网页样本，选定样本类型之后，后根据经验以及一些已有的知识进行特征抽取。然后通过人工标注的方式为分类器提供需要的答案。之后选取概率模型进行机器学习工作，常见的分类器有，SVM，CRF等。通常由于大量的前期工作和假设，目前做到的最好的工作是对特定领域进行抽取，这就限制了其在实际应用中的发展空间。

2.基于网页结构的方法：

此类方法带原理上通常比较简单，大致可以分为两个类型，类型一，遍历下载，此类方法在页面中穷尽链接，然后继续延续链接进行数据下载，这类方法主要的不足之处是无法判定下载范围以及无法对用户需要的信息进行格式化存储。类型二是利用网站的本身结构，这种方法可以解决类型一所面临的问题，但是此类方法主要存在于对指定网站的下载，他要求程序模拟每一个需要下载的网站，这导致了效率的低下。

发明内容

本发明的目的在于提出一种成本低、效率高的网络数据采集方法。

本发明利用同类网站存在共同结构特性的特点，总结规划的通用的模板模型，在降低了人工操作成本的同时，高效的实现了多路信息的同时采集。

本发明是一种基于HTML流处理的数据采集方法。该方法的实施系统由多线程收集器和下载控制模板以及数据存储系统构成。

如上所述，网络数据采集的主要问题就是在保证效率的前提下如何降低人工投入成本进行更加细致的信息采集。本发明利用模板继承的方式处理HTML的数据流来解决这个问题。其步骤包括：通过HTTP协议获取HTML文档数据流，然后利用一些节点来处理传入的数据流，这些节点以树的形式来表示，执行步骤为从树的根节点出发，按深度扩展的顺序往下进行处理，对于同一层的节点按其先后顺序处理；对每一个节点都设置有一定的属性，这些属性的设置是处理和编辑的核心部分；每个节点都传入当前数据流(Stream)和需要进行存储的数据信息，这些信息都不会因为通过其子节点返回之后而改变，控制模板节点的细则如表1所示。

这些节点分为有返回值和无返回值两类，无返回值的节点包括：

Pattern节点，为父节点，所有的其他节点都可以作为它的子节点。它本身并不包含任何属性，其他的所有节点都由它派生而来。

Filter节点，可以把所有的其它节点作为它的子节点，截取上一层数据流中的一部分字符串，作为其子节点的传入数据流，它截取以Head开头，以Tail结尾的字符串，按照Type中的节点截取一段。

Group节点，可以把所有的其它节点作为它的子节点。它将数据流根据分段标签分段，对于分出的每一段数据流给其子节点的节点处理。

Store节点，其子节点只能是有返回值的节点，保存继承得到的以及在其子节点返回的数据流，并将其中的内容保存起来。

Open节点，其子节点只能是有返回值的节点，它打开Url/Intercept节点中截取得到的Url，Open节点可以选择要打开的Url，需要使用的控制模板也可以选择是否将这个Url保存起来。

Replace节点，可以把所有的其它节点作为它的子节点，用来替换一些特定的字符串。

Repeat节点，可以把所有的其它节点作为它的子节点，它用来重复执行一定次数的其子节点，次数可以指定也可以截取，当指定的次数小于0时，将选用截取的次数。

有返回值的节点的返回值都包括name和value，所得的节点将被父亲节点进行处理。有返回值的节点包括：

Intercept节点，这个节点是存储数据的的主要节点，它不包含子节点，作用是截取上一层数据流中的一部分字符串，截取部分与Filter节点的作用相同，不同的是这个节点将截取的数据流返回给父节点。

Count节点，不包含子节点，得到输入数据流种特定的字符串的个数。

Merge节点，子节点只能是有返回值的节点，用来合并这些节点。