[发明专利]一种基于HTML流处理的数据采集方法和系统无效
| 申请号: | 201010179377.X | 申请日: | 2010-05-20 |
| 公开(公告)号: | CN101859321A | 公开(公告)日: | 2010-10-13 |
| 发明(设计)人: | 施洋;张奇;黄萱菁 | 申请(专利权)人: | 复旦大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/06 |
| 代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;盛志范 |
| 地址: | 20043*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 html 处理 数据 采集 方法 系统 | ||
技术领域
本发明属于网页信息抽取技术领域,具体涉及一种数据采集方法和系统。
背景技术
网页信息抽取工作是将网络上海量的数据以某种方式收集起来,这些数据是做研究分析,机器学习,数据挖掘等工作的重要素材。已经有很多解决这个问题的方法,但是大多数停留于理论上。目前,网页信息抽取技术可分为基于网页结构和利用概率模型进行机器学习的方法。
1、利用概率模型学习的方法:
首先通过采集一定数量的网页样本,选定样本类型之后,后根据经验以及一些已有的知识进行特征抽取。然后通过人工标注的方式为分类器提供需要的答案。之后选取概率模型进行机器学习工作,常见的分类器有,SVM,CRF等。通常由于大量的前期工作和假设,目前做到的最好的工作是对特定领域进行抽取,这就限制了其在实际应用中的发展空间。
2.基于网页结构的方法:
此类方法带原理上通常比较简单,大致可以分为两个类型,类型一,遍历下载,此类方法在页面中穷尽链接,然后继续延续链接进行数据下载,这类方法主要的不足之处是无法判定下载范围以及无法对用户需要的信息进行格式化存储。类型二是利用网站的本身结构,这种方法可以解决类型一所面临的问题,但是此类方法主要存在于对指定网站的下载,他要求程序模拟每一个需要下载的网站,这导致了效率的低下。
发明内容
本发明的目的在于提出一种成本低、效率高的网络数据采集方法。
本发明利用同类网站存在共同结构特性的特点,总结规划的通用的模板模型,在降低了人工操作成本的同时,高效的实现了多路信息的同时采集。
本发明是一种基于HTML流处理的数据采集方法。该方法的实施系统由多线程收集器和下载控制模板以及数据存储系统构成。
如上所述,网络数据采集的主要问题就是在保证效率的前提下如何降低人工投入成本进行更加细致的信息采集。本发明利用模板继承的方式处理HTML的数据流来解决这个问题。其步骤包括:通过HTTP协议获取HTML文档数据流,然后利用一些节点来处理传入的数据流,这些节点以树的形式来表示,执行步骤为从树的根节点出发,按深度扩展的顺序往下进行处理,对于同一层的节点按其先后顺序处理;对每一个节点都设置有一定的属性,这些属性的设置是处理和编辑的核心部分;每个节点都传入当前数据流(Stream)和需要进行存储的数据信息,这些信息都不会因为通过其子节点返回之后而改变,控制模板节点的细则如表1所示。
这些节点分为有返回值和无返回值两类,无返回值的节点包括:
Pattern节点,为父节点,所有的其他节点都可以作为它的子节点。它本身并不包含任何属性,其他的所有节点都由它派生而来。
Filter节点,可以把所有的其它节点作为它的子节点,截取上一层数据流中的一部分字符串,作为其子节点的传入数据流,它截取以Head开头,以Tail结尾的字符串,按照Type中的节点截取一段。
Group节点,可以把所有的其它节点作为它的子节点。它将数据流根据分段标签分段,对于分出的每一段数据流给其子节点的节点处理。
Store节点,其子节点只能是有返回值的节点,保存继承得到的以及在其子节点返回的数据流,并将其中的内容保存起来。
Open节点,其子节点只能是有返回值的节点,它打开Url/Intercept节点中截取得到的Url,Open节点可以选择要打开的Url,需要使用的控制模板也可以选择是否将这个Url保存起来。
Replace节点,可以把所有的其它节点作为它的子节点,用来替换一些特定的字符串。
Repeat节点,可以把所有的其它节点作为它的子节点,它用来重复执行一定次数的其子节点,次数可以指定也可以截取,当指定的次数小于0时,将选用截取的次数。
有返回值的节点的返回值都包括name和value,所得的节点将被父亲节点进行处理。有返回值的节点包括:
Intercept节点,这个节点是存储数据的的主要节点,它不包含子节点,作用是截取上一层数据流中的一部分字符串,截取部分与Filter节点的作用相同,不同的是这个节点将截取的数据流返回给父节点。
Count节点,不包含子节点,得到输入数据流种特定的字符串的个数。
Merge节点,子节点只能是有返回值的节点,用来合并这些节点。
图1是本系统的运行流程图,本系统主要由以下几个部分组成:下载任务列表,线程池,下载器,下载控制模板,解析器以及文件存储系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010179377.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具主体辨别的随身储存装置及其方法
- 下一篇:元数据管理方法及管理系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





