[发明专利]一种网页信息抽取的系统及方法有效
| 申请号: | 200910076548.3 | 申请日: | 2009-01-08 |
| 公开(公告)号: | CN101464905A | 公开(公告)日: | 2009-06-24 |
| 发明(设计)人: | 吴博;王宇;张刚;丁国栋;程学旗 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京律诚同业知识产权代理有限公司 | 代理人: | 梁 挥;祁建国 |
| 地址: | 100080北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网页 信息 抽取 系统 方法 | ||
技术领域
本发明属于网络信息处理领域,尤其涉及一种网页信息抽取的系统及方法。
背景技术
现在的网页抽取技术可以根据应用的领域分为针对特定领域的网页抽取技术和通用的网页抽取技术。
在针对特定领域的网页抽取技术中,通常需要对待抽取的内容做出一些前提假设。例如对新闻网页正文的抽取,对网页中某些特定属性的抽取,如对产品价格的抽取。该类方法往往根据待抽取对象的特征,通过统计学的方法或者通过总结出发式规则的方法,对网页进行抽取。但是由于抽取对象的特殊性,限制了该类方法的通用性及可以抽取的信息的种类和数量。
在通用的网页抽取技术中,根据网页抽取工具的自动化程度,分为手工构建规则的抽取系统,半有监督的抽取系统,无监督的抽取系统和有监督的抽取系统。
在手工构建规则的抽取系统中,使用者通过对每个网站手工编写一个包装器(wrapper)进行抽取,wrapper所使用的语言可以是一个通用的编程语言或者是特别设计的用于的抽取的语言,该类工具需要用户有着一定计算机和编程方面的知识,所以这种方法的代价相当高,对于大量网站和海量网页的抽取这种花费往往是无法容忍。
半有监督的抽取系统相对于有监督的抽取系统,通常不需要用户对网页中的数据做出准确的标注就可以生成用于抽取的规则,因此该类系统被称为半有监督的抽取系统。该类系统虽然不需要用户对网页中的数据做出标注,但是该类系统往往需要用户做后续处理,例如选择出目标模式和想要抽取的数据,并且所有的该类系统都是为了抽取记录级别的数据。所以该类系统的抽取精度通常不能满足需要准确抽取网页中属性信息的要求。
在无监督的抽取系统中,不需要用户标注出任何的训练数据,所以在生成wrapper的过程中也就不需要与用户交互的界面。不同于有监督的抽取系统中抽取的数据是由用户标注出的,无监督的抽取系统抽取数据是由数据本身决定,即无监督的系统通常认为网页实际上是一个由程序生成的网页模板加入后台数据库中的数据生成的,而无监督的抽取系统的任务就是抽取这些后台数据库中的数据。但是由于这种全自动的抽取方式往往会抽取出许多用户不需要的信息,用户需要的一些信息却可能没有抽取出来,并且由于没有标注抽取出的数据集成和理解也成为了一个难题。
有监督的抽取系统通常是输入一系列由用户标注好的网页,然后利用所述训练网页生成wrapper文件,最后利用生成的wrapper文件对相似的网页中的信息进行抽取。在该类的系统中,往往不要专门的编程人员只需要一些普通的使用者经过一些简单的训练在图形用户界面上标注出所要抽取的数据就可以了,并且该类的抽取系统抽取精度较高,抽取出的数据由于有标签也便于理解和集成。本发明中所介绍的系统就是一种有监督的抽取系统。
现在随着英特网上信息的爆炸似的增长,而网页作为网络上重要的信息载体,如何从网页中抽取出需要的信息日益成为一个重要的研究课题。但是英特网上网页都是服务于用户浏览的,网页中的信息被很多网页标签和格式信息所包围从而造成了从网页中抽取信息的困难。
目前比较流行的一种精确率较高的半自动有监督的抽取方法是:从某个网站抓取下来由同一个网页模板生成网页,从中选取几个网页作为训练网页,由用户标注出这些网页中需要抽取的信息,然后通过机器学习的方式从这些训练网页中学习出要抽取的数据区的上下文特征,最后生成用于抽取的wrapper文件。对该网站中的其他网页就使用该wrapper进行自动的抽取了。但是这种方法存在如下问题。
第一,目前网页抓取程序在抓取网站中类似网页时判断的依据都是这些网页是否在同一个url路径下,但是现在的网站上存在着大量的动态url,甚至存在这种情况,有些网页所在的url路径即使相同网页之间的结构也可能很不相似。这样就会导致由训练网页生成的wrapper文件对网页集合中由不同网页模板生成的网页无法抽取。
第二,即使这些网页由同一个网页模板生成,但是网页中存在很多的非模板节点,且不同网页的非模板节点之间存在各种差异,那么对于只由部分训练网页生成的wrapper文件往往无法涵盖所有的这些差异,造成了wrapper文件对无法胜任对这部分网页抽取的任务,而传统的方式是对于这些无法正确抽取的网页,将其提交给用户,让用户去标注出这些网页中的数据区,然后再将这些网页作为训练网页提供给网页抽取程序重新生成wrapper。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910076548.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:播放媒体文件的方法和设备
- 下一篇:气缸盖罩油气分离装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





