[发明专利]基于可扩展语言查询的网页数据抽取方法无效
| 申请号: | 201010545520.2 | 申请日: | 2010-11-16 |
| 公开(公告)号: | CN101984434A | 公开(公告)日: | 2011-03-09 |
| 发明(设计)人: | 聂铁铮;于戈;王波涛;岳德君 | 申请(专利权)人: | 东北大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 沈阳东大专利代理有限公司 21109 | 代理人: | 梁焱 |
| 地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 扩展 语言 查询 网页 数据 抽取 方法 | ||
技术领域
本发明属于计算机数据库技术领域,特别涉及一种基于可扩展语言查询的网页数据抽取方法。
背景技术
随着Web领域的不断发展,Web中数据信息的迅速增长,当前各应用领域对Web数据的需求不断加大,虽然Web中包含了大量的结构化和半结构化数据,但这些数据主要以超文本标记化语言HTML的形式通过浏览器提供给用户浏览,难以直接用于数据挖掘和数据集成等应用之中,因此如何高效而准确地从大量Web页面中抽取结构化和半结构化数据变得越来越重要,针对Web数据典型的抽取方法主要分为三类:基于HTML标签树或文档对象模型DOM树的方法;基于页面结构的方法;基于视觉信息的方法;基于HTML标签树或文档对象模型DOM树的方法主要包括XWRAP 、RoadRunner、Lixto、MDR和MDRII等;基于页面结构的方法主要工作包括NoDoSE、DEByE和SG-WRAP等;基于视觉信息的方法主要以ViDRE为主;
基于HTML标签树或文档对象模型DOM树对页面中数据记录抽取是一种比较普遍的方法,在抽取数据前,首先基于标签将Web页面转换为文档对象模型DOM树,然后基于DOM树中结构特征和自动或半自动的抽取规则从中抽取数据,基于页面结构的方法首先制定页面中包含数据部分的结构,再根据这一结构在页面中寻找相似部分作为抽取结果,但是,对于结构简单的页面,它可以得到很好的效果,如果页面DOM树中结构复杂且数据区内噪声节点过多,则处理效果不是很好,而且还无法支持嵌套结构的数据识别;
基于网页中视觉信息抽取数据的技术主要利用网页设计中用户浏览内容的位置习惯特征从相应位置抽取数据,微软亚洲研究院的ViDRE提出的一种基于可视化特征的抽取方法,该方法在某种程度上模拟人眼对页面的识别过程,最终达到识别对象信息的目的,然而,一方面,当页面没有明显的视觉特征时,基于视觉的抽取效率会严重降低,而另一方面,基于视觉的方式适用于对单个页面进行数据抽取,对于大量结构相同的数据不同的页面抽取的效率将会很低;
以上方法仅适用于包含简单数据结构的网页,如果网页中的数据为层次关系则抽取的结果将难以表示或产生属性缺失,因此难以处理数据结构复杂的页面内容;其次,这些方法在初始化后直接生成抽取结果数据,若其中有属性识别错误则难以及时修正;此外,这些方法操作相对十分独立,难以与现有数据库系统进行结合,因此缺乏对网页数据的统一管理。
发明内容
为弥补上述方法之不足,本发明提供一种基于可扩展语言查询的网页数据抽取方法。
本发明的技术方案是这样实现的:基于可扩展语言查询的网页数据抽取方法,包括以下步骤:
步骤1:确定Web页面中抽取数据内容时所对应的模式结构;
模式结构包括:关系形式的表结构和层次结构2种,其中,表结构的数据模式S由数据实体名E和一组属性集合A={A1,…,An}所构成,其中Ai(1<=i<=n,n表示属性的数量)表示属性集合中的一个属性,由属性名称和属性的数据类型构成,表示为<N, T>,其中N表示属性名称,T表示属性数据类型,所述数据类型T包括整数类型integer、浮点类型float和字符串类型string;所述的层次结构是指由基本类型组成的复杂数据结构,其对应的数据模式表示为 ,包含属性,m为模式中属性的数量;
步骤2:定位Web页面中数据区域、数据单元和属性文本;
将HTML语言描述的Web页面源代码格式化为XML语言的文档;
所述数据区域Da,是指在Web 页面中包含所有数据单元的最小边界所包含的区域,定位方法为:在Web页面对应的文档对象模型DOM结构中对应一个包含所有数据单元的最小子树;
所述数据单元Du,表示Web数据抽取所要获得的一个模式结构对应的数据实体,通常由模式中的属性描述,在页面中以一定的规律重复出现;定位方法为:在Web页面的文档对象模型DOM树中,找出页面中数据实体各属性内容所在的节点,包含这些节点的最小子树就是数据单元;
所述属性文本At,表示在Web页面中包含数据模式属性的属性值的文本内容,属性值通常在Web页面的文档对象模型DOM树中元素节点的文本节点中,定位方法为:在Web页面对应的文档对象模型DOM树结构中找出包含该属性值文本的节点;
步骤3:对步骤2中的属性文本进行语义标注;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010545520.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:带水平调节装置的模具安装座
- 下一篇:一种透明和增韧的聚乳酸树脂及其制备方法





