[发明专利]一种基于Web数值表格抽取的数据挖掘方法有效
| 申请号: | 200910084507.9 | 申请日: | 2009-05-20 |
| 公开(公告)号: | CN101556606A | 公开(公告)日: | 2009-10-14 |
| 发明(设计)人: | 赵洪;肖洪;吴晨;薛德军 | 申请(专利权)人: | 同方知网(北京)技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京捷诚信通专利事务所 | 代理人: | 魏殿绅 |
| 地址: | 100084北京市海淀区清华园清华大*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 web 数值 表格 抽取 数据 挖掘 方法 | ||
1.一种基于Web数值表格抽取的数据挖掘方法,其特征在于,该方法包括:
A对预处理后的Web数值表格样本集进行训练,并根据Web数值表格样本集形成领域知识库的基本集;
B提供抽取所需的领域知识;
C定位和提取Web页面中的数值表格,并获取领域Web数值表格集;
D对表格的各结构元素进行识别,形成表格的逻辑结构;
E对表格进行逻辑结构规整、语义检测和语义整合;
F抽取结果表示成语义一致性的、结构化的数值知识元形式并存储入库,并对抽取的数值知识元进行精炼,在知识领域库的领导下,将结构化形式的数值记录语义合并;
G将从表格中抽取的数值知识元进行结构化存储;
H对数值知识元库中的数值知识元进行检索。
2.根据权利要求1所述的基于Web数值表格抽取的数据挖掘方法,其特征在于,所述方法还包括:
I对Web数值表格对应的数值知识元进行挖掘,并对挖掘的数值知识元进行分析;
J接收数值知识元的检索结果及数值知识元的分析结果,同时自定义挖掘任务并提交数据检索请求。
3.根据权利要求1所述的基于Web数值表格抽取的数据挖掘方法,其特征在于,所述步骤C具体包括:
C1获取指定站点内包含的所有符合预定义URL格式的Web页面,并对页面进行清洗,去掉页面中包含的垃圾信息;
C2提取Web页面中包含的所有表格,并去掉页面布局表格和无实际数据的表格即假表格和非数值表格;
C3对表格进行领域判别,获取领域内表格。
4.根据权利要求1所述的基于Web数值表格抽取的数据挖掘方法,其特征在于,所述步骤D具体包括:
D 1表格标题行识别,根据表格各行的内容特性和视觉特性对标题进行识别;
D2表头与表体识别,根据表格各单元格的内容特性和视觉特性识别表格的表头与表体区域;
D3表格附加部分识别,识别表栏和表尾注释行。
5.根据权利要求1所述的基于Web数值表格抽取的数据挖掘方法,其特征在于,所述步骤E具体包括:
E1将单元格对应的视觉特性和基本内容特性表示成计算机可理解的规范结构,其中,视觉特性和基本内容特性包括行表头的规整、列表头规整、表栏规整和表尾注释行规整;
E2对逻辑结构规整成功的表格内容进行语义检测,并将语义检测成功的表格中每一条数值记录均表示成预定义的结构化形式;
6.根据权利要求1或5所述的基于Web数值表格抽取的数据挖掘方法,其特征在于,所述步骤F还包括:精炼不成功的数值记录输出到领域知识库进行自动学习;所述步骤E2还包括:规整不成功的Web表格数据输出到领域知识库进行自动学习。
7.根据权利要求1所述的基于Web数值表格抽取的数据挖掘方法,其特征在于,
所述Web数值表格为Web页面中超文本链接标示语言HTML标记的数值表格;
所述表格的结构元素包括表格标题、表栏、表头、表体和表尾注释行,其中表头又分为行表头和列表头;
所述数值知识元为包含描述对象、主体、确切的数值和单位量词、时间变量的知识单元。
8.根据权利要求4所述的基于Web数值表格抽取的数据挖掘方法,其特征在于,所述进行步骤D1之前还包括检测表格中各行的视觉特性,并计算各行的视觉特性权值,其中,所检测的各行的视觉特性的视觉元素包括:字粗、字体大小、空单元格占所在行的密度及该行在表格中的位置。
9.根据权利要求5所述的基于Web数值表格抽取的数据挖掘方法,其特征在于,
所述预定义的结构化形式为<表格标题、内容标注、行表头整合结果、列表头整合结果、数值、度量单位、数值标注>七元组;
所述行表头整合结果为当前单元格及其所有上位单元格内容的层级组合,如,{C1-C2-...Ci-1-Ci},Ci-1为Ci的上位单元格;
所述内容标注对应表格整体内容的注释;所述数值标注对应单元格内容的注释;
所述度量单位由表栏和数值对应表头中包含度量单位的最下位类单元格确定。
10.根据权利要求6所述的基于Web数值表格抽取的数据挖掘方法,其特征在于,所述领域知识库自动学习的数据源类型为半结构化的Web数值表格,且领域知识库还包括概念关系知识库、概念实例知识库、关键词知识库和规则库;其中,规则库包括记录匹配规则库和关系匹配规则库,所述记录匹配规则是用于概念和实例的匹配规则,所述关系匹配规则是用于关系及关系的定义域和值域的匹配规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司,未经同方知网(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910084507.9/1.html,转载请声明来源钻瓜专利网。





