[发明专利]一种基于Web数值表格抽取的数据挖掘方法有效
| 申请号: | 200910084507.9 | 申请日: | 2009-05-20 |
| 公开(公告)号: | CN101556606A | 公开(公告)日: | 2009-10-14 |
| 发明(设计)人: | 赵洪;肖洪;吴晨;薛德军 | 申请(专利权)人: | 同方知网(北京)技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京捷诚信通专利事务所 | 代理人: | 魏殿绅 |
| 地址: | 100084北京市海淀区清华园清华大*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 web 数值 表格 抽取 数据 挖掘 方法 | ||
技术领域
本发明涉及Web数值表格抽取和数据挖掘技术领域,尤其涉及一种基于Web数值表格抽取的数据挖掘方法。
背景技术
文本、表格和多媒体文件(图片、视频等)是Web信息的主要表现形式,目前,通用Web搜索引擎不提供专门的表格搜索功能,更缺乏对表格内容的深入处理。Web文档中的表格是数据和知识的密集型载体,在学习类、研究类、资讯类Web页面中占有较大比重,其中,Web数值表格(Web Numeric-Table,如各类数值列表、统计报表等)蕴涵了丰富的领域数值知识,从海量Web数值表格集合中抽取、挖掘数值知识是对于表格搜索、数据查询和数据分析具有重要意义。Web数值表格抽取即是按照一定的规则,从Web数值表格中抽取语义一致性的、结构化的数值知识,建成数值知识元库,满足用户数据查询、数据分析需求。特定领域内的Web数值表格抽取以领域知识作为指导,利用人工标记的Web数值表格样本集进行训练,提高抽取规则对各类数值表格的适应度,然后利用领域知识库和规则集完成对海量Web数值表格的抽取。
数据挖掘是从大量数据中抽取未知的、有价值的模式或规律等知识,它的过程可分为:数据收集与数据预处理、数据挖掘、结果解释与评估。数据收集是数据挖掘的首要步骤,Web数值表格抽取技术是海量Web数值知识和数据挖掘工具的桥梁,Web数值表格抽取技术将半结构的数值知识汇集成结构化的数值知识元库,数据挖掘工具则为数值知识元库的深度分析和利用提供支持。在特定领域内,数值表格内的词语与领域的平均相关度很高,这使得在特定领域内利用领域知识库和监督式机器学习算法进行海量数值抽取和挖掘成为现 实。
发明内容
为解决上述中存在的问题与缺陷,本发明提供了一种基于Web数值表格抽取的数据挖掘方法。该方法能够自动地定位某领域Web数值表格,进行表格结构识别和内容抽取,将半结构化数据转化为结构化数据,供用户进行数据检索,同时为用户提供直观的、多种可视化(如数据统计列表、报表、图形等)的挖掘和分析结果。
本发明是通过以下技术方案实现的:
本发明所涉及的一种基于Web数值表格抽取的数据挖掘方法,包括:
A对预处理后的Web数值表格样本集进行训练,并根据Web数值表格样本集形成领域知识库的基本集;
B提供抽取所需的领域知识;
C定位和提取Web页面中的数值表格,并获取领域Web数值表格集;
D对表格的各结构元素进行识别,形成表格的逻辑结构;
E对表格进行逻辑结构规整、语义检测和语义整合;
F抽取结果表示成语义一致性的、结构化的数值知识元形式并存储入库,并对抽取的数值知识元进行精炼,在知识领域库的领导下,将结构化形式的数值记录语义合并;
G将从表格中抽取的数值知识元进行结构化存储;
H对数值知识元库中的数值知识元进行检索。
I对Web数值表格对应的数值知识元进行挖掘,并对挖掘的数值知识元进行分析;
J接收数值知识元的检索结果及数值知识元的分析结果,同时自定义挖掘任务并提交数据检索请求。
所述步骤C具体包括:
C1获取指定站点内包含的所有符合预定义URL格式的Web页面,并对页面进行清洗,去掉页面中包含的垃圾信息;
C2提取Web页面中包含的所有表格,并去掉页面布局表格和无实际数据的表格(即假表格和非数值表格);
C3对表格进行领域判别,获取领域内表格。
所述步骤D具体包括:
D1表格标题行识别,根据表格各行的内容特性和视觉特性对标题进行识别;
D2表头与表体识别,根据表格各单元格的内容特性和视觉特性识别表格的表头与表体区域;
D3表格附加部分识别,识别表栏和表尾注释行。
所述步骤E具体包括:
E1将单元格对应的视觉特性和基本内容特性表示成计算机可理解的规范结构,其中,视觉特性和基本内容特性包括行表头的规整、列表头规整、表栏规整和表尾注释行规整;
E2对逻辑结构规整成功的表格内容进行语义检测,并将语义检测成功的表格中每一条数值记录均表示成预定义的结构化形式;
所述步骤F还包括:精炼不成功的数值记录输出到领域知识库进行自动学习;所述步骤E2还包括:规整不成功的Web表格数据输出到领域知识库进行自动学习。
所述Web数值表格为Web页面中超文本链接标示语言HTML标记的数值表格;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司,未经同方知网(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910084507.9/2.html,转载请声明来源钻瓜专利网。





