[发明专利]自动扩展参考数据的系统和方法无效
申请号: | 200610128032.5 | 申请日: | 2006-08-31 |
公开(公告)号: | CN101136020A | 公开(公告)日: | 2008-03-05 |
发明(设计)人: | 郭宏蕾;郭志立;苏中 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 李颖 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 扩展 参考 数据 系统 方法 | ||
技术领域
本发明涉及数据处理领域。更具体地说,本发明涉及扩展参考数据的系统和方法。
背景技术
对于数据仓库的决策支持分析会影响到重大的商业决策。因此,这种分析的精确度是非常重要的。但是,数据仓库从外部接收的数据通常会包括错误,例如:拼写错误、数据源之间的约定不一致导致的错误以及字段缺失等。因此,需要花费大量时间和费用来进行数据清洗(即,检测和纠正数据中的错误)。
在这个方面,一种常见的技术是将输入进来的数据元组(tuple)与由已知正确的元组构成的参考数据词典(即,关系表)进行对照,来对这些输入进来的数据元组进行标准化。参考数据词典可以是属性值中的大量词汇和结构的来源。参考数据词典可以来自数据仓库内部,也可以从外部获得(例如,来自邮政部门的有效地址关系)。例如,参考词典通常可以包括预先记录的规范名称(例如,公司名称、产品名称、位置等)以及描述字段。显然,大规模的参考数据可以为数据清洗提供较好的支持。在典型的数据仓库应用环境中,大量新的参考实体概念条目快速涌现,在这些新条目中,只有一小部分能被收集在现有的预定义参考数据词典中。难以手动收集新出现的大量参考实体条目(例如,新的客户名称、公司名称、产品名称、特定领域的实体名称等),并且这样的手动收集费用高昂。
因此,参考数据集的扩展和更新仍然是各种面向任务或面向领域的数据挖掘应用的一个瓶颈,而数据清洗和分析中的一个突出问题便是参考数据集的自动扩展。但是,目前本技术领域中不存在能够自动扩展和更新参考数据集的手段。
发明内容
鉴于现有技术的上述问题,本发明提供一种自动扩展参考数据的系统和方法。该系统和方法能够通过不断从现有数据源(例如,数据仓库、web等)挖掘新的参考元组,以较低成本自动扩展参考数据。
根据本发明的一个方面,提供一种用于从数据资源中自动提取参考实体数据的系统,包括:实体数据解析装置,与数据资源耦接,用于对数据资源中的实体数据进行解析,以获得每个实体数据的内部语义结构,并从所述内部语义结构产生特征集;以及数据提取装置,用于根据所述实体数据解析装置产生的特征集提取参考实体数据。
根据本发明的另一个方面,提供一种用于从数据资源中自动提取参考实体数据的方法,包括:对数据资源中的实体数据进行解析,以获得每个实体数据的内部语义结构,并从所述内部语义结构产生特征集;以及根据所述实体数据解析产生的特征集提取参考实体数据。
根据本发明的另一个方面,提供一种计算机程序产品,包含在计算机系统可读的一个或多个计算机可读介质上的多条指令,当所述指令在计算机上执行时,用于实现根据本发明的方法步骤。
根据本发明,可从现有数据资源(例如,数据仓库、web、特定领域的数据集等)中收集新的参考元组来自动扩展参考数据。本发明提供了便于使用且有效的扩展参考数据的机制。该系统能够通过以低成本从现有数据源(例如,数据仓库、web等)挖掘更多新的参考元组。
附图说明
图1示出根据本发明的自动扩展参考数据系统的总体框图。
图2示出根据本发明的自动扩展参考数据系统的扩展组件的结构框图。
图3示出根据本发明的自动扩展参考数据系统的存留组件的结构框图。
图4示出扩展组件从中文数据集合中提取新的实体参考数据的例子。
图5示出扩展组件从英文数据集合中提取新的实体参考数据的例子。
图6示出根据本发明的优选实施方式的方法流程图。
具体实施方式
在参考附图描述本发明的优选实施方式之前,首先给出在本发明中用到的术语的含义。
参考数据词典:是参考数据的一种典型的存储形式,在数据仓库应用中也称为“参考表”或者“参考关系”。参考数据词典可以是属性值中的大量词汇和结构的来源。例如,产品参考数据词典通常包括预先记录的规范产品名称。
参考数据条目收集规范:参考数据收集的要求规范,例如:领域类别、数据类型、语言等。
参考数据样本种子列表:类似于人们要查找的数据的样本名称,例如命名实体、特定领域的实体等。
实体:其相关信息被存储的对象或事件,例如:人名、地名、公司名、产品名等。
别名:实体的不同于其标准名称的名称,例如:传统名称、缩写、简称、普遍用错的名称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610128032.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置