[发明专利]用于基于知识的数据质量解决方案的域有效
| 申请号: | 201210435087.6 | 申请日: | 2012-11-02 |
| 公开(公告)号: | CN102982097B | 公开(公告)日: | 2018-01-16 |
| 发明(设计)人: | J·玛尔卡;E·齐克利克;E·胡迪斯;M·拉维夫;G·皮莱格;D·法伊比希 | 申请(专利权)人: | 微软技术许可有限责任公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 上海专利商标事务所有限公司31100 | 代理人: | 陈斌 |
| 地址: | 美国华*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 基于 知识 数据 质量 解决方案 | ||
1.一种用于数据质量解决方案的系统,包括:
配置成采集关于第一数据集和第二数据集的数据信息的访问模块(340);
配置成针对所述第一数据集和所述第二数据集创建一个或多个域的域创建模块(385),其中至少一个域是包括多个基本域的合成域,所述基本域的每一个包括所述第一数据集或所述第二数据集的属性、与所述第一数据集或所述第二数据集相关联的数据质量问题、以及核心值列表、错误列表、同义字列表、验证规则的至少一个,且所述多个基本域之间的关系在所述合成域内被定义;以及
配置成集聚所述一个或多个域并用集聚后的域填充知识库(330)的编译模块(390),其中所述知识库(330)用于处理一个或多个数据质量集。
2.如权利要求1所述的系统,其特征在于,所述域创建模块(385)被配置成因变于数据或数据的属性来创建所述域。
3.如权利要求1所述的系统,其特征在于,所述域创建模块(385)被进一步配置成创建基本域。
4.如权利要求1所述的系统,其特征在于,跨两个或更多个所述基本域应用至少一个规则。
5.如权利要求1所述的系统,其特征在于,所述访问模块(340)被配置成通过辅助的知识采集过程采集数据信息。
6.如权利要求1所述的系统,其特征在于,所述知识库(330)包括封装为单个可移动单元的多个域。
7.如权利要求1所述的系统,其特征在于,所述知识库(330)以可共享和可下载格式储存。
8.如权利要求1所述的系统,其特征在于,进一步包括:
配置成获取关于第一数据集和第二数据集的语义信息的采集模块(220);
配置成部分地基于所述语义信息标识所述第一数据集和所述第二数据集之间的重复数据的匹配模块(440);以及
配置成与所述第一数据集和所述第二数据集的组合大致同时地合并所标识出的重复数据的合并模块(450)。
9.如权利要求1所述的系统,其特征在于,进一步包括配置成捕捉与所述第一数据集和所述第二数据集的属性相关的历史信息的历史模块(370),其中所述历史信息被包括在域中。
10.如权利要求1所述的系统,其特征在于,进一步包括配置成捕捉与关联于所述第一数据集和所述第二数据集的源的数据质量度量相关的统计信息的统计模块(375),其中所述统计信息被包括在域中。
11.如权利要求1所述的系统,其特征在于,进一步包括配置成作出与所述第一数据集或所述第二数据集相关的一个或多个推断的推断模块(380),其中所述一个或多个推断被包括在域中。
12.一种方法,包括:
获取(1500)与属性和参考数据服务提供者相关联的参考数据;
针对每个属性创建(1510)多个域,其中所述多个域中的每一个包括属性和与该属性相关联的参考数据,其中至少一个域是包括多个基本域的合成域,所述基本域的每一个包括第一数据集或第二数据集的属性、与所述第一数据集或所述第二数据集相关联的数据质量问题、以及核心值列表、错误列表、同义字列表、验证规则的至少一个,且所述多个基本域之间的关系在所述合成域内被定义;以及
将所述多个域的编译储存(1520)为知识库。
13.如权利要求12所述的方法,其特征在于,所述获取包括获取对所述属性的参考数据定义。
14.如权利要求12所述的方法,其特征在于,所述获取包括使规则和所述属性的一个或多个相关联。
15.如权利要求12所述的方法,其特征在于,所述创建包括创建基本域,所述基本域包括与所述属性相关联的数据质量问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210435087.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种满足配电实时监控的航拍地图显示方法
- 下一篇:双曲式平衡锥型流量计
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





