[发明专利]模糊数据操作有效

专利信息
申请号: 200980142344.3 申请日: 2009-10-23
公开(公告)号: CN102197406A 公开(公告)日: 2011-09-21
发明(设计)人: 阿伦.安德森 申请(专利权)人: 起元技术有限责任公司
主分类号: G06N7/02 分类号: G06N7/02
代理公司: 北京市柳沈律师事务所 11105 代理人: 邵亚丽
地址: 美国马*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 模糊 数据 操作
【说明书】:

相关申请的交叉引用

本申请要求2008年10月23日提交的名为“模糊数据操作”的No.61/107,971号美国申请的优先权,其通过引用被包含于此。

技术领域

本描述涉及数据管理领域中的模糊数据操作。

背景技术

在数据管理中采用例如聚类(cluster)、联接(join)、搜索(search)、上卷(rollup)和排序(sort)的数据操作来处理数据。聚类是将数据分类为不同组的操作。联接将两片数据组合在一起。通过关键字(key)的搜索找到与该关键字匹配的数据条目。上卷跨过(across)一组数据计算一个或多个层次的子和(subtotal,或者其他组合)的操作。排序是对数据安排顺序(order)的操作。

在数据管理中数据质量很重要。由数据操作导致的错误或者不准确使数据质量退化。例如,将ABC公司的雇员John Smith分类为临时工作人员或者永久工作人员使John Smith享有不同级别的福利(benefit)。对John Smith的雇佣状态的错误分类,例如数据操作聚类中的错误,影响ABC公司的人力资源数据的质量。

数据操作的某些实施方案依靠字段值(“关键字(key)”)的精确比较来标识匹配的记录、定义相关记录的组或者链接记录。当数据有不明确性(ambiguous)、不精确、不完整或者不确定时,基于字段值的精确比较的方法可能失效。

当存在与例如聚类的数据操作相关联的内在(inherent)不明确性时,一种解决不明确性的方法可以是简单地忽略不明确性并强制一片数据进入特定组中。例如,ABC公司的雇员John Smith既为营销部门工作也为研发部门工作。在ABC公司的人力资源数据库中,John Smith可以与营销部门或研发部门相关联,但是经常只和一个部门相关联。将该片数据强制分类到特定组可能掩盖内在不明确性并对数据质量有不利影响。

当存在与例如聚类的数据操作相关联的不确定性时,由于未决的事件结果,例如实体A和实体B之间的涉及一件资产的所有权的法律纠纷,强制一片数据进入特定组中可能并非是解决该状况的易变性的最佳方法。在判决之前,资产的所有权是不确定的。将该资产分配给A或者B结果均可能是不准确的。

当存在与例如上卷的数据操作相关联的不确定性时,由于组成员资格的不明确性标识,将成员资格分配给几个替换(altemative)之中的一个组来维护(preserve)会计诚信(accounting integrity)可能给出误导性的图景(picture)。例如,出于风险评估和监管的目的,银行可能对确定其对于对手方的贷款风险感兴趣。经常通过公司名称标识对手方,由于公司名称的记录形式上的广泛可变性,会导致不明确的标识。反之,这意味着将贷款风险分配给对手方是不明确的。会发生与一个公司正确地相关联的贷款被在几个明显不同的公司之中划分,它们实际上只是这一个公司的名称的变化形式。这导致低估了银行对任一单个对手方的风险。或者,如果在替换之中做出了任意的选择,则会将风险错误地分配给一个对手方尽管该风险正确地是属于另一对手方的,从而可能高估了对第一家的风险并低估了对第二家的风险。

当存在与例如联接的数据操作相关联的不确定性时,由于不正确或者丢失的信息,强制一片数据进入特定组或者忽略该片数据可能导致错误的联系或者信息损失。例如,当试图联接来自两个不同数据库的表格时,经常不存在数据库表格共享的公共关键字。为了克服这一点,表格内的数据,例如客户地址,用于推断两个数据库中的记录之间的关系。但是,地址信息可能不正确或者不完整。假设对照权威性的参考集合(例如邮政地址文件)的地址有效性表明表格A中的记录上的房屋号码是无效的(不存在具有该房屋号码的房屋),而在表格B中存在可能是地址的有效替换的完整形式(alternative completion)的多个地址。任意地选择表格A中的记录中的地址的完整形式可能导致错误的联系,而忽略记录则导致信息损失。

当由于错误的数据录入(entry)而存在与例如搜索的数据操作相关联的不明确性时,一种方法是提出单个替换或者替换修正的简单列表。如果这是操作者录入数据库的数据的验证过程的一部分,则当存在多个替换时单个替换可能导致操作者在接受修正时对安全性的错误感知。如果提供了替换的简单列表,则操作者可能不具有在替换中进行选择的合理根据。如果要求单个选择并且对于错误选择接受数据质量的某种退化,则使数据质量的可能损失最小并量化成为目标。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于起元技术有限责任公司,未经起元技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200980142344.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top