[发明专利]数据处理方法、软件和数据处理系统有效
申请号: | 200810093034.4 | 申请日: | 2004-09-15 |
公开(公告)号: | CN101271472A | 公开(公告)日: | 2008-09-24 |
发明(设计)人: | 乔尔·古尔德;卡尔·范曼;保罗·贝 | 申请(专利权)人: | AB开元软件公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 隆天国际知识产权代理有限公司 | 代理人: | 郑小军 |
地址: | 美国马*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 软件 数据处理系统 | ||
本申请是申请日为2004年9月15、申请号为200480026429.2、发明名称为“数据归档”的发明专利申请的分案申请。
相关申请的参照
本申请要求2003年9月15日提交的No.60/502,908、2003年10月20递交的No.60/513,038以及2003年12月22日递交的No.60/532,956的美国临时申请的权益。上述引用的申请通过参考援引在此。
技术领域
本发明涉及数据归档(profiling)。
背景技术
存储的数据集经常包括事先未知各种特性的数据。例如,数据集的值或一般值的范围,在数据集内不同字段之间的关系,或在不同字段中的值之间的函数依赖性可能是未知的。数据归档会涉及到检查数据集的源,以确定这些特性。数据归档系统的用途之一是收集有关数据集的信息,然后该信息用于设计集结区(staging area),以便在进一步处理之前装载数据集。然后,基于在数据归档过程中收集的信息,在集结区中进行将数据集映射到希望的目标格式和位置所需的转换。这种转换可能是必要的,例如,使第三方数据与已有数据存储器兼容,或者将数据从原来的计算机系统转移到新的计算机系统。
发明内容
一般而言,在一个方案中,本发明的特征是方法、对应的软件以及数据处理系统。将来自数据源的数据归档。此归档包括从数据源读取数据,在读取数据时计算用以描述数据特性的概述数据,以及存储基于概述数据的归档信息。然后,处理来自数据源的数据。此处理包括访问所存储的归档信息和根据访问的归档信息处理数据。
一般而言,在另一个方案中,本发明的特征是数据处理方法。将来自数据源的数据归档。此归档包括从数据源读取数据,在读取数据时计算用以描述数据特性的概述数据,以及存储基于概述数据的归档信息。数据归档包括以并行方式归档数据,这包括将数据分割成多个部分,并使用第一组并行组件中分开的一些组件处理这些部分。
本发明的方案可以包括一个或多个以下特征。
对来自数据源的数据的处理包括从数据源读取数据。
在进行数据归档时,不保留数据源外的数据的副本。例如,数据可包括具有可变记录结构(例如条件字段和可变数目的字段)的记录。在读取数据时对概述数据的计算包括在计算用以描述数据特性的概述数据时对可变记录结构记录作出解释。
数据源包括数据存储系统,例如数据库系统、或串行或并行文件系统。
对概述数据的计算包括对字段的一组相异值中的每个值的出现次数进行计数。归档信息可以包括基于对所述字段计算的出现次数得到的该字段的统计数字。
对包含与数据源相关的元数据的元数据存储器进行维护。对归档信息的存储可包括更新与数据源相关的元数据。对数据的归档和对数据的处理均可以利用数据源的元数据。
对来自数据源的数据的归档还包括基于归档信息确定格式规范。也可包括基于归档信息确定有效性规范。在数据处理期间,可以基于格式规范和/或有效性规范识别无效记录。
基于归档信息指定数据转换指令。然后,对数据的处理可以包括将转换指令应用于数据。
对数据的处理包括将数据输入到数据存储子系统。在将数据输入数据存储子系统之前,可以将数据进行验证。这种数据验证可以包括例如通过比较数据的统计属性将数据的特性与数据的基准特性相比较。
对数据的归档可以以并行方式进行。这可以包括将数据分割成多个部分,并使用第一组并行组件中分开的一些组件处理这些部分。对不同数据字段的概述数据的计算可以包括使用第二组并行组件中分开的一些组件。第一组并行组件的输出可以被重新分割,以形成第二组并行组件的输入。数据可以从并行数据源读取,该并行的数据源的每个部分由第一组并行组件中不同的一个并行组件处理。
一般而言,在另一个方案中,本发明的特征是方法、对应的软件以及数据处理系统。接受用以描述第一数据源的记录中第一字段的值的特性的信息和用以描述第二数据源的记录中第二字段的值的特性的信息。然后,基于所接受的信息,计算用以描述第一字段与第二字段之间的关系的特性的参量。呈现与第一字段和第二字段有关的信息。
本发明的方案可以包括一个或多个以下特征。
将与第一字段和第二字段有关的信息呈现给用户。
第一数据源和第二数据源可以是同一个数据源,或者是分开的数据源。所述数据源中的任一个或两个都可以是数据库表格或文件。
用以描述该关系的特性的参量包括描述第一字段的值与第二字段的值的汇合特性的参量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于AB开元软件公司,未经AB开元软件公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810093034.4/2.html,转载请声明来源钻瓜专利网。