[发明专利]数据处理方法、软件和数据处理系统有效
申请号: | 200810093034.4 | 申请日: | 2004-09-15 |
公开(公告)号: | CN101271472A | 公开(公告)日: | 2008-09-24 |
发明(设计)人: | 乔尔·古尔德;卡尔·范曼;保罗·贝 | 申请(专利权)人: | AB开元软件公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 隆天国际知识产权代理有限公司 | 代理人: | 郑小军 |
地址: | 美国马*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 软件 数据处理系统 | ||
1.一种数据处理方法,包括如下步骤:
识别数据源的数据记录字段的多个子集;
确定多个子集中每个子集的同现统计数字;以及
识别多个子集中的一个或多个子集,使得在所识别的子集的字段之间具有函数关系。
2.如权利要求1所述的方法,其中,字段的至少一个子集是两个字段的子集。
3.如权利要求1所述的方法,其中,识别多个子集中的一个或多个子集、使得在所识别的子集的字段之间具有函数关系的步骤包括如下步骤:识别多个子集中的一个或多个子集,使其具有多种可能的预定函数关系之一。
4.如权利要求1所述的方法,其中,确定同现统计数字的步骤包括如下步骤:形成数据元素,每个数据元素识别一个数据记录中的一对字段并识别在该对字段中出现的一对值。
5.如权利要求1所述的方法,其中,确定同现统计数字的步骤包括如下步骤:
将数据记录分割成多个部分,这些数据记录具有第一字段和第二字段;
基于在第一部分中的一个或多个记录的第二字段中出现的值的分布,确定参量,其中,所述一个或多个记录具有在所述一个或多个记录的第一字段中出现的公共值;以及
将该参量与基于其它部分中的记录得到的其它参量进行合并,以产生总参量。
6.如权利要求5所述的方法,其中,识别多个子集中的一个或多个子集、使得在所识别的子集的字段之间具有函数关系的步骤包括如下步骤:基于该总参量识别在第一与第二字段之间的函数关系。
7.如权利要求5所述的方法,其中,这些部分基于第一字段的值和第二字段的值获得。
8.如权利要求5所述的方法,其中,使用一组并行组件中分开的一些组件处理这些部分。
9.如权利要求1所述的方法,其中,识别多个子集中的一个或多个子集、使得在所识别的子集的字段之间具有函数关系的步骤包括如下步骤:确定与所述函数关系匹配的程度。
10.如权利要求9所述的方法,其中,该匹配的程度包括与所述函数关系不一致的例外记录的个数。
11.如权利要求1所述的方法,其中,该函数关系包括第一字段的至少一些值到第二字段的至少一些值的映射。
12.如权利要求11所述的方法,其中,该映射是多对一映射。
13.如权利要求11所述的方法,其中,该映射是一对多映射。
14.如权利要求11所述的方法,其中,该映射是一对一映射。
15.如权利要求1所述的方法,还包括如下步骤:基于用以描述多个子集的字段中的值的特性信息,对这多个子集进行过滤。
16.如权利要求1所述的方法,其中,所述数据记录包括数据库表格的记录。
17.如权利要求16所述的方法,其中所述数据记录包括多个数据库表格的记录。
18.一种软件,包含在数据处理系统中运行时适用于执行权利要求1到17任一项所述的方法步骤的指令。
19.如权利要求18所述的软件,以计算机可读介质的形式实施。
20.一种数据处理系统,包括:
识别处理模块,其配置为识别数据源的数据记录字段的多个子集;
统计数字处理模块,其配置为确定多个子集中的每个子集的同现统计数字;以及
函数关系处理模块,其配置为识别多个子集中的一个或多个子集,使得在所识别的子集的字段之间具有函数关系。
21.一种数据处理系统,包括:
子集识别装置,用于识别数据源的数据记录字段的多个子集;
确定装置,用于确定多个子集中的每个子集的同现统计数字;以及
函数关系识别装置,用于识别多个子集中的一个或多个子集,使得在所识别的子集的字段之间具有函数关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于AB开元软件公司,未经AB开元软件公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810093034.4/1.html,转载请声明来源钻瓜专利网。