[发明专利]采用位置信息剖析数据有效

专利信息
申请号: 201380055340.8 申请日: 2013-08-02
公开(公告)号: CN104756107B 公开(公告)日: 2019-01-01
发明(设计)人: 阿伦·安德森 申请(专利权)人: 起元科技有限公司
主分类号: G06F16/215 分类号: G06F16/215
代理公司: 隆天知识产权代理有限公司 72003 代理人: 郝新慧;张浴月
地址: 美国马*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 采用 位置 信息 剖析 数据
【说明书】:

剖析数据包括处理被访问的记录集合(203),包括:对在第一组一个或多个字段上出现的第一组特异值,产生相应的位置信息;对第一组字段,产生相应的条目列表(209),其从第一组特异值中识别一个特异值以及该特异值的位置信息;对第二组一个或多个字段,产生相应的条目列表(209),每个条目从出现在第二组字段的第二组特异值中识别一个特异值;和至少部分基于下述产生结果信息(240):采用出现在第一组字段的至少一个值的位置信息对集合中的至少一个记录进行定位,确定在该被定位记录的第二组字段中所出现的至少一个值。

相关申请的交叉引用

本申请要求享有2012年10月22日提交的美国申请号61/716,766的优先权,该申请通过引用合并于此。

背景技术

本说明书涉及采用位置信息剖析(profile)数据。

存储的数据集经常包括各种特性未知的数据。数据集中的数据可以被组织为具有用于不同字段也称为“属性”或“列”)的值的记录。字段内的值可以包括字符串、数字或根据该字段的相关数据格式信息而编码或格式化而成的任何数据(包括可能无效的值)。在一些情况下,用于字段的数据格式信息是已知的,但是在该字段中显现的真实值可能不是已知的。例如,数据集内记录间字段的值范围或典型值、数据集内记录的不同字段之间的关系、或不同字段中的值的依赖性(dependency)可能是未知的。数据剖析涉及检查数据集的来源,从而确定所述特性。

发明内容

在一个方案中,通常,对存储在至少一个数据存储系统中的数据进行剖析的方法包括:经与数据存储系统连接的接口上,访问存储在数据存储系统中的至少一个记录集合;对所述记录集合(collection)进行处理,以产生结果信息,所述结果信息表征所述记录集合的一个或多个特定字段中所出现的值。所述处理包括:对出现在集合中记录的第一组一个或多个字段上的第一组特异值(distinct values),产生相应的位置信息,所述位置信息针对第一组特异值中的每个特异值识别出现该特异值的所有每条记录,对所述第一组一个或多个字段,产生相应的条目(entry)列表,每个条目从第一组特异值中识别一个特异值以及该特异值的位置信息,对不同于所述第一组一个或多个字段的、集合中记录的第二组一个或多个字段,产生相应的条目列表,每个条目从所述第二组一个或多个字段中所出现的第二组特异值中确定一个特异值;以及至少部分基于下述产生表征出现在所述记录集合的一个或多个特定字段中的值的结果信息:采用出现在所述第一组一个或多个字段的至少一个值的位置信息对所述记录集合中的至少一个记录进行定位,确定在该被定位记录的所述第二组一个或多个字段上所出现的至少一个值。

这些方案可以包括以下特征。

每个条目进一步识别对在一组一个或多个字段中出现特异值的记录的数量的计数。

所述处理进一步包括通过所识别的计数,对在每个列表中的条目进行分类(sort)。

所述处理进一步包括:对于所述第二组特异值,产生相应的位置信息,所述位置信息针对第二组特异值中的每个特异值识别出现该特异值的所有每条记录。其中,对于对应于所述第二组一个或多个字段的列表,从所述第二组特异值中识别出一个特异值的每个条目包括该特异值的位置信息。

所述处理进一步包括:对于一组特异值对,产生相应的位置信息,其中其中每对值中的第一值出现在所述记录的所述第一组一个或多个字段中,每对值中的第二值出现在所述记录的所述第二组一个或多个字段中,所述位置信息对于每个特异值对识别出现该特异值对的所有每条记录。

从该组特异值对中产生特异值对的位置信息包括:确定来自所述第一组特异值的第一特异值的位置信息与来自所述第二组特异值的第二特异值的位置信息之间的交集。

确定所述交集包括:采用所述第一特异值的位置信息以定位所述集合中的记录,使用该被定位的记录来确定所述第二特异值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于起元科技有限公司,未经起元科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201380055340.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top