[发明专利]格式化数据库中的半结构化数据在审

专利信息
申请号: 201380072533.4 申请日: 2013-02-07
公开(公告)号: CN104969221A 公开(公告)日: 2015-10-07
发明(设计)人: 本杰明·M·万迪韦尔;亚当·本杰明·塞林;马修·史蒂文·富勒 申请(专利权)人: 慧与发展有限责任合伙企业
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京德琦知识产权代理有限公司 11018 代理人: 柴德海;康泉
地址: 美国德*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 格式化 数据库 中的 结构 数据
【说明书】:

在一些示例中,格式化数据库中的半结构化数据包括:将半结构化数据获取到列存储数据库中,将该半结构化数据分配给具有键和值格式的半结构化列,以及利用最优搜索格式来格式化该半结构化数据。

背景技术

数据库使用各种格式来组织待响应于搜索查询而被搜索的数据。一种这样的数据库组织包括顺序地成行组织该数据。响应于搜索查询,从每行的开始顺序地读取该行,以定位与该搜索查询有关的数据。另一种数据库是列存储数据库,该列存储数据库以列而不是以行存储数据。这样的数据库定位每列中的信息,而不必读取与搜索查询无关的数据的顺序列表。因此,列存储数据库利用与行存储数据库不同的搜索技术来搜索与搜索查询有关的数据。

附图说明

附图图示本文描述的原理的各示例并且是本说明书的一部分。所图示的示例仅是示例,而不限制权利要求的范围。

图1是根据本文描述的原理的列存储数据库的示例的图。

图2是根据本文描述的原理的、具有键和值格式的半结构化列的示例的图。

图3是根据本文描述的原理的、用于格式化数据库中的半结构化数据的方法的示例的图。

图4是根据本文描述的原理的格式化系统的示例的图。

图5是根据本文描述的原理的格式化系统的示例的图。

图6是根据本文描述的原理的、用于将半结构化数据加载到数据库中的方法的流程图的示例的图。

图7是根据本文描述的原理的、用于格式化数据库中的半结构化数据的方法的流程图的示例的图。

具体实施方式

像列存储数据库这样的关系数据库执行搜索,其中数据在所有记录之间以固定且一致的格式组织。虽然可以将这样的模式改变为包括其它列值,但是这种行为是由用户驱动的,而不是由列存储数据库隐含地执行的。因此,将新类型的数据加载到数据库中的过程涉及在加载该数据之前执行模式限定任务的用户。此外,该执行模式限定任务的用户具有用于准确地限定列数和数据类型(包括字符串字段最大宽度)的关于该数据的足够知识,使得列存储数据库可以将该新增加的数据放入其已有的固定且一致的格式中。

模式限定任务可能成为将数据输入关系数据库中的障碍。此外,用户可能不具有用于规划紧凑模式的关于新数据的足够知识。一旦数据被加载,像结构化查询语言(SQL)这样的查询语言适合于表达将执行的分析。

数据集中的许多是自描述的且包括与列名、描述和类型有关的元数据。例如,JavaScript对象表示法(JSON)格式描述列和数据类型。甚至像逗号分隔值(CSV)或制表符分隔值(TSV)这样的简单分界格式经常在顶部具有描述列名的标题行。

在数据的记录由于记录内容改变或由于在单个数据流中存在多个记录类型而不一致的多变模式中,多变模式也对固定模式关系数据库带来问题。记录可能缺少字段,或者较新版本的数据源可以提供其它字段。多个不同记录类型可以出现在同样的流上。这样的新数据还不整齐地放入关系数据库的紧凑模式中。

本文描述的原理包括一种用于格式化数据库中的半结构化数据的方法。这样的方法包括:将半结构化数据获取到列存储数据库中,将该半结构化数据分配给具有键和值格式的半结构化列,以及利用最优搜索格式来格式化该半结构化数据。该半结构化数据可以包括数据库未知的数据或在不同记录之间具有不一致格式的数据。该半结构化数据可以包括不整齐地放入关系数据库所用的用于优化搜索的紧凑模式中的其它类型数据。该键和值格式包括以下格式:键数据和该键数据的关联值被配对在一起作为可以在半结构化列中被搜索到的对。最优搜索格式包括除仅键和值对之外的额外信息和/或结构。这样的额外信息和/或结构提高搜索引擎搜索半结构化数据的能力。这样的额外信息可以包括元数据,该元数据提供可以在紧凑模式中用于允许半结构化列中最优搜索次数的关键字、标签、描述、其它值、额外索引信息、其它信息或以上的组合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧与发展有限责任合伙企业,未经慧与发展有限责任合伙企业许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201380072533.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top