[发明专利]格式化数据库中的半结构化数据在审
| 申请号: | 201380072533.4 | 申请日: | 2013-02-07 |
| 公开(公告)号: | CN104969221A | 公开(公告)日: | 2015-10-07 |
| 发明(设计)人: | 本杰明·M·万迪韦尔;亚当·本杰明·塞林;马修·史蒂文·富勒 | 申请(专利权)人: | 慧与发展有限责任合伙企业 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 柴德海;康泉 |
| 地址: | 美国德*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 格式化 数据库 中的 结构 数据 | ||
1.一种用于格式化数据库中的半结构化数据的方法,包括:
将半结构化数据获取到列存储数据库中;
将所述半结构化数据分配给具有键和值格式的半结构化列;以及
利用最优搜索格式来格式化所述半结构化数据;
其中利用最优搜索格式来格式化所述半结构化数据包括:针对所述半结构化数据来分析搜索查询,并且使所述半结构化数据的格式以所述搜索查询为基础。
2.根据权利要求1所述的方法,进一步包括:响应于搜索查询而搜索所述半结构化列。
3.根据权利要求2所述的方法,其中响应于搜索查询而搜索所述半结构化列包括:如果所述搜索查询未能与所述列存储数据库中的其它列相匹配,则搜索所述半结构化列。
4.根据权利要求1所述的方法,其中所述半结构化数据包括所述列存储数据库未知的格式。
5.根据权利要求1所述的方法,其中所述半结构化数据包括在多个记录之间不一致的格式。
6.根据权利要求1所述的方法,其中利用最优搜索格式来格式化所述半结构化数据包括:重新格式化所述半结构化列。
7.根据权利要求1所述的方法,进一步包括:确定所述半结构化数据中的一些是否用所述列存储数据库被识别出。
8.根据权利要求7所述的方法,其中将所述半结构化数据分配给具有键和值格式的半结构化列包括:如果所述半结构化数据中的所述一些用所述列存储数据库被识别出,则将所述半结构化数据分配给所述列存储数据库的所述半结构化列和显式列。
9.一种用于格式化数据库中的半结构化数据的系统,包括:
在存储器中存储的程序指令,使处理器操作多个引擎;
所述多个引擎中的获取引擎将半结构化数据获取到列存储数据库中;
所述多个引擎中的加载引擎将所述半结构化数据加载至具有键和值格式的半结构化列;
所述多个引擎中的搜索引擎基于与所述键和值格式的键相匹配的搜索查询,搜索所述半结构化列;以及
所述多个引擎中的格式化引擎基于所述搜索查询,利用最优搜索格式来格式化所述半结构化数据;
其中利用最优搜索格式来格式化所述半结构化数据包括:针对所述半结构化数据来分析所述搜索查询,并且使所述半结构化数据的格式以所述搜索查询为基础。
10.根据权利要求9所述的系统,其中所述半结构化数据包括所述列存储数据库未知的格式或在多个记录之间不一致的格式。
11.根据权利要求9所述的系统,其中所述格式化引擎利用所述最优搜索格式来重新格式化所述半结构化列。
12.根据权利要求9所述的系统,进一步包括所述多个引擎中的确定引擎,所述确定引擎确定所述半结构化数据中的一些是否用所述列存储数据库被识别出。
13.根据权利要求12所述的系统,其中如果所述确定引擎确定所述半结构化数据中的所述一些用所述列存储数据库被识别出,则所述加载引擎将所述半结构化数据加载到所述列存储数据库的所述半结构化列和显式列中。
14.一种用于格式化数据库中的半结构化数据的计算机程序产品,包括:
非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质包括所述非暂时性计算机可读介质包含的计算机可读程序代码,所述计算机可读程序代码包括程序指令,该程序指令在被执行时使处理器:
将半结构化数据获取到列存储数据库处;
确定所述半结构化数据中的一些是否用所述列存储数据库被识别出;
将所述半结构化数据加载至具有键和值格式的半结构化列;
基于与所述键和值格式的键相匹配的搜索查询,搜索所述半结构化列;以及
基于所述搜索查询,利用最优搜索格式来格式化所述半结构化数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧与发展有限责任合伙企业,未经慧与发展有限责任合伙企业许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380072533.4/1.html,转载请声明来源钻瓜专利网。





