[发明专利]一种适用于多种大数据管理系统的交互式查询方法有效

专利信息
申请号: 201710515380.6 申请日: 2017-06-29
公开(公告)号: CN107515887B 公开(公告)日: 2021-01-08
发明(设计)人: 沈志宏;李跃鹏;黎建辉 申请(专利权)人: 中国科学院计算机网络信息中心
主分类号: G06F16/903 分类号: G06F16/903
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 邱晓锋
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 适用于 多种 数据管理 系统 交互式 查询 方法
【说明书】:

本发明涉及一种适用于多种大数据管理系统的交互式查询方法,其步骤包括:1)建立关联文档模型,其包括文档集与关联集,所述关联集是文档之间的关联构成的集合;2)将不同的原始数据模型转换为关联文档模型,通过关联文档模型将不同的数据源连接为一体;3)基于关联文档模型,建立适合于多元数据的统一查询语言;4)利用适合于多元数据的统一查询语言,实现对关系型数据库、图数据库以及文件系统的统一查询。本发明首次提出了适合于多元数据管理系统的统一查询语言,可以实现对关系型数据库、图数据库,以及文件系统的统一查询。

技术领域

本发明涉及一种查询语言,具体涉及一种适用于大数据管理系统的交互式查询语言及查询方法,属于大数据、数据库技术领域。

背景技术

随着计算机的不断普及,数据的管理与处理需求日益迫切,人们针对不同的数据形态和特征提出了不同的数据模型,并实现了相应的数据管理系统来实现数据的管理和分析。比较有影响力的数据模型如E-R模型,自上个世纪70年代提出以来,E-R模型基本统治了数据库世界长达40多年。近十年以来,随着互联网和物联网应用的深入,大规模的结构化、半结构化、非结构数据的产生引发了NoSQL运动[Cattell R.Scalable SQL and NoSQLdata stores[J].ACM SIGMOD Record,2010,39(4):12-27]。数据库世界由最初的SQL垄断的局面转变成传统SQL、NoSQL、NewSQL分治的局面。

构建一个完善的大数据应用系统,需要充分考虑到来自4V[Gupta R,Gupta H,Mohania M.Cloud computing and big data analytics:what is new from databasesperspective?[C]//Proc of 1st BDA.,New Delhi,India:,Springer BerlinHeidelberg,2012:42–61.]的挑战,对大数据进一步分析、关联挖掘,甚至科学发现。以生物学科的科学数据为例,既有通过测序、质谱、核磁共振等仪器每天产生的大量基因序列文件、蛋白质序列文件、蛋白质的结构和功能等微观数据,也有传统的采用MongoDB或者SQL数据库来进行保存的物种信息、生理生化性状、反应条件信息等宏观数据,还有大量的文献、专利等知识信息。为了更好的实现知识发现,科研人员往往还会引进生物本体,通过RDF关联网络的方式来管理物种、蛋白质、基因等数据之间的大规模的关联。这些微观与宏观层面的信息最终形成了一个有机的数据库,从而从整体的层面对生命来进行理解和研究。以数据驱动的科学发现往往需要调度一系列的数据流水线完成,可以看出,这些流水线会跨越数据的采集、批量写入、查询、分析以及可视化等多个过程,这其中就存在着一个巨大的问题:如何让流水线编程人员不再考虑底层数据存储模型的差异性,而能以一种统一的方式访问和操作数据?这个问题映射到数据管理技术中,即如何跨越SQL、NoSQL、NewSQL数据库的边界,实现多元数据模型的统一数据访问,并为Hadoop、Spark这样的计算框架提供统一的数据操作接口。

目前关系数据库涵盖分布式数据库到内存数据库,主要有MySQL、PostgreSQL、Oracle、SQLite等,通过ACID和事务确保数据访问的一致性,使用表、列、关键字对数据进行处理,适用于结构固定、强一致性的应用场合。1986年10月,美国ANSI采用SQL作为关系数据库管理系统的标准语言(ANSI X3.135-1986),后为ISO采纳为国际标准。SQL从而成为目前使用最广泛的关系数据库查询语言。

NoSQL数据库包括Key-Value数据库、列式数据库、文档数据库、图数据库。由于NoSQL数据库目前还缺乏一套统一的查询语言,有部分研究致力于针对NoSQL数据库封装出SQL查询的接口,如Hive提供类似于SQL的HQL查询语言,简化了NoSQL数据库的使用难度。Spark SQL是一种基于Spark DataFrame大数据处理框架的SQL实现,支持基于SQL的大数据处理和分析。基于DataFrame,Spark能够为目前大量数据库如MySQL、HBase、Cassandra、MongoDB提供基于大数据的SQL查询分析能力。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710515380.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top