[发明专利]一种适用于多种大数据管理系统的交互式查询方法有效
申请号: | 201710515380.6 | 申请日: | 2017-06-29 |
公开(公告)号: | CN107515887B | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 沈志宏;李跃鹏;黎建辉 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06F16/903 | 分类号: | G06F16/903 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 适用于 多种 数据管理 系统 交互式 查询 方法 | ||
本发明涉及一种适用于多种大数据管理系统的交互式查询方法,其步骤包括:1)建立关联文档模型,其包括文档集与关联集,所述关联集是文档之间的关联构成的集合;2)将不同的原始数据模型转换为关联文档模型,通过关联文档模型将不同的数据源连接为一体;3)基于关联文档模型,建立适合于多元数据的统一查询语言;4)利用适合于多元数据的统一查询语言,实现对关系型数据库、图数据库以及文件系统的统一查询。本发明首次提出了适合于多元数据管理系统的统一查询语言,可以实现对关系型数据库、图数据库,以及文件系统的统一查询。
技术领域
本发明涉及一种查询语言,具体涉及一种适用于大数据管理系统的交互式查询语言及查询方法,属于大数据、数据库技术领域。
背景技术
随着计算机的不断普及,数据的管理与处理需求日益迫切,人们针对不同的数据形态和特征提出了不同的数据模型,并实现了相应的数据管理系统来实现数据的管理和分析。比较有影响力的数据模型如E-R模型,自上个世纪70年代提出以来,E-R模型基本统治了数据库世界长达40多年。近十年以来,随着互联网和物联网应用的深入,大规模的结构化、半结构化、非结构数据的产生引发了NoSQL运动[Cattell R.Scalable SQL and NoSQLdata stores[J].ACM SIGMOD Record,2010,39(4):12-27]。数据库世界由最初的SQL垄断的局面转变成传统SQL、NoSQL、NewSQL分治的局面。
构建一个完善的大数据应用系统,需要充分考虑到来自4V[Gupta R,Gupta H,Mohania M.Cloud computing and big data analytics:what is new from databasesperspective?[C]//Proc of 1st BDA.,New Delhi,India:,Springer BerlinHeidelberg,2012:42–61.]的挑战,对大数据进一步分析、关联挖掘,甚至科学发现。以生物学科的科学数据为例,既有通过测序、质谱、核磁共振等仪器每天产生的大量基因序列文件、蛋白质序列文件、蛋白质的结构和功能等微观数据,也有传统的采用MongoDB或者SQL数据库来进行保存的物种信息、生理生化性状、反应条件信息等宏观数据,还有大量的文献、专利等知识信息。为了更好的实现知识发现,科研人员往往还会引进生物本体,通过RDF关联网络的方式来管理物种、蛋白质、基因等数据之间的大规模的关联。这些微观与宏观层面的信息最终形成了一个有机的数据库,从而从整体的层面对生命来进行理解和研究。以数据驱动的科学发现往往需要调度一系列的数据流水线完成,可以看出,这些流水线会跨越数据的采集、批量写入、查询、分析以及可视化等多个过程,这其中就存在着一个巨大的问题:如何让流水线编程人员不再考虑底层数据存储模型的差异性,而能以一种统一的方式访问和操作数据?这个问题映射到数据管理技术中,即如何跨越SQL、NoSQL、NewSQL数据库的边界,实现多元数据模型的统一数据访问,并为Hadoop、Spark这样的计算框架提供统一的数据操作接口。
目前关系数据库涵盖分布式数据库到内存数据库,主要有MySQL、PostgreSQL、Oracle、SQLite等,通过ACID和事务确保数据访问的一致性,使用表、列、关键字对数据进行处理,适用于结构固定、强一致性的应用场合。1986年10月,美国ANSI采用SQL作为关系数据库管理系统的标准语言(ANSI X3.135-1986),后为ISO采纳为国际标准。SQL从而成为目前使用最广泛的关系数据库查询语言。
NoSQL数据库包括Key-Value数据库、列式数据库、文档数据库、图数据库。由于NoSQL数据库目前还缺乏一套统一的查询语言,有部分研究致力于针对NoSQL数据库封装出SQL查询的接口,如Hive提供类似于SQL的HQL查询语言,简化了NoSQL数据库的使用难度。Spark SQL是一种基于Spark DataFrame大数据处理框架的SQL实现,支持基于SQL的大数据处理和分析。基于DataFrame,Spark能够为目前大量数据库如MySQL、HBase、Cassandra、MongoDB提供基于大数据的SQL查询分析能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710515380.6/2.html,转载请声明来源钻瓜专利网。