[发明专利]一种跨平台统一的大数据SQL查询方法有效
申请号: | 201910347842.7 | 申请日: | 2019-04-28 |
公开(公告)号: | CN110059103B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 黄宜华;朱光辉;尹良良 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/21 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 杨林洁 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 平台 统一 数据 sql 查询 方法 | ||
本发明公开了一种跨平台统一的大数据SQL查询方法,包括以下步骤:扩展部分SQL语义,为用户提供统一的跨平台SQL查询语言;统一SQL解析器将用户提交的查询语句解析为逻辑查询计划,并根据统一元数据库中保存的元信息,验证查询语句的合法性;跨平台优化器优化逻辑查询计划的结构与连接顺序,并将逻辑查询计划转化为由多个绑定了执行平台的子查询构成的最佳物理执行计划;跨平台调度器将最佳物理执行计划转化为任务流图,并根据任务间的依赖关系自动调度、执行所有任务;设计满足跨平台SQL查询需求的统一的平台层接口,屏蔽不同执行平台间的操作差异。本发明解决现有跨平台查询方法易用性差、性能低、数据迁移开销巨大等问题。
技术领域
本发明涉及大数据SQL查询与自动化调度领域,尤其涉及一种跨平台统一的大数据SQL查询方法。
背景技术
SQL是目前使用最广泛的数据查询分析语言。越来越多的大数据系统提供了对SQL的支持,其中的典型代表为Apache Hive、Apache Spark SQL以及Apache Impala。事实上,大数据SQL查询分析仍然是目前行业大数据分析应用中最广为使用的技术之一。然而,为了满足各行各业对大数据分析的不同需求,出现了许多侧重不同领域的数据库查询系统。这些系统在查询语言、数据格式、计算模型、系统架构与底层存储技术等方面往往存在很大的差异,大大增加了数据分析人员的学习成本与使用成本,提升了大数据查询分析的门槛,也限制了跨平台查询分析的可能性。
另一方面,最近的研究表明,每个企业应用程序平均都涉及至少两到三种不同类型的查询系统。许多现实的分析业务也提出了便捷、高效地执行跨平台查询的需求。例如,不同部门之间数据的统一分析,不同医院之间医务人员、患者与诊疗信息的统一查询等。
跨平台查询,即在一个查询语句中通过Join连接不同平台中的表数据,已经成为学术界与工业界的一个研究热点。
已有跨平台查询的研究工作在易用性、统一性与高效性方面都存在一定的问题和不足。现有工作没有为用户提供一个适用于跨平台查询的统一SQL查询语言,易用性不高;其次,现有的跨平台优化方法找到的物理执行计划并不高效,不能以最优的方式实现子查询划分和子查询调度,无法充分利用多个执行平台的性能;此外,现有工作只能针对单一的跨平台SQL查询进行优化,无法复用已迁移的中间数据,从而导致较低的迁移效率,严重影响跨平台查询的性能。
发明内容
发明目的:针对当前尚缺少易用、统一、高效的跨平台查询方法,本发明的目的是提供一种高效的跨平台统一的大数据SQL查询方法,为用户提供统一的查询语言并屏蔽底层不同平台的异构性,将跨平台查询切分成多个子查询,并在多个执行平台之间自动完成子查询的调度执行与数据迁移,使用户仅需关注查询语句本身,从而大幅度提高用户查询分析的效率,解决现有跨平台查询方法易用性差、性能低、数据迁移开销巨大等问题。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种跨平台统一的大数据SQL查询方法,包括以下步骤:
(1)扩展部分SQL语义,为用户提供统一的跨平台SQL查询语言,允许用户在一个查询语句中通过Join连接不同平台中的表数据;
(2)统一SQL解析器将用户提交的查询语句解析为逻辑查询计划,并根据统一元数据库中保存的元信息,验证查询语句的合法性;
(3)跨平台优化器优化所述步骤(2)得到的逻辑查询计划的结构与连接顺序,并生成具有最小执行代价的最佳物理执行计划;所述最佳物理执行计划中的各节点均为绑定了执行平台的子查询;
(4)跨平台调度器为所述最佳物理执行计划中的每个子查询生成一个子查询任务,在执行平台不同但具有依赖关系的两个子查询任务之间生成数据迁移任务,并通过分析所有任务之间的依赖关系构建任务流图,利用平台层提供的统一接口自动调度、执行所有任务;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910347842.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置