[发明专利]批量数据查询方法和装置有效
申请号: | 201410673523.2 | 申请日: | 2014-11-21 |
公开(公告)号: | CN105677683B | 公开(公告)日: | 2018-12-14 |
发明(设计)人: | 李丰;王蕾;张赟;冯晓兵 | 申请(专利权)人: | 华为技术有限公司;中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 马爽;黄健 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 批量 数据 查询 方法 装置 | ||
本发明实施例提供一种批量数据查询方法和装置,通过获取多条查询语句对应的多棵逻辑查询计划树,根据每棵逻辑查询计划树的各操作符将多棵逻辑查询计划树划分为多个查询组,每个查询组中的逻辑查询计划树之间具有下述关系:查询间写读依赖关系、操作符重叠关系或操作数重叠关系,然后,对每个查询组内的逻辑查询计划树进行查询间优化,根据优化后的多棵逻辑查询计划树生成对应的多棵物理查询计划树,最后,根据多棵物理查询计划树执行物理查询得到多条查询语句的查询结果。所述方法通过对多棵逻辑查询计划树进行分组,提高了查询组内的逻辑查询计划树之间的优化机会,通过对查询组内的逻辑查询计划树进行查询间优化,提高了批量数据查询的效率。
技术领域
本发明实施例涉及数据仓库查询优化技术,尤其涉及一种批量数据查询方法和装置。
背景技术
目前代表性的大数据查询系统(如:Hive,Shark,Impala)均以单条查询语句作为解析和优化的基本单位,其基本查询处理流程如下:首先,将读入的单条查询语句解析成树状结构的逻辑查询计划树,然后,通过对逻辑查询计划树的每一个算子选择实现算法,并确定这些算子的执行顺序,从而将逻辑查询计划树转换为物理查询计划,最后,查询执行引擎执行该物理查询计划,并输出查询结果。
大数据查询系统的一个关键性能是查询效率,目前常用的提高大数据查询系统查询效率的方法主要是通过对逻辑查询计划树进行等价变换,以减少物理查询计划中的任务数量、降低任务的执行开销(包括:降低对文件系统的读写频率、控制网络传输的数据量以及查询操作的计算量等)。然而,在数据仓库(Data Warehouse)的批量查询场景下,传统的以单条查询语句为解析和优化基本单位的处理模式存在优化机会不足的问题。例如:Hive0.12版本新增的任务流关联性优化只能为标准测试集TPC-H共计22个查询用例中的3个用例带来加速,且对用例的书写方式有特定的要求。
与查询内优化机会不足构成强烈对比的是数据仓库批量查询应用场景中所呈现出的丰富的查询间优化机会,查询间优化机会即多条查询语句之间存在的优化机会,在批量查询应用场景下,查询语句之间存在雷同的概率较高,因此,存在大量的查询优化机会,但是,现有技术中只针对单条查询语句进行查询优化,使得大数据查询的查询效率低下。
发明内容
本发明实施例提供一种批量数据查询方法和装置,以提高批量数据查询效率。
本发明第一方面提供一种批量数据查询方法,包括:
获取多条查询语句对应的多棵逻辑查询计划树,其中,每条查询语句对应一棵逻辑查询计划树,所述多棵逻辑查询计划树中的每棵逻辑查询计划树包括多个操作符,所述每棵逻辑查询计划树的每个操作符包括至少一个操作数;
根据所述每棵逻辑查询计划树的各操作符将所述多棵逻辑查询计划树划分为多个查询组,其中,每个查询组中的逻辑查询计划树之间具有下述关系:查询间写读依赖关系、操作符重叠关系或操作数重叠关系;
对所述每个查询组内的各逻辑查询计划树进行查询间优化;
根据优化后的多棵逻辑查询计划树生成对应的多棵物理查询计划树;
根据所述多棵物理查询计划树执行物理查询,得到所述多条查询语句的查询结果。
结合本发明第一方面,在本发明第一方面的第一种可能的实现方式中,所述根据所述每棵逻辑查询计划树的各操作符将所述多棵逻辑查询计划树划分为多个查询组,包括:
根据所述每棵逻辑查询计划树的各操作符和所述每棵逻辑查询计划树的各操作符的各操作数的数据标识,确定所述每棵逻辑查询计划树的查询间写读依赖关系,将所有具有查询间写读依赖关系的逻辑查询计划树划分到第一分组中,将所有不具有查询间写读依赖关系的逻辑查询计划树划分到第二分组中;
根据所述第一分组中的每棵逻辑查询计划树的查询间写读依赖关系将所述第一分组中的逻辑查询计划树划分为至少一个查询组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;中国科学院计算技术研究所,未经华为技术有限公司;中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410673523.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种道路编码方法及装置
- 下一篇:共享图片的方法和装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置