[发明专利]基于数据量的查询连接方法有效
申请号: | 201410124531.1 | 申请日: | 2014-03-28 |
公开(公告)号: | CN103927346B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 陈岭;周强 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天勤知识产权代理有限公司33224 | 代理人: | 胡红娟 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于数据量的查询连接方法。该方法在大数据实时查询中深入考虑列式文件读取等特性来进行代价估算,确保生成最佳的连接顺序,其主要包括首先进行元数据服务器的构建工作;然后完成统计信息的收集;其次通过查询元数据服务器获取参与连接的各表的相关统计信息;接着根据统计信息进行选择度及数据量等相关参数的估算工作;最后通过计算各个执行计划相应代价找出最佳的连接顺序。该方法可提升代价估计的准确性,从而保证找到执行计划为最优,有效提高整体查询的效率。 | ||
搜索关键词: | 基于 数据量 查询 连接 方法 | ||
【主权项】:
一种基于数据量的查询连接方法,其特征在于,包括:步骤1,向元数据服务器提交查询请求,获取参与连接的各表所对应的统计信息;步骤2,根据获取到的统计信息估算得到当前查询执行计划中所有表的数据量;步骤3,重复步骤1及步骤2,直至遍历查询执行计划的搜索空间,找出具有合适数据量使得查询代价最小的执行计划,按该执行计划中的连接顺序进行表的连接;步骤1中,元数据服务器构建方式为,选取关系型数据库并设计列级别的表模式,根据设计好的表模式在相应的关系型数据库中创建元数据库及表关系,构建元数据服务器;步骤2中,每个表的数据量根据该表所对应的选择度、字段平均数据量和表的总行数计算得到;选择度的估算方法为,根据查询中的查询条件及统计信息进行相应计算,得到表中满足查询条件的行在所要查询的对象集合中所占的比例;每张表数据量size的计算公式如下:size=selectivity×numOfTableLine×Σi=1javgColSizei]]>selectivity表示查询的选择度,numsOfTableLine为表或视图的总行数,avgColSizei表示需要返回的表中第i列字段的平均数据量,j为表的列数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410124531.1/,转载请声明来源钻瓜专利网。
- 上一篇:交互式搜索及推荐方法和装置
- 下一篇:一种数据集成方法