[发明专利]一种针对二维数据表的高效索引及创建和查询方法无效
申请号: | 201210594103.6 | 申请日: | 2012-12-29 |
公开(公告)号: | CN103020305A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 孟祥斌;崔维力;武新;赵伟 | 申请(专利权)人: | 天津南大通用数据技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津滨海科纬知识产权代理有限公司 12211 | 代理人: | 孙春玲 |
地址: | 300384 天津市滨海新区高新区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 二维 数据表 高效 索引 创建 查询 方法 | ||
技术领域
本发明属于数据存储领域,尤其是涉及一种针对二维数据表的高效索引及创建和查询方法。
背景技术
关系型数据库中的关系表,就是一种典型的二维数据。常见的数据计算系统中往往采用粗粒度索引(rough index)或者精确索引,来降低针对字段进行搜索时的I/O量,从而提升查询性能。精确索引又分全局索引和局部索引两种,以哈希索引为例:
全局哈希索引查询性能很好,但创建和维护的代价极高,数据膨胀率很大(往往比原始数据膨胀1.5倍以上,甚至更大)。
局部哈希索引对每个数据块分别创建索引,对某个数据块更新时的维护代价仅限于这个数据块的索引数据,因而维护代价较低。但是,查询时每块的索引都要被扫描,I/O次数较多,性能不如全局索引。
粗粒度索引是一种局部索引,其存储的内容是每个数据块中的统计信息。由于统计信息数据量很小,在查询时,其I/O代价几乎可以忽略不计
如果要查找某一字段中取值为100的数据,可以利用带有最大值、最小值信息的粗粒度索引,即可在无需打开任何数据的前提下,立即排除掉肯定不命中的数据块(最大值小于100或最小值大于100);同时,可以确定肯定命中的数据块(最大值和最小值都等于100)。而后,再打开其他无法确定的数据,即可准确定位所有命中的数据。但对于分布较离散的数据非常容易失效(极端情况下,粗粒度索引可能无法过滤掉任何数据,查询性能无法得到任何提升)。再者,粗粒度索引无法精确定位查询结果,对于不能精确排除的数据块,仍要打开原始数据进行扫描。
发明内容
本发明要解决的问题是提供一种针对二维数据表的高效索引及创建和查询方法。
为解决上述技术问题,本发明采用的技术方案是:一种针对二维数据表的高效索引的创建方法,包括:
1)将二维数据表分成若干的数据块;
2)为数据块创建块粗粒度索引;
3)为数据块创建块精确索引。
进一步的,所述的第3步骤中的块局部索引为局部哈希索引。
进一步的,所述的第1步骤包括:
1)按一定行数将二维表进行水平切割;
2)按列将二维表进行垂直切割。
根据本发明的另一方面还提供了一种针对二维数据表的高效索引,包括:
块粗粒度索引,用以排除肯定不命中目标数据块和确定肯定命中的目标数据块;
块局部精确索引,用以精确定位块中命中数据。
进一步的,所述块局部精确索引为块局部哈希索引。
进一步的,所述的高效索引包括至少一个的块粗粒度索引和至少一个的块局部精确索引。
进一步的,所述的粗粒度索引存储针对块的统计信息。
进一步的,所述的粗粒度索引存储针对块中数据的最大值和最小值。
本发明还提供了一种针对二维数据表的高效索引的查询方法,包括:
包括:
1)根据粗粒度索引选出块中肯定命中和肯定不命中的目标块;
2)根据上一步筛选出的结果对于无法判定的目标块用局部精确索引进行扫描,最终精确定位全部命中的数据。
由于采用上述技术方案,能够以较低的创建和维护代价,同时索引数据膨胀率较小,I/O代价低,有效的提高了效率。
附图说明
图1是本发明针对二维数据表的高效索引的创建方法流程示意图
图2是本发明针对二维数据表的高效索引的查询方法流程示意图
图3是本发明中一个实例中将二维数据表分割成数据块的示意图
图4是本发明中一个实例二维数据表索引存储示意图
图5是本发明中一个实例中针对设定查询条件为数据取值等于100的查询示意图
具体实施方式
由图1可以看出,本发明针对二维数据表的高效索引的创建方法流程按照
1)将二维数据表分成若干的数据块;
2)为数据块创建块粗粒度索引;
3)为数据块创建块局部索引;采用以上3个步骤对二维数据表创建高效索引。图1按照水平分割粒度为n(即每个数据块中数据行数为n)进行切割。
另外,一般都采用如图3所示按一定行数和列数对二维表进行水平和垂直切割。
图2为是本发明针对二维数据表的高效索引的查询方法流程示意图,按照图2所设定的步骤对二维数据表进行分块高效检索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津南大通用数据技术有限公司,未经天津南大通用数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210594103.6/2.html,转载请声明来源钻瓜专利网。