[发明专利]一种数据库学习型索引构建方法和系统在审
申请号: | 202210150431.0 | 申请日: | 2022-02-18 |
公开(公告)号: | CN114969023A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 杨仝;陈春辉;屠要峰;杨洪章 | 申请(专利权)人: | 北京大学;中兴通讯股份有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06N20/00 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据库 学习 索引 构建 方法 系统 | ||
本发明涉及一种数据库学习型索引构建方法和系统。该方法包括:根据数据关键字和数据存储位置,构建累积分布函数;利用机器学习模型拟合累积分布函数,以获取数据关键字与数据存储位置的关联性,得到学习型索引;根据学习型索引,快速定位待查询的键值所处的位置。本发明能够克服现有的B树数据库索引算法调节难度高自适应能力差、辅助数据结构内存空间占用偏大的问题,能够有效地减少辅助数据结构的内存占用、提高数据库索引的自适应调节能力。
技术领域
本发明属于基于键值存储的内存型数据库领域,具体为一种构建数据库学习型索引的方法和系统。
背景技术
随着互联网生态的不断发展,大型互联网公司需要存储的数据已经达到PB量级,而其每天所产生的新业务数据也已经达到了TB量级。为了应对如此大规模的增长性数据存储、更新要求,分布式的键值存储数据库逐渐成为了大规模数据存储的第一选择。键值存储数据库通常将不同的键值对按照键值大小的顺序存储在内存、硬盘等存储设备中。因此,如何快速地定位一个给定的键值的具体存储位置,并且高效地支持插入、删除等功能,就成为了决定当前键值存储数据库性能的关键问题。
著名的键值存储数据库,例如RocksDB、Redis和PostgreSQL等,基本都使用了辅助数据结构作为索引以加速数据库的增删改查。目前常见的作法是将键值对数据分组为数据区块的形式,区块内通过二分查找算法定位一个特定的键值对,而对各数据区块则通过建立B树构建具有二分性质的索引。这种做法需要在内存中消耗大量空间维护索引,且面对不同的数据负载,调节到最优的B树和数据区块的参数往往需要消耗大量人工时间,难以提供高质量的自适应服务。
发明内容
为了克服现有的B树数据库索引算法调节难度高自适应能力差、辅助数据结构内存空间占用偏大的问题,本发明提供了一种使用了学习型索引的方法,该方法可以有效地减少辅助数据结构的内存占用、提高数据库索引的自适应调节能力。
本发明的目的通过如下的技术方案来实现:
一种数据库学习型索引构建方法,包括以下步骤:
根据数据关键字和数据存储位置,构建累积分布函数;
利用机器学习模型拟合累积分布函数,以获取数据关键字与数据存储位置的关联性,得到学习型索引;
根据学习型索引,快速定位待查询的键值所处的位置。
进一步地,在数据键值有序存储的前提下,数据的关键字(Key)和存储位置(Position)之间呈现单调递增的关系,从而可以构建累积分布函数(CumulativeDistribution Function,CDF),累积分布函数F(key)建模为pos=F(key)×N,其中key表示数据键,pos表示数据存储位置,N表示总的数据规模。累积分布函数本身则蕴含了数据键和数据存储位置这两个关键信息。学习型索引的基本思想是利用机器学习模型拟合累积分布函数,获取存储位置与数据关键字值的关联性,从而达到快速定位数据位置的效果。
进一步地,拟合累积分布函数的过程,就是通过机器学习选择合适的累积分布函数即F函数的参数,使得损失函数最小化。实践中,F函数可以是线性函数、前馈神经网络(FNN)等。在本发明中,学习型索引的基本目标是以尽可能小的平均误差来拟合累积分布函数。
进一步地,为了使得累积分布函数可以使用比较简单的函数拟合,本发明对键值数据进行了分组处理,预先设定每一组数据点的个数segmentSize,每读取segmentSize个数据点之后就划分为一组,并拟合一个机器学习模型,记录模型参数,并以该组数据关键字的最大值和最小值为分界点,以作为分组依据。从而极大地加快模型的推断速度和构建速度,在不严重影响预测准确度的情况下,最大程度减少模型推断时间,也可以加快查询过程,利用简单模型构建较快的优势,极大地减小了模型重新构建的时间,为实现动态更新打下良好基础。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;中兴通讯股份有限公司,未经北京大学;中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210150431.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种许氏平鮋放流回捕贡献率评估的方法
- 下一篇:二次电池用电极的制造方法