[发明专利]一种数据表分片方法、装置、设备及介质在审
| 申请号: | 202111504070.7 | 申请日: | 2021-12-10 | 
| 公开(公告)号: | CN114185891A | 公开(公告)日: | 2022-03-15 | 
| 发明(设计)人: | 张琳 | 申请(专利权)人: | 建信金融科技有限责任公司 | 
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/21 | 
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄丽 | 
| 地址: | 200120 上海市浦东新区(上*** | 国省代码: | 上海;31 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 数据表 分片 方法 装置 设备 介质 | ||
1.一种数据表分片方法,其特征在于,所述方法包括:
确定集中式数据库中需要迁移的目标数据表的数据量和常用字段占比,其中,所述目标数据表包括多个字段,所述常用字段占比表示常用字段的数量与所述多个字段的数量的比值;
若所述数据量大于第一预设数据量,且所述常用字段占比小于第一预设占比,则对所述目标数据表采用垂直分片,其中,所述垂直分片表示将所述目标数据表拆分的多个数据子表存放在分布式数据库的一个节点;
若所述数据量大于所述第一预设数据量,且所述常用字段占比大于所述第二预设占比,则对所述目标数据表采用水平分片,其中,所述第二预设占比大于或等于所述第一预设占比,所述水平分片表示将所述目标数据表拆分的多个数据子表存放在所述分布式数据库的不同节点。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
若所述数据量小于第二预设数据量,则确定所述目标数据表的表访问次数,其中,所述第二预设数据量小于所述第一预设数据量;
若所述表访问次数大于预设次数,则复制所述目标数据表,获得多个复制表;
将所述多个复制表存放在所述分布式数据库的各个节点。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
若所述数据量大于所述第二预设数据量且小于所述第一预设数据量,则确定所述目标数据表的表访问次数;
若所述表访问次数大于预设次数,则对所述目标数据表采用所述垂直分片和所述水平分片。
4.如权利要求1-3任一项所述的方法,其特征在于,对所述目标数据表采用水平分片,包括:
基于每个字段的关联信息,从所述多个字段中确定分片字段,其中,所述每个字段的关联信息包括字段关联表的数据量、字段访问次数、字段区分度、字段是否为分区键;
根据所述分片字段的不同值,将所述目标数据表拆分为多个数据子表,将所述多个数据子表存放在所述分布式数据库的不同节点。
5.如权利要求4所述的方法,其特征在于,基于每个字段的关联信息,从所述多个字段中确定分片字段,包括:
计算每个字段的字段关联表的数据量、字段访问次数、字段区分度以及预设权重的乘积,获得每个字段的计算值;其中,每个字段的预设权重是根据每个字段是否为分区键确定的;
从所述多个字段中将计算值最大的字段确定为所述分区字段。
6.如权利要求1-3任一项所述的方法,其特征在于,所述第一预设数据量和所述第二预设数据量是通过如下方式确定的:
对所述集中式数据库中所有数据表的数据量进行排序;
在从大到小的顺序中,将第一比例对应的数据量确定为所述第一预设数据量;
在从小到大的顺序中,将所述第一比例对应的数据量确定为所述第二预设数据量。
7.一种数据表分片装置,其特征在于,所述装置包括:
确定模块,用于确定集中式数据库中需要迁移的目标数据表的数据量和常用字段占比,其中,所述目标数据表包括多个字段,所述常用字段占比表示常用字段的数量与所述多个字段的数量的比值;
分片模块,用于若所述数据量大于第一预设数据量,且所述常用字段占比小于第一预设占比,则对所述目标数据表采用垂直分片,其中,所述垂直分片表示将所述目标数据表拆分的多个数据子表存放在分布式数据库的一个节点;
所述分片模块,还用于若所述数据量大于所述第一预设数据量,且所述常用字段占比大于所述第二预设占比,则对所述目标数据表采用水平分片,其中,所述第二预设占比大于或等于所述第一预设占比,所述水平分片表示将所述目标数据表拆分的多个数据子表存放在所述分布式数据库的不同节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于建信金融科技有限责任公司,未经建信金融科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111504070.7/1.html,转载请声明来源钻瓜专利网。





