[发明专利]文件合并方法和系统有效

专利信息
申请号: 201711438755.X 申请日: 2017-12-26
公开(公告)号: CN110019168B 公开(公告)日: 2021-04-20
发明(设计)人: 俞毅;吴化飞;叶建云 申请(专利权)人: 浙江宇视科技有限公司
主分类号: G06F16/215 分类号: G06F16/215
代理公司: 北京超凡志成知识产权代理事务所(普通合伙) 11371 代理人: 王术兰
地址: 310000 浙江省杭州市滨江区西兴街道江陵路*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文件 合并 方法 系统
【说明书】:

发明提供了一种文件合并方法和系统,涉及Hbase中的文件合并技术领域,方法应用于Hbase数据库子集中的多个HFile合并过程,包括:每隔预设时间,获取多个待合并子集;根据待合并子集的重要程度,对多个待合并子集进行优先级排序;从优先级队列中,提取预设个数的优先合并子集;分别对优先合并子集中的多个HFile进行合并。解决了在Hbase数据库运行繁忙时过多的合并操作占用数据库的使用空间的问题,同时,限时限量的操作,能够使Hbase数据库的HFile合并操作,过程可控,时间可控,增强了Hbase系统的可操作性。的技术效果。

技术领域

本发明涉及Hbase中的文件合并技术领域,尤其是涉及一种文件合并方法和系统。

背景技术

Hbase是一个分布式的、面向列的开源数据库,Hbase数据库的子集(region)分布在本地节点中,本地节点中的业务数据存储在对应的多个region中,当本地节点中的业务数据写入region时,以HFile文件进行存储,即,当本地节点中的业务数据写入region时,会生成一个HFile,当本地节点中的业务数据源源不断的写入region时,会生成多个HFile。而当HFile的数量过多时,会降低读性能。为了避免对读性能的影响,通常可以对这些HFile进行合并操作。合并操作包括major和minor这两种方式,major的意思是把所有的HFile都合并为一个HFile。minor则只会选择数个HFile文件合并为一个HFile,minor的过程一般较快,而且IO相对较低。

然而,在数据量较大的情况下major的耗时太长。Hbase的major合并周期为一天或者7天进行一次完整的major的耗时需要长达10数个小时,在此期间Hbase的运行性能都会受到很大的影响。例如视频监控行业要求7*24小时不间断的业务稳定运行,实际的业务不可能每天或者每周留出一大段时间进行major。另外,合并操作的进度不可控,用户或者Hbase自动的下发合并指令时,合并操作在Hbase后台进行,其进度无法控制,只能等到Hbase后台执行完成后才能解除对系统的影响,期间如果强行终止将导致Hbase坏块。对于minor来说,采用minor进行HFile合并时,通常选择合并region中的哪几个HFile合并是随机的,所以,当minor将要合并的文件中有被标记删除的HFile,这时minor进行合并这个标记删除的HFile,浪费了时间,降低的效率。

发明内容

有鉴于此,本发明的目的在于提供文件合并方法和系统,每隔预设时间,获取多个待合并子集后,根据待合并子集的重要程度,对多个待合并子集进行优先级排队,然后从优先级队列中,提取预设个数的优先合并子集,将优先合并文件进行HFile合并,限时限量的将重要程度高的文件优先进行合并,解决了在Hbase数据库运行繁忙时过多的合并操作占用数据库的使用空间的问题,同时,限时限量的操作,能够使Hbase数据库的HFile合并操作,过程可控,时间可控,增强了Hbase系统的可操作性。

第一方面,本发明实施例提供了一种文件合并方法,所述方法应用于Hbase数据库子集中的多个HFile合并过程,包括:每隔预设时间,获取多个待合并子集;根据待合并子集的重要程度,对所述多个待合并子集进行优先级排序;从优先级队列中,提取预设个数的优先合并子集;分别对所述优先合并子集中的多个HFile进行合并。

结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述根据待合并子集的重要程度,对所述多个待合并子集进行优先级排序,包括:设定影响子集合并的多个要素;根据所述多个要素,计算每个待合并子集的多个要素值;根据每个要素对待合并子集的影响力大小,确定所述每个要素的权重;根据所述要素值和所述权重,获得待合并子集的重要程度;根据所述重要程度,对所述多个待合并子集从高到低进行排序。

结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述根据每个要素对待合并子集的影响力大小,确定所述每个要素的权重,包括:根据所述Hbase的运行时间,确定每个要素对待合并子集的影响力大小;根据每个要素对待合并子集的影响力大小,确定所述每个要素的权重。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江宇视科技有限公司,未经浙江宇视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711438755.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top