[发明专利]文件合并方法和系统有效
申请号: | 201711438755.X | 申请日: | 2017-12-26 |
公开(公告)号: | CN110019168B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 俞毅;吴化飞;叶建云 | 申请(专利权)人: | 浙江宇视科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 王术兰 |
地址: | 310000 浙江省杭州市滨江区西兴街道江陵路*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 合并 方法 系统 | ||
本发明提供了一种文件合并方法和系统,涉及Hbase中的文件合并技术领域,方法应用于Hbase数据库子集中的多个HFile合并过程,包括:每隔预设时间,获取多个待合并子集;根据待合并子集的重要程度,对多个待合并子集进行优先级排序;从优先级队列中,提取预设个数的优先合并子集;分别对优先合并子集中的多个HFile进行合并。解决了在Hbase数据库运行繁忙时过多的合并操作占用数据库的使用空间的问题,同时,限时限量的操作,能够使Hbase数据库的HFile合并操作,过程可控,时间可控,增强了Hbase系统的可操作性。的技术效果。
技术领域
本发明涉及Hbase中的文件合并技术领域,尤其是涉及一种文件合并方法和系统。
背景技术
Hbase是一个分布式的、面向列的开源数据库,Hbase数据库的子集(region)分布在本地节点中,本地节点中的业务数据存储在对应的多个region中,当本地节点中的业务数据写入region时,以HFile文件进行存储,即,当本地节点中的业务数据写入region时,会生成一个HFile,当本地节点中的业务数据源源不断的写入region时,会生成多个HFile。而当HFile的数量过多时,会降低读性能。为了避免对读性能的影响,通常可以对这些HFile进行合并操作。合并操作包括major和minor这两种方式,major的意思是把所有的HFile都合并为一个HFile。minor则只会选择数个HFile文件合并为一个HFile,minor的过程一般较快,而且IO相对较低。
然而,在数据量较大的情况下major的耗时太长。Hbase的major合并周期为一天或者7天进行一次完整的major的耗时需要长达10数个小时,在此期间Hbase的运行性能都会受到很大的影响。例如视频监控行业要求7*24小时不间断的业务稳定运行,实际的业务不可能每天或者每周留出一大段时间进行major。另外,合并操作的进度不可控,用户或者Hbase自动的下发合并指令时,合并操作在Hbase后台进行,其进度无法控制,只能等到Hbase后台执行完成后才能解除对系统的影响,期间如果强行终止将导致Hbase坏块。对于minor来说,采用minor进行HFile合并时,通常选择合并region中的哪几个HFile合并是随机的,所以,当minor将要合并的文件中有被标记删除的HFile,这时minor进行合并这个标记删除的HFile,浪费了时间,降低的效率。
发明内容
有鉴于此,本发明的目的在于提供文件合并方法和系统,每隔预设时间,获取多个待合并子集后,根据待合并子集的重要程度,对多个待合并子集进行优先级排队,然后从优先级队列中,提取预设个数的优先合并子集,将优先合并文件进行HFile合并,限时限量的将重要程度高的文件优先进行合并,解决了在Hbase数据库运行繁忙时过多的合并操作占用数据库的使用空间的问题,同时,限时限量的操作,能够使Hbase数据库的HFile合并操作,过程可控,时间可控,增强了Hbase系统的可操作性。
第一方面,本发明实施例提供了一种文件合并方法,所述方法应用于Hbase数据库子集中的多个HFile合并过程,包括:每隔预设时间,获取多个待合并子集;根据待合并子集的重要程度,对所述多个待合并子集进行优先级排序;从优先级队列中,提取预设个数的优先合并子集;分别对所述优先合并子集中的多个HFile进行合并。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述根据待合并子集的重要程度,对所述多个待合并子集进行优先级排序,包括:设定影响子集合并的多个要素;根据所述多个要素,计算每个待合并子集的多个要素值;根据每个要素对待合并子集的影响力大小,确定所述每个要素的权重;根据所述要素值和所述权重,获得待合并子集的重要程度;根据所述重要程度,对所述多个待合并子集从高到低进行排序。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述根据每个要素对待合并子集的影响力大小,确定所述每个要素的权重,包括:根据所述Hbase的运行时间,确定每个要素对待合并子集的影响力大小;根据每个要素对待合并子集的影响力大小,确定所述每个要素的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江宇视科技有限公司,未经浙江宇视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711438755.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种中长期新能源资源资料库构建方法及系统
- 下一篇:一种数据处理的方法及装置