[发明专利]一种海量数据场景下的数据全局合并方法有效
申请号: | 202110731698.4 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113177024B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 汪洋;王磊;陶泽军;陈煌;卢兴杨 | 申请(专利权)人: | 南京烽火星空通信发展有限公司 |
主分类号: | G06F16/14 | 分类号: | G06F16/14;G06F16/16;G06F16/182 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 陆志斌 |
地址: | 210019 江苏省南京市建*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 数据 场景 全局 合并 方法 | ||
本发明公开了一种海量数据场景下的数据全局合并方法,包括:minor合并,将N个小文件作为一个批次进行归并排序,产生1个或多个文件大小合标的文件;桶合并,经过步骤一后,件大小达标的文件会进入桶合并的候选队列,桶合并逻辑中对队列中的文件再次进行任务构造并进行多路归并排序;major合并,经过步骤二桶合并后的文件将进入major合并的候选队列进行major合并;经过步骤一至步骤三的三级合并完成之后,对现有桶进行平衡判断,若桶内数据不均匀,则执行桶的再平衡操作。本发明所公开的方法能够高效快速的对实时数据进行全排序及合并,可有效提高实时数据的查询效率,对数据库的优化设计具有很好的参考价值。
技术领域
本发明公开了一种海量数据场景下的数据全局合并方法,涉及计算机数据合并排序领域,尤其涉及海量数据场景下实时快速全局排序场景。
背景技术
提高海量数据的实时查询效率一直是数据库设计领域永恒的追求,实际项目中常常遇到入库小文件过多,数据无序导致实时查询速度变慢的问题,小文件过多会使操作系统扫描多个文件,产生大量随机读请求,尤其对于机械硬盘来说,大量的随机读请求无疑会极大地降低整个系统的吞吐量。其次,由于海量数据大都存储于HDFS(Hadoop DistributedFile System)上,海量小文件的存在会给整个Hadoop集群性能带来严重的性能问题。最后,由于数据是实时接入的,通过一条带条件的SQL查询语句来查询数据时,若数据整体无序,则查询的命中结果集很可能存在于多个文件之中,会使系统的查询变慢。因此,对数据库设计者而言,面对海量数据的小文件,优化数据存储,提高数据有序性是提高实时查询效率最有效的手段之一。
为减少HDFS上小文件数量,研究人员们提出了多种手段用于小文件合并,如专利号CN111008235A中提出了一种基于Spark的小文件合并方法及系统,该专利中利用spark定时任务对分区内小文件进行周期性合并,根据任务规则将多个分区中的多个文件合并成1个文件,降低小文件散落数量,从结果上看确实降低了磁盘读取负荷与网络传输消耗,并且有效的提高了数据的查询效率,但是对于海量数据而言,当积压数据量大时,对分区内小文件进行一次性合并,系统资源消耗较大,耗时较长,合并期间,数据实时查询性能受影响,同时,该专利合并期间未对数据进行全局排序,数据查询性能提高有限。
多路归并排序由于支持多线程同步排序,被认为是海量数据排序中最有效的排序算法之一,但面对实时接入的数据,仅通过一级多路归档排序显然耗时较长,易造成小文件堆积,实时查询速度仍受到影响,专利号CN111562898A中提出了一种基于FPGA实现的多级归并排序方法,该算法中将排序操作分为多级,前一级的输出作为下一级的输入,支持任意长度排序队列以及大数据量数据排序,在满足时序要求的同时,满足海量离线数据的高效快速数据排序,需要注意的是,该算法基于FPGA实现,不适用主流CPU处理器环境,同时该算法不适用于海量数据实时入库场景。因此,数据库设计中需要考虑一种高效,快速并能支持实时数据的排序及合并方法。
发明内容
本发明所要解决的技术问题是:针对现有技术的缺陷,提供一种海量数据场景下的数据全局合并方法。
本发明为解决上述技术问题采用以下技术方案:
一种海量数据场景下的数据全局合并方法,所述方法包括:
步骤一、minor合并,将N个小文件作为一个批次进行归并排序,产生1个或多个文件大小合标的文件;
步骤二、桶合并,经过步骤一后,件大小达标的文件会进入桶合并的候选队列,桶合并逻辑中对队列中的文件再次进行任务构造并进行多路归并排序;
步骤三、major合并,经过步骤二桶合并后的文件将进入major合并的候选队列进行major合并;
步骤四、经过步骤一至步骤三的三级合并完成之后,对现有桶进行平衡判断,若桶内数据不均匀,则执行桶的再平衡操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110731698.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法及系统、电子设备和计算机可读存储介质
- 下一篇:医用空调装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置