[发明专利]支持海量数据分组统计的智能索引构建、查询及维护方法有效
申请号: | 201511001092.6 | 申请日: | 2015-12-28 |
公开(公告)号: | CN105631003B | 公开(公告)日: | 2019-02-22 |
发明(设计)人: | 李斌斌;周游 | 申请(专利权)人: | 北京赛思信安技术股份有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/245 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 祗志洁 |
地址: | 100125 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 支持 海量 数据 分组 统计 智能 索引 构建 查询 维护 方法 | ||
本发明提供了一种支持海量数据分组统计的智能索引构建、查询及维护方法,属于大数据处理技术领域。本方法建立了智能索引的数据组织结构,以使智能索引支持海量数据分组统计;智能索引的数据组织结构包括索引元数据和索引数据,索引元数据是创建索引的依据,包括分组列簇和统计列簇,索引数据是对原始数据构建的索引。本方法在写入数据时在内存中实时创建智能索引,利用智能索引进行分组统计的操作,也可快捷对智能索引进行删除。本发明实现了对海量数据的实时自动创建索引,在对海量数据进行分组统计时极大降低了磁盘I/O和计算时间,从而大幅提高了分组统计效率,并实现了对索引数据全生命周期的自动管理。
技术领域
本发明涉及一种支持海量数据分组统计的智能索引构建、查询及维护方法,属于大数据处理技术领域。
背景技术
随着计算机技术的不断发展和信息化程度的不断提高,数据量迅速增长,面向海量数据存储及应用也随之蓬勃发展,大数据应用越来越广泛。如,在网络安全上,使用大数据技术分析网络攻击行为;在电子商务上,使用大数据技术分析用户购物喜好或最受青睐的商品;在城市建设上,利用大数据技术构建智慧城市,方便人民出行。诸如此类,大数据技术在建设节约型社会,提高生成效率等方面起到了积极的推动作用。
但随着数据量的持续增大和大数据应用的不断发展,对大数据处理能力的要求越来越高。在海量数据分析应用中,对数据分组统计是常用的应用模式,其处理效率直接影响了业务应用。目前常用的分组统计方法主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总。这些方法的主要特点是对涉及到的数据全盘扫描,其对系统资源,特别是I/O会有极大的占用,从而对整个存储系统带来巨大压力,其统计效率难以应对业务需求。因此,通过构建索引,降低磁盘I/O开销,成为提高分组统计效率需要解决的关键问题。
发明内容
为提高分组统计效率,降低磁盘I/O开销,本发明提供了一种支持分组统计的智能索引构建、查询和维护方法。
本发明提供的支持海量数据分组统计的智能索引构建、查询和维护方法,通过如下四方面实现:
第一方面,建立智能索引的数据组织结构,以使智能索引支持海量数据分组统计。
智能索引的数据组织结构包括索引元数据和索引数据。索引元数据是创建索引的依据,包括分组列簇和统计列簇。分组列簇采用二维表存储,存储信息包括分组字段名称、分组字段类型和分组方式;分组字段类型包括整型、字符型和时间类型,分组方式包括区间、等值和哈希三种方式。统计列簇采用二维表存储,存储信息包括统计字段名称、统计字段类型和统计方式;统计字段类型包括整型、字符型和时间类型,统计方式包括聚合、平均值、最大值、最小值、方差和求和。索引数据是对原始数据构建的索引,一个原始数据块对应一个索引数据块,每个索引数据块包括分组数值区和统计数值区两部分。分组数值区由多个字典组成,一个字典对应一个分组字段,每个字典包括分组字段值及其应用的位置ID,分组字段值和位置ID均使用有序链表存储;统计数值区根据位置ID分段按行存储,每个段按ID排序,使用有序链表存储。
第二方面,在写入数据时在内存中实时创建智能索引。
首先根据索引元数据确定分组字段和统计字段,然后对每条原始记录在内存中计算,包括对分组字段按分组方式计算和对统计字段按统计方式计算,更新维护好分组数值区链表和统计数值区链表,最终将索引数据持久化到磁盘。
第三方面,利用智能索引进行分组统计的操作。
首先通过判定器判读本次统计是否可以使用智能索引,当能使用时,通过执行器读取索引数据,最后通过汇聚器对分组值进行汇聚计算。
第四方面,实现对智能索引的删除操作。
预设原始数据与索引数据物理存储规则,根据待删除的原始数据块存储路径,来构造索引数据存储路径,将建立的索引数据删除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京赛思信安技术股份有限公司,未经北京赛思信安技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511001092.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:离线坐标校准和地图创建的方法及装置
- 下一篇:一种信息处理方法和服务器
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置