[发明专利]一种海量数据加载和查询的方法有效
申请号: | 200810102121.1 | 申请日: | 2008-03-18 |
公开(公告)号: | CN101251861A | 公开(公告)日: | 2008-08-27 |
发明(设计)人: | 朱贺军 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所 | 代理人: | 余功勋 |
地址: | 100044北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 数据 加载 查询 方法 | ||
技术领域
本发明属于计算机领域,具体涉及一种海量数据加载和查询的方法。
背景技术
随着企业信息化以及互联网的飞速发展,海量数据处理已经成为重中之重,特别是电信行业和互联网行业更是如此,必须使用一些特殊的方法来处理海量数据。基于此本发明提出一种能够快速加载海量数据,同时可查询的方法。
通常情况下,提高查询速度的方法是建立索引,以空间来换时间。这对小批量的数据影响不大或者说感觉不到。但当数据量非常大的时候,该矛盾就比较明显,严重影响加载速度。当然,如果采用较好的硬件一定会有很大的改善,如使用巨型机比使用DELL 2850的速度快很多。现有技术中,数据加载的同时也建立索引,那么随着加载数据量增加,加载速度越来越小,原因是各个关系数据库随着数量的增加,索引的存储结构在不断地加大,而当插入一条数据的时候都需要维护这些索引,故造成加载速度在不断地下降。此外,加载是为查询服务,也就是说加载和查询要综合考虑,基于本文的加载方法,形成综合缓存数据和分区表数据同时查询的方法,完全与常用的单表查询方法不同。
发明内容
本发明是在相当的性价比的基础上,即都使用DELL 2850来寻找一个最优的方案。使用合适粒度的临时表缓存各个时间段的数据,在临时表上不建立索引,缓存完各自时间段的数据后,再将该时间段的数据统一建立索引后转移到分区表中。这样查询就分成两个部分联合查询:一种是缓存在临时表中的数据,一种是分区表的数据。
本发明公开一种海量数据的加载方法,其步骤如下:
1)解析程序模块按照时间顺序生成目录,产生文件,生成数据源;
2)用临时表缓存各个连续时间段的数据,得到各分区段的数据;
3)将上述各分区段的数据统一建立索引;
4)加载程序模块调用数据转移接口,将数据转移到分区表。
上述步骤2)中的各个连续时间段的长度相同。
进一步,在步骤4)后增加如下步骤;对分区表中的数据进行合并,按照新的时间单位生成大的分区业务表。
本发明还公开了一种海量数据的查询方法,其步骤如下:
1)采用如权利要求1所述的方法加载数据;
2)将分区表中的数据合并成大的分区业务表;
3)数据库对临时表和分区表进行查询。
本发明的海量数据查询是在数据加载的基础上进行的,在分布式海量数据处理产品中,加载和查询同时使用,可解决遇到的加载难题。
本发明的优点和积极效果如下:
1.使用本发明,原来在标准DELL 2850服务器上每秒只能加载500条左右(每条记录大概平均0.4K左右,一共有27个字段,11个索引)提高到每秒加载5000条左右,在保持当天数据查询速度的基础上使历史数据的查询速度也有所提高,原因是对分区表的数据按照业务需求进行合并,以供后期的查询使用。
2.本发明基本不受时间和加载的总流量的限制,只与缓存时间段内的数据量有关系,但与总体数据量没有任何关系,因此可以满足高速海量数据加载以及有相关查询的业务需求。
附图说明
图1本发明的数据源生成方法示意图;
图2本发明的加载方法操作图;
图3本发明的分区段合并示意图;
图4本发明的查询流程图。
具体实施方式
本实施例使用关系数据库oracle 10g来实现,其它关系数据库同样适用;操作系统采用RedFlag DC 5.0;硬件环境采用DELL 2850标准服务器,具体配置如表1所示,根据业务需求在该表上建立索引。此外,为了保证数据的合法性,需要在临时表上建立一个主键索引;在上述条件下对直接入普通表与直接入临时表加建立索引加转移数据方案对比产生的加载效果如表2所示,同时对已经积累的1亿条数据按照给出一个已知条件进行查询比较如表3所示。从表中数据可以看出在查询速度比较稳定的基础上,加载速度增加10倍左右。
表1 Dell2850配置的结构表
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810102121.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置