[发明专利]一种基于oracle LOB的高效压缩与读库方法有效
| 申请号: | 201811315371.3 | 申请日: | 2018-11-06 |
| 公开(公告)号: | CN109710606B | 公开(公告)日: | 2022-09-30 |
| 发明(设计)人: | 王建军;赵银刚;刘高川;张素琴;何宇飞 | 申请(专利权)人: | 甘肃省地震局(中国地震局兰州地震研究所) |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/242;H03M7/30 |
| 代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
| 地址: | 730000 甘肃省兰*** | 国省代码: | 甘肃;62 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 oracle lob 高效 压缩 方法 | ||
本发明属于数据分析技术领域,公开了一种基于oracle LOB的高效压缩与读库方法,分别用Bzip2、Gzip、GzipIO三种压缩算法对Clob和Blob的压缩和未压缩数据进行读写和交换速度测试,使用直接读取、分段读取、分段+线程池读取三种方法进行了读库速度测试。本发明无论在存储、交换或读写速度方面均优于现有技术,“Blob+Gzip”为项分秒数据的“最佳”存储结构,读写和交换速度有大幅度提升,数据库整体容量降至目前的7%,“分段+线程池”读库技术无论在Clob还是Blob、压缩还是未压缩时都表现出较高的读库效率,给LOB数据读取速度带来飞跃式的提升。
技术领域
本发明属于数据分析技术领域,尤其涉及一种基于oracle LOB的高效压缩与读库方法。
背景技术
目前,业内常用的现有技术是这样的:
2007年底,某专项台网“十五”系统正式建成并投入运行,该软件系统是一个分层的四级互联互通分布式系统,由台站、省局、国家中心和学科中心四级构成。为便于各级数据交换,全国采用统一的数据库管理系统(Oracle10g)和统一的数据库表结构。软件系统主要有两个:管理系统(B/S架构,服务器运行)和处理系统(C/S架构,客户端PC机运行),前者负责每天的数据采集入库和交换,后者负责每天的数据预处理和产品数据计算。“管理系统”每天定时将台站数据逐级交换至省局、国家中心和学科中心。
国家中心是全国专项数据的汇集中心,同时也是容量最大的专项数据库。截止2018年8月数据库总量约8000GB,目前仍在以每年约800GB的速度递增,其中时间分辨率为分和秒的数据(下简称为分秒数据)总量占到数据库总空间的95%以上(或更多)。
因为所有分秒数据全部采用“Clob+Ascii未压缩”的存储格式,数据库出现了存储空间大、交换速度慢、读写速度慢、运维困难等问题。如“处理系统”远程读取某仪器1天6个要素的秒采样数据需要4分钟,台站数据更新后至少延迟1.5天才能交换到学科中心。国家中心数据库(8000GB)冷备份到另一台服务器需要连续拷贝10天左右,这10天必须关闭数据库并停止所有服务,而热备份系统(由专项系统自主研发)因为软件原因只能对应一台服务器,如果主备库同时出现问题导致数据丢失将是灾难性的。
随着信息化社会的发展,人们面对急剧增长的海量信息,存储、传输和处理这些海量信息的压力越来越大。在这种情况下,进行数据压缩是一种必然选择。为了节省信息的存储空间和提高信息的传输效率,必须对大量的实际数据进行有效的压缩,数据压缩作为解决海量信息存储和传输的支持技术受到人们的极大重视。
数据压缩技术一般分为有损压缩和无损压缩。无损压缩是指重构压缩数据(还原,解压缩)与原数据必须完全相同,适用于那些要求重构数据与原数据完全一致的场合。无损数据压缩算法按照压缩模型主要分为两类:基于统计压缩算法和基于字典压缩算法。基于统计压缩算法主要包括:游程长度编码、哈夫曼编码、算术编码等;基于字典压缩算法主要包括:LZ77、LZW、LZSS等。
Bzip2是Julian Seward开发并按照自由软件/开源软件协议发布的数据压缩算法及程序。Seward在1996年7月第一次公开发布了Bzip2 0.15版,在随后几年中这个压缩工具稳定性得到改善并日渐流行,Seward分别在2000和2007年发布了1.0版和1.0.3版。Bzip2是基于Burrows-Wheeler变换(BWT)的无损压缩算法,是一种不依赖于数据内部重复性的变换方法,它能有效地将数据中相同的字符聚集到一起,为进一步压缩创造条件。它能够把普通的数据压缩至10%至15%,压缩和解压效率都非常高,广泛存在于UNIXLINUX的许多发行版本中。支持大多数压缩格式,包括tar、Gzip等。其优势主要包括:Bzip2开放源码,无需付费使用;支持修复介质错误,当需要获取含有错误的压缩文件中的数据时,Bzip2仍能完美的解压出没有被破坏的部分;可以运行在任何含有ANSI C编译器的32位或者64位的主机上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于甘肃省地震局(中国地震局兰州地震研究所),未经甘肃省地震局(中国地震局兰州地震研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811315371.3/2.html,转载请声明来源钻瓜专利网。





