[发明专利]一种减小财政数据库储存量的方法无效
申请号: | 201110285664.3 | 申请日: | 2011-09-23 |
公开(公告)号: | CN102354319A | 公开(公告)日: | 2012-02-15 |
发明(设计)人: | 刘东升;琚春华;许翀寰;陈庭贵 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 减小 财政 数据库 储存量 方法 | ||
技术领域
本发明涉及数据库储存量压缩技术领域,具体涉及一种基于小波变换的财政数据库压缩方法。特别是适用处理财政和税务的大容量的实时数据。
技术背景
许多应用场合的数据都以连续的流的形式出现,被称为数据流,如证券交易、信用卡交易、商场购物交易、网站点击流、电话呼叫记录等应用中所产生的连续不断的数据。其主要特点为:1)数据流动态增长,长度可能无限;2)对流中的数据只能一次扫描,利用一次扫描建立数据流的近似概要结构,其后的处理只能依赖该概要结构。
财政方面的实时数据通常具有数量大、数据流量突发性高等特点,如何保存如此庞大的实时数据以及如何访问这些保存的历史数据一直是个难题。因为这些实时数据过于巨大,如果简单的将所有的数据保存下来,不但占用很大的物理空间,而且使得以后再查询特定历史时间的数据时效率会大大折扣。
因为我们是对财政数据进行实时采集,所以得到的都是基于时间序列的数据,这些数据具有时间属性,但是它的时态关系和时态数据库系统相比要简单一些,主要是说其时间是序列化的。用户可能对那些在较小范围变化的数据兴趣不大,仅较为关注默写变化剧烈的拐点数据。其实,只要这些被丢弃的数据在一定的误差范围内不影响过程历史数据的重构,数据压缩完全可以通过采用丢弃一些数据的方法来减少对存储资源的需求。
数据压缩完全可以通过采用丢弃一些数据的方法减少存储资源,同时丢弃的这些数据必须保证在一定的误差控制中不影响对历史数据的重构,方便之后对历史数据的查询处理。目前,数据压缩的方法有很多,但是本质上不外乎完全可逆的冗余度压缩和实际上不可逆的熵压缩两类。冗余度压缩常用于磁盘文件、数据通信和气象卫星云图等不允许在压缩过程中有丝毫损失的场合中。但它的压缩比通常只有几倍,远远不能满足数字视听应用的要求。在实践的数字视听设备中,差不多都采用压缩比更高、但实际有损的熵压缩技术。只要作为最终用户的人觉察不出或者能够容忍这些失真,就允许对数字音像信号进一步压缩以换取更高的编码效率。但是这些方法的压缩比不高,存储数据的空间有限,常常导致数据失真。
发明内容
本发明的目的在于克服现有技术的不足之处,提出一种压缩比高、数据失真少的减小财政数据库储存量的方法。
本发明所述的减小财政数据库储存量的方法,包括以下步骤:
1)压缩数据节点阈值过滤:假设数据流是稳定的,将数据流中不断到来的数据作为第1层,在相同的时间内到来的数据序列中平均由n个数据组成,则这n个数据组成一个数据节点,第1层的数据节点数有其中M为数据流的总数据个数;
2)数据预处理:对实时数据流进行噪声处理,主要是对数据序列进行空缺值处理。假设数据序列的属性个数为m,如果空缺属性个数则认为该条数据流是噪声,直接过滤;反之,将空缺属性补充为所有该属性所有取值的平均值;
3)压缩处理:将第1层每n个数据组成的子序列进行浓缩,提炼成第2层中的一个数据节点,记该子序列为di,该数据节点为pi,则pi中保存了di的概要信息。随着新数据的不断到来,第2层上的数据节点不断增加,当第2层上的数据节点个数时,将最老的n个数据节点进行归并,合并成第3层上的1个数据节点,并计算数据节点的概要信息,以此逐层向上,从而使得该数据流总是被压缩成一组分层次的数据节点,最后构造一棵能够存储小波系数的误差树;
误差树中,节点ci对应小波系数,叶节点xij对应原始数据。对一给定的误差树T和T中的内节点ck,令leavesk表示以ck为根的子树的叶节点集合,leftleavesk表示ck的左子树的叶节点集合,rightleavesk表示ck的右子树的叶节点集合,pathk为T中从ck(或xij)到根的路径上全体非零系数的集合。设ak是leftleavesk中数据的均值,bk是rightleavesk中数据的均值,则ck=(ak-bk)/2,而c1是全部数据的均值;
包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110285664.3/2.html,转载请声明来源钻瓜专利网。