[发明专利]基于业务变化频度的数据仓库建模方法和建模装置有效
| 申请号: | 201410784872.1 | 申请日: | 2014-12-16 |
| 公开(公告)号: | CN104462462B | 公开(公告)日: | 2017-11-07 |
| 发明(设计)人: | 靳海彬;胡沛兰 | 申请(专利权)人: | 用友软件股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京友联知识产权代理事务所(普通合伙)11343 | 代理人: | 尚志峰,汪海屏 |
| 地址: | 100094 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 业务 变化 频度 数据仓库 建模 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种基于业务变化频度的数据仓库建模方法和一种基于业务变化频度的数据仓库建模装置。
背景技术
数据仓库有一个很重要的特性就是数据稳定性,因为数据仓库数据发生变化,依赖数据仓库的上层建筑都要变化来保持数据一致。
当遇到一个很长的业务库表,业务库表的字段变化很不一致时,如果采用简单的建模方式不做任何处理,就会导致数据仓库表频繁的变化(或者频繁做拉链),对存储空间和上层建筑来说,都是灾难性的。
对于需要做拉链的业务单据而言,目前处理方式为:
(1)直接添加开始时间,结束时间做拉链
在这种方案中,一条订单会由于执行情况的变化生成多条记录,但是不同记录中的订单基础属性和订单金额是相同的,由于时间戳的变化,所有基于订单基础属性和订单金额的上层分析都要做相应处理。结果,数据仓库的存储空间有很大的浪费,上层建筑频繁做没必要的更新。
(2)业务表根据变化频度和相关性拆分成多个小表
通过拆分,如果订单由于执行情况发生变化,业务表的时间戳会改变,订单记录会被ETL(Extract-Transform-load,萃取-转置-加载)增量抽取抓取过来,抓取过来的记录去和订单基础信息和金额表最新记录的订单基础属性订单金额字段做比对,如果发现订单的基础属性和订单金额没有发生变化,则跳过,继续去和订单执行情况表的订单执行情况字段做比对,当发现订单执行情况发生改变时,为该订单在订单执行情况表增加一条拉链记录。这种方案,可以极大减小部分属性(或全部属性)的记录变化频度,从而减少拉链记录数,由于表做了拆分,记录更短,从而能显著减小存储空间,能减小数据仓库对上层建筑的影响。但是,在判断记录是否更新时,必须做全字段比对,SQL(Structured Query Language,结构化查询语言)写起来很麻烦,性能不好,也不通用。
因此,需要一种新的数据仓库建模方法,在保证数据历史完整性的同时,可以有效地减少数据冗余或变化频度,并有效地屏蔽业务数据的变化对整个数据仓库的影响,同时提高数据抽取性能,进而保证数据仓库的稳定性。
发明内容
本发明所要解决的技术问题在于,需要一种新的数据仓库建模方法,在保证数据历史完整性的同时,可以有效地减少数据冗余或变化频度,并有效地屏蔽业务数据的变化对整个数据仓库的影响,同时提高数据抽取性能,进而保证数据仓库的稳定性。
根据本发明的一个方面,提供了一种基于业务变化频度的数据仓库建模方法,使用计算机系统实现所述数据库仓库建模,包括:步骤102,设置业务变化频度区间;步骤104,根据所述业务变化频度区间分析业务数据库源数据表的每个属性的业务变化频度;步骤106,根据所述业务变化频度所在的所述业务变化频度区间的个数设置数据库表的数量,其中,所述数据库表的数量等于所述业务变化频度所在的所述业务变化频度区间的个数;步骤108,对每个所述数据库表添加哈希字段,以判断所述数据库表是否发生改变;步骤110,根据所有所述数据库表建立对应的数据仓库模型。
在该技术方案中,通过设置业务变化频度区间,将数据库源数据表拆分成多个数据库表,其中数据库表数量等于业务数据库源数据表的每个属性的业务变化频度所在的业务变化频度区间个数,并在每个数据库表中添加哈希字段,可以减小部分属性或全部属性的变化频度,以减少拉链记录数和长度,实现数据仓库减小存储空间,进而减少数据仓库对上层建筑的影响,即可以在保证数据历史完整性的同时,可以有效地减少数据冗余或变化频度,并有效地屏蔽业务数据的变化对整个数据仓库的影响,同时提高数据比对性能、抽取性能和SQL简便性,并且数据仓库建模和ETL数据抽取可以分块迭代进行,各个数据库表之间互相独立互不影响,从而保证数据仓库的稳定性。
在上述技术方案中,优选地,所述步骤102具体包括:设置所述业务变化频度区间的区间类别、区间描述、变化概率起始值和变化概率终止值,以及设置所述区间类别、所述区间描述、所述变化概率起始值和所述变化概率终止值的数据类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于用友软件股份有限公司,未经用友软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410784872.1/2.html,转载请声明来源钻瓜专利网。





