[发明专利]企业级数据仓库系统的样本数据获取方法及装置有效
申请号: | 201010611704.4 | 申请日: | 2010-12-28 |
公开(公告)号: | CN102073698A | 公开(公告)日: | 2011-05-25 |
发明(设计)人: | 金雁峰;邬敏炜;黄兆斌;马雯瑾 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 任默闻 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 企业级 数据仓库 系统 样本 数据 获取 方法 装置 | ||
技术领域
本发明涉及计算机数据仓库技术领域,具体地,涉及一种企业级数据仓库系统的样本数据获取方法及装置。
背景技术
随着企业级数据仓库系统的上游应用不断增加和基础区、汇总层与集市区的数据量持续扩大,又由于企业级数据仓库系统基础区数据是按范式化的模型和抽象的主题进行存放的,基础模型和数据变得愈加复杂而难以理解。以及,由于生产环境的数据安全考虑以及企业级数据仓库系统本身数据量异常庞大等原因,要想做到在生产环境或开发环境对全量数据进行检查与研究分析工作是不可能的,而只能通过抽取样本数据进行研究。这就对样本数据提出了要求,有可用价值的样本数据需要具有以下特点:
(1)保持企业级数据仓库系统原有全量数据的模型属性;
(2)保持全量数据的技术性特征(例如数据完整性特征);
(3)覆盖所有数据仓库涉及的业务;
(4)数据规模应小于生产环境,从而能够完整地部署在磁盘空间不富裕的开发环境。
只有满足以上这几点要求的样本数据才是理论上有效的。
然而,面对以上的样本数据需求,数据准备过程有着相当大的难度。在企业级数据仓库系统项目中,基础区、汇总区和集市区的实体个数超过了3000多个,为提取完整的样本数据,每一个实体的对应物理表都需要开发和维护一个脚本,以抽取符合上述标准的样本数据,这个工作量无疑是巨大的。
另外,由于企业级数据仓库系统的上游系统不断增加,数据模型在每个版本的开发过程中都需要作不同程度的修改,从而可能导致原有实体的样本数据抽取脚本(以下简称抽取脚本)逻辑已无法保证样本数据的显著特征,这样一来,样本数据就失去了实际的意义。因此,为了确保样本数据对企业级数据仓库系统后续开发的重要指导意义,在模型调整的同时需要对相应的抽取脚本做一定的维护。对于超过3000多个实体的企业级数据仓库系统项目来说,大量抽取脚本的编写与变更维护费时费力,严重影响了数据的处理效率。
综上所述,目前的企业级数据仓库系统样本数据的抽取过程中存在费时费力、效率低下的问题。
发明内容
本发明实施例的主要目的在于提供一种企业级数据仓库系统的样本数据获取方法及装置,以解决现有技术中的企业级数据仓库系统样本数据的抽取过程费时费力、效率低下的问题。
为了实现上述目的,本发明实施例提供一种企业级数据仓库系统的样本数据获取方法,该方法包括:解析企业级数据仓库系统的包括模型关联关系信息的逻辑模型信息,以获取所述的模型关联关系信息;根据所述的模型关联关系信息生成样本数据抽取配置信息;根据所述的样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本;对所述的全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系;根据所述的依赖关系生成基于有向图数据结构的调度文件;根据所述的调度文件并行调度所述的全量抽取脚本以获取样本数据。
优选地,根据所述的调度文件并行调度所述的全量抽取脚本以获取样本数据之后,上述的方法还包括:如果获取样本数据失败,则记录失败信息;根据所述的失败信息重新生成全量抽取脚本;对所述重新生成的全量抽取脚本进行迭代运算以确定新的依赖关系;根据所述新的依赖关系生成基于有向图数据结构的新调度文件;根据所述新调度文件并行调度所述重新生成的全量抽取脚本以重新获取样本数据。
具体地,解析企业级数据仓库系统的包括模型关联关系信息的逻辑模型信息之后,所述的方法还包括:查找符合预定规则的模型主题;根据所述符合预定规则的模型主题获取相应的物理表。
根据所述的样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本包括:根据所述预先设置的抽取参数确定所述物理表的样本抽取逻辑;结合所述的样本数据抽取配置信息和所述物理表的样本抽取逻辑生成所述的全量抽取脚本。
具体地,所述根据所述的模型关联关系信息生成样本数据抽取配置信息包括:根据所述的模型关联关系信息对业务实体进行分类;根据分类的业务实体分别生成样本数据抽取配置信息。
根据所述的调度文件并行调度所述的全量抽取脚本以获取样本数据包括:根据不同的模型主题分别配置调度规则;根据所述的调度文件结合所述的调度规则并行调度所述的全量抽取脚本以获取样本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010611704.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种含支撑件的传送带
- 下一篇:板材上料定位机构