[发明专利]一种基于大数据的社保指标仓库的构建系统及其方法在审
申请号: | 201710316297.6 | 申请日: | 2017-05-08 |
公开(公告)号: | CN107169070A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 郭斌;吕宁;王敏虾;郑开泳;郝树伟;宋喆 | 申请(专利权)人: | 山大地纬软件股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京金宏来专利代理事务所(特殊普通合伙)11641 | 代理人: | 洪玉姬,陆华 |
地址: | 250000 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 社保 指标 仓库 构建 系统 及其 方法 | ||
技术领域
本发明具体涉及一种基于大数据的社保指标仓库的构建系统及其方法,属于大数据应用技术领域。
背景技术
目前,在大数据时代背景下,社保家底数据如征缴企业养老保险基金金额、社保覆盖人口比例等的统计分析面临挑战。社保的大量数据处于分散存储状态,存在信息孤岛现象,社保统计信息服务决策、服务管理、服务社会的巨大潜力尚未开发;基于数据库的统计查询、人工多口径信息提取等手段落后,导致统计数据客观性、真实性、便捷性存在问题
随着信息化技术的不断发展,社会保险系统已经积累了大量的业务数据。通过收集、整理、挖掘、利用社保业务数据,构建社保统计指标,实现从多个角度或者从不同的考察范围来观察某一指标或多个指标,进行分析对比,找出这些指标间隐藏的内在关系,并预测这些指标的发展趋势,为社会保险改革决策提供科学的依据。是深化大数据在社会保险服务应用的有效手段。
联机分析处理(OLAP)是一种将原始数据转化为可从多视角观察数据的软件技术。OLAP的主要工作就是将数据仓库中的数据转换到多维数据结构中,并且对上述多维数据结构执行有效且非常复杂的多维查询。
传统的数据仓库一般采用集中式结构化存储方式,单节点运行计算,配置起来比较简单。然而社保统计指标的重要数据来源就是社保业务数据,社保业务数据普遍分散在各个社保领域(养老、医疗)的业务数据库中,加之社保业务数据具有地域分布广、涉及系统多、数据规模大、结构较松散等问题。往往要对多张数据表中成千上万条数据进行综合查询,传统数据仓库的性能越来越难以满足这类复杂的查询需求,且随着数据量的积累,数据仓库扩容将是一个巨大的问题。
对海量社保数据的多维查询分析,查询速度是评价系统性能的关键因素。当前国内外关于大数据联机分析处理的研究成果多种多样,但是针对社保应用海量数据实现的分布式多维分析系统不多见。普遍是通过优化计算策略、查询操作方法来实现多维分析效率的提升。
发明内容
本发明为了解决上述问题,提供一种社保大数据指标仓库的构建方法及系统。系统以社保业务数据为数据源,利用大数据处理技术和分布式存储技术构建一种准确的、定时更新的以立方体结构存储组织的多维统计指标库,并提供指标快速查询和展示功能。
本方法和系统将指标构建分为数据采集阶段和指标仓库构建阶段。
数据采集阶段,分为批量导入和变更同步两个部分。批量导入是将分散于各地市的社保业务数据按照设计的组织原则,一次性经过抽取、转换,整合到统一的过程库(基于HBase数据库),完成从业务数据库到业务过程数据库的初始批量导入;变更同步阶段,在各个业务数据库中配置Oracle Streams,分析Redo日志,将包含业务数据库变更操作的消息分发到Oracle高级队列,然后将变更消息转换成消息流,利用Apache Storm将变更数据同步到业务过程数据库HBase中。保证整合后的业务过程数据库的实时性和准确性。
指标仓库构建阶段。基于开源大数据引擎Kylin,借助Hive工具加载数据,按照多维分析模型定义的事实表、维表、事实表和维表的连接关系,进行多维指标立方的预计算,并以立方体组织形式将数据保存到指标库中(基于HBase数据库)。设置指标计算周期,定时自动执行增量数据的指标立方体构建。
本方法及系统提供的查询展示功能包括,根据多维查询请求,解析多维数据模型信息及Kylin引擎识别的查询语句,实现快速从指标仓库中获取数据,并按需求的方式将结果展示。
为了实现上述目的,本发明采用如下的技术方案:
基于大数据的社保指标仓库的构建系统,包括:
社保业务数据库,为社保指标仓库的计算提供原始数据来源,为数据的变更同步提供增量变更消息流;
业务数据采集模块,用于完成从业务数据到社保业务过程数据的批量导入和变更同步;
数据预处理模块,用于对数据格式、类型、表结构等进行转换处理,将数据转为Apache Kylin(一种大数据分布式计算引擎)计算所支持的数据模式;
指标计算模块,用于定义、调度、执行指标计算任务,根据设置的计算周期,自动定时执行指标计算;
指标元数据存储模块,用于存储社保指标数据模型相关信息,指标立方体构建信息;
社保数据存储模块,为社保业务过程数据和社保指标仓库数据提供分布式存储支持,构建社保业务过程库和社保指标仓库;
数据查询展示模块,用于定义查询需求及执行查询,并将结果展示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山大地纬软件股份有限公司,未经山大地纬软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710316297.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:分布式分级抽取多应用方法和数据抽取应用器
- 下一篇:一种视频搜索方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置