[发明专利]一种分布式实时数据处理政务服务数据的融合与共享方法在审
申请号: | 201711131347.X | 申请日: | 2017-11-15 |
公开(公告)号: | CN107748800A | 公开(公告)日: | 2018-03-02 |
发明(设计)人: | 赵扬 | 申请(专利权)人: | 北京易讯通信息技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/26 |
代理公司: | 西安西达专利代理有限责任公司61202 | 代理人: | 李文义 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 实时 数据处理 政务 服务 数据 融合 共享 方法 | ||
技术领域
本发明属于政务大数据的采集、处理、存储和应用技术领域,具体涉及一种分布式实时数据处理政务服务数据的融合与共享方法。
背景技术
政务服务数据是来自各个政务业务系统的数据源,所以数据独立分割从而形成了“数据孤岛”。市民、企业在申办政务服务时,会重复填写大量的数据到不同的业务系统中,使得服务政务申报事项、审批事项数据碎片化。市民、企业申报政务事项时,重复填写申报数据,提交重复附件材料,降低了政务服务体验及政务服务效率,增多了市民、企业在申办事项过程中所需的中间环节及申办材料,导致申办等候时间及项目审批时间延长。因此,基于该专利说明实现政务服务数据的跨平台多源数据融合共享。
目前存在的问题:
1)如何从多个数据源高效采集正确的数据
各个业务系统的数据源都不一样,有大量的历史数据,也有新数据的不断进入。而且各个业务系统都在稳定运行,不会进行大幅度的修改,在保证数据采集的同时尽量不需要修改业务系统。对接业务系统繁多,怎样保证高吞吐稳定的采集数据;
2)如何对采集的数据做ETL
从多个数据源采集的数据,会有大量的重复冗余数据,需要去识别这些不同命名方式但是实际意思一样的数据项,同时对证件类型、籍贯、民族等有国家标准的数据按相应规则处理,对于其他有明显类型分别的属性字段进行自定义码表处理,整理出一套统一的数据规范体系。按照该体系对所有的数据进行加载、抽取、转化。
3)如何对数据融合和共享
采集的数据经过清洗过后,需要将数据进行归集、归纳。通过不同的主题将数据分类。通过进一步的处理将数据沉淀,将原本碎片化的政务服务数据融合。融合过后的数据,需要向业务系统提供数据服务,需要统一规范的形式对业务系统提供接口,保证业务系统可以共享使用所有政务服务数据。
发明内容
为了克服上述现有技术的不足,本发明的目的是提供一种分布式实时数据处理政务服务数据的融合与共享方法,具有高性能、高稳定性、高可扩展性。
为了实现上述目的,本发明采用的技术方案是:
一种分布式实时数据处理政务服务数据的融合与共享方法,其特征在于,包括以下步骤:
1)提供数据采集接口:数据采集程序通过封装分布式消息订阅系统Kafka提供RestfulAPI数据接口,对所有业务系统提供统一的数据采集格式;
2)提交数据:业务系统向数据采集接口提交业务数据;
3)获取数据:通过SparkStreaming分布式内存数据处理框架,从Kafka中获取不同的业务数据;
4)处理数据:获取后的数据通过Spark On Yarn分布式数据计算程序,进行抽取、加工、转化;
5)存储数据:将处理后的数据存储在高容错分布式的非关系型数据库Hbase中或者传统关系型数据库Sqlserver、Mysql中;
6)共享数据:通过封装RestfulAPI接口提供数据获取和数据查询程序,对所有业务系统提供统一完整的政务服务数据。
本发明的有益效果是;
通过实时分布式处理数据解决政务服务数据大吞吐量和碎片化问题。具有
1)高性能
支持分布式数据存储和处理的集群体系架构;支持海量数据的存储和大量数据并发进行的数据交换
2)高稳定性
分布式集群架构使得部署的硬件设备也具备高可靠性,多台低成本的PC服务器组成的集群,即使有多台节点出现故障都依然可以不间断的提供数据融合和共享服务。
3)高可扩展性
根据存储和性能的需要,按需进行动态的增减节点,数据的存储能力和处理性能都会按照线性的的趋势增长。
附图说明
图1为本发明的原理流程图。
具体实施方式
以下结合附图及实施例对本发明进一步叙述。
如图1所示,一种分布式实时数据处理政务服务数据的融合与共享方法,其特征在于,包括以下步骤:
1)提供数据采集接口:数据采集程序通过封装Kafka提供RestfulAPI接口,对所有业务系统如工商局、烟草局、食药监局等提供统一的数据采集格式;
2)采集数据:各个业务系统如工商局、烟草局等向数据采集接口提交数据;
3) 获取数据:通过SparkStreaming分布式内存数据处理框架,实时从Kafka中获取不同主题的业务数据,如工商、烟草、公安等;
4)数据处理:获取数据后通过Spark On Yarn分布式数据计算程序,对数据进行抽取、加工、转化;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易讯通信息技术股份有限公司,未经北京易讯通信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711131347.X/2.html,转载请声明来源钻瓜专利网。