[发明专利]基于hadoop平台的医保门诊大数据抽取系统及方法在审
申请号: | 201410320881.5 | 申请日: | 2014-07-07 |
公开(公告)号: | CN104111996A | 公开(公告)日: | 2014-10-22 |
发明(设计)人: | 孔兰菊;宋婷婷;闫中敏;李庆忠 | 申请(专利权)人: | 山大地纬软件股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张勇 |
地址: | 250101 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 hadoop 平台 医保 门诊 数据 抽取 系统 方法 | ||
技术领域
本发明涉及一种基于hadoop平台的医疗保险门诊大数据抽取系统及方法。
背景技术
随着医疗信息化的发展以及医疗保险制度在全国范围内的广泛开展,关于医疗保险的数据呈海量增长,而且这些数据往往需要很长的保存期,如参保人员的基本信息可能要保存70至80年,甚至更长,而随着人口的增加,对数据存储空间的需求会越来越大,传统的关系数据库恐怕难以满足存储需求。而且,对这些海量数据进行分析处理,从而获取所蕴含的的有用信息也是十分必要的。而传统的对大规模数据处理大多数使用分布式的高性能计算、网格计算等技术,需要耗费昂贵的计算资源,而且如何把大规模的数据进行有效分割和计算任务的合理分配都需要繁琐的编程才能实现,Hadoop分布式技术的发展正好可以解决以上问题。
Hadoop是Apache开源组织的一个分布式计算框架,可以在大量廉价的硬件设备组成的集群上运行应用程序,构建一个高可靠性和良好扩展性的并行分布式系统。HDFS、MapReduce编程模型和Hbase分布式数据库是其三大核心技术。其中,HBase–Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
由于hadoop分布式技术的强大优势,它也受到了学术界的广泛关注。国内的众多高校和科研院所基于Hadoop在数据存储、资源管理、作业调度、性能优化、系统高可用性和安全性等方面都展开了相关研究,并且发表了多项专利。
在专利【2011104189589】中,基于Hadoop的分布式日志分析系统通过分布式文件系统将格式化的日志数据进行分块,并且利用Map-Reduce程序对日志的内容进行并行解析处理。但由于医保门诊数据比较复杂,一条记录可能有多个属性,所以仅仅通过简单的Map-Reduce处理并不能满足医保门诊大数据处理的需求。
在专利【CN2013103361473】中,基于Hadoop平台的电信运营商海量数据处理方法首先使用Sqoop工具将原始数据抽取到Hadoop本地服务器的HDFS中,然后将源数据转换后装载到Hive的目标表中,最后根据需求编写Hive查询语句或者MapReduce程序对目标表中的数据进行查询分析。但Sqoop工具仅限于Hadoop和关系型数据库中的数据相互转移,不能够对数据进行分析以及过滤,不能够将有价值的医疗数据筛选出来。
发明内容
本发明的目的就是为了解决上述问题,提出了一种基于hadoop平台的医保门诊大数据抽取系统及方法,存储数据时使用hadoop集群,存储容量大,存储扩展性好,安全性高;并且可以对存储的医保门诊数据进行分析,将有价值的数据存储到Hbase分布式数据库中,供用户查询获取或通过工具展现给用户。
为了实现上述目的,本发明采用如下技术方案:
一种基于hadoop平台的医保门诊大数据抽取系统,包括数据采集模块、数据存储模块、数据清洗模块、数据分析处理模块、Hbase分布式数据库以及数据展示模块;
所述数据采集模块用于从业务数据库中抽取数据,并存储到数据存储模块;
所述数据存储模块用于将数据采集模块抽取到的数据以数据块的形式分布式存储到hadoop集群中的各个数据节点中;
所述数据清洗模块用于根据设定的清洗规则,将数据存储模块中错误的或者不一致的“脏数据”过滤掉,并将合格的数据传送至数据查询分析模块;
所述数据查询分析模块使用Hive进行数据仓库建模,并提供用于客户端进行数据查询的SQL解析引擎;经数据查询分析模块分析后的有价值的医保门诊数据存储到Hbase分布式数据库中,供客户端查询;
所述Hbase分布式数据库用于存储数据查询分析模块中的提取出的用于数据展示的医保门诊数据;
所述的数据展示模块用于将所需数据以图形化的形式在客户端进行展示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山大地纬软件股份有限公司,未经山大地纬软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410320881.5/2.html,转载请声明来源钻瓜专利网。