[发明专利]基于hadoop平台的医保门诊大数据抽取系统及方法在审
申请号: | 201410320881.5 | 申请日: | 2014-07-07 |
公开(公告)号: | CN104111996A | 公开(公告)日: | 2014-10-22 |
发明(设计)人: | 孔兰菊;宋婷婷;闫中敏;李庆忠 | 申请(专利权)人: | 山大地纬软件股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张勇 |
地址: | 250101 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 hadoop 平台 医保 门诊 数据 抽取 系统 方法 | ||
1.一种基于hadoop平台的医保门诊大数据抽取系统,其特征是,包括数据采集模块、数据存储模块、数据清洗模块、数据分析处理模块、Hbase分布式数据库以及数据展示模块;
所述数据采集模块用于从业务数据库中抽取数据,并存储到数据存储模块;
所述数据存储模块用于将数据采集模块抽取到的数据以数据块的形式分布式存储到hadoop集群中的各个数据节点中;
所述数据清洗模块用于根据设定的清洗规则,将数据存储模块中错误的或者不一致的“脏数据”过滤掉,并将合格的数据传送至数据查询分析模块;
所述数据查询分析模块使用Hive进行数据仓库建模,并提供用于客户端进行数据查询的SQL解析引擎;经数据查询分析模块分析后的有价值的医保门诊数据存储到Hbase分布式数据库中,供客户端查询;
所述Hbase分布式数据库用于存储数据查询分析模块中的提取出的用于数据展示的医保门诊数据;
所述的数据展示模块用于将所需数据以图形化的形式在客户端进行展示;
所述数据采集模块与数据存储模块连接,数据存储模块连接经过数据清洗模块与数据查询分析模块连接,所述数据查询分析模块与Hbase分布式数据库和数据展示模块分别连接。
2.如权利要求1所述的一种基于hadoop平台的医保门诊大数据抽取系统,其特征是,所述数据采集模块使用Cloudera提供的flume日志采集工具进行数据采集。
3.如权利要求1所述的一种基于hadoop平台的医保门诊大数据抽取系统,其特征是,所述数据分析模块使用Hive进行数据库建模,并与Hbase整合,充当SQL解析引擎,应用程序端能够根据具体业务需求,编写Hive查询语句或者MapReduce程序对数据进行查询分析。
4.如权利要求1所述的基于hadoop平台的医保门诊大数据抽取系统,其特征是,所述数据存储模块为分布式文件系统HDFS。
5.一种如权利要求1所述的基于hadoop平台的医保门诊大数据抽取方法,其特征是,包括以下步骤:
1)使用Flume工具采集数据,在hadoop集群中选择至少两个节点分别作为用于从业务数据源上传数据的Agent和用于将Agent传来的数据进行简单处理后存储到数据存储模块的collector;
2)分别配置Agent和Collector的数据源和数据输出;
3)配置成功后,系统自动从Agent传输数据到对应的collector,collector将收集到的数据汇总后以数据块的形式存储到HDFS分布式文件系统中。
4)对存储在HDFS中的数据进行数据清洗,将错误的、缺失的或者重复的数据过滤出来;
5)根据业务需求和数据模型,在Hive数据仓库中进行建模,创建与抽取到的数据对应的事实表和维度表,并将HDFS中的数据文件导入到Hive数据仓库中对应的事实表和维度表里;
6)对数据仓库中的数据进行OLAP分析,并将分析结果中用于展示的数据写入Hbase分布式数据库中;
7)应用程序端或报表系统通过Hbase分布式数据库查询数据并展现。
6.如权利要求5所述的一种基于hadoop平台的医保门诊大数据抽取方法,其特征是,所述步骤2)中,Flume Agent的数据源为待抽取的医保数据文件,数据输出为对应collector节点的机器名和数据传输的端口号;collector的数据源为用于接收数据的端口号,数据输出为集群中用于存储数据的HDFS目录。
7.如权利要求5所述的一种基于hadoop平台的医保门诊大数据抽取方法,其特征是,所述步骤5)中,事实表即是数据仓库中用于保存业务数据的表,表的每个字段要与被抽取的业务数据源的字段相对应;维度表是数据仓库中用于描述事实数据表中的数据的表。
8.如权利要求5所述的一种基于hadoop平台的医保门诊大数据抽取方法,其特征是,所述步骤6)中,根据具体业务需求,在客户端编写HiveQL查询语句或者MapReduce程序对数据仓库中的数据进行OLAP分析,并将分析结果中用于展示的数据以Key-Value的形式写入Hbase分布式数据库中。
9.如权利要求5所述的一种基于hadoop平台的医保门诊大数据抽取方法,其特征是,所述步骤6)中,对门诊医疗数据进行OLAP分析主要是通过HiveQL查询语句或者编写MapReduce并行程序,对Hive数据仓库中的事实表和维度表做关联进行多维分析,从而统计出各个维度的相关信息,展现给用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山大地纬软件股份有限公司,未经山大地纬软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410320881.5/1.html,转载请声明来源钻瓜专利网。