[发明专利]一种基于HBase的传染病数据管理方法有效
申请号: | 201510166304.X | 申请日: | 2015-04-10 |
公开(公告)号: | CN104794567B | 公开(公告)日: | 2018-02-23 |
发明(设计)人: | 顾君忠;相晓敏;李舒媛;张学军 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00;G06Q10/06;G06Q50/22;G06F17/30 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙)31215 | 代理人: | 徐筱梅,张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hbase 传染病 数据管理 方法 | ||
技术领域
本发明涉及数据存储与查询技术领域,具体地说是一种基于HBase的传染病数据管理方法。
背景技术
随着当今互联网的迅速发展,各行各业的运行与互联网的关系越加紧密,许许多多的数据信息通过互联网流通,使得目前互联网上的数据达到了一个难以预测的数量级。这些信息的管理维护需要花费大量人力与技术等宝贵资源。而这些充斥在互联网上的数据中,绝大部分是有着各自不同格式的文档、图片以及视频等非结构化数据。
随着医疗信息化的发展以及数字医疗设备的广泛使用,传染病数据呈海量增长趋势,相比传统数据来说,传染病数据具有采集来源多样化、实时更新、数据量大以及数据结构多样化的特点。在这种情况下,结构化型数据库面临许多难以解决的问题。
首先,大量半结构化、非结构化数据的存在,使得数据库设计者难以事先确定合理、有效的数据关系模型,这就与结构化数据库优先设计模式的原则产生了冲突。而且结构化数据库的横向扩展能力通常比较差,数据模式的变更、数据库的升级产生相当高的代价,这对大型系统来说几乎是不可能的。
其次,传染病数据处理对并发读写能力要求极高,需要很高的实时性。简单的查询操作可能就涉及到对海量数据的读写,结构化数据库使用基于SQL的接口,难以实现单条语句的分布式处理。而在面对超大规模数据集 ,对于如Join、Union等多表联合的操作的效率非常低下,很难满足高并发处理和大数据量下的实时性要求。
最后,海量的传染病数据使得分布式的存储方案势在必行,而多数结构化数据库都不支持大规模的分布式存储,一般都会采用数据分表分库的方式来实现。这样在数据量到达一定阶段后又将面临扩展性的问题,而且存储需求的变更可能又会需要一种新的数据切分方式,对于应用系统而言不透明,将会使系统变得非常复杂。虽然可以通过开发透明的中间件来使开发者避免复杂的编程,但却避免不了系统整个架构的复杂性。而问题产生的根源来自结构化数据模型自身的缺陷,只有采用全新的数据模型,才能从根本上解决这些问题。
发明内容
本发明的目的是针对现有技术的不足而提供的一种基于HBase的传染病数据管理方法,该方法将传染病数据分为结构化和非结构化数据进行存取,存储使用HBase数据库,存储容量大,存储扩展性好,查询效率高,并能满足用户和医生对数据查询、获取、存储等各种要求。
实现本发明目的的具体技术方案是:
一种基于HBase的传染病数据管理方法,特点是:该方法包括传染病数据的存储及查询获取;所述传染病数据的存储包括传染病非结构化数据的存储和从已有的结构化数据库获取的传染病结构化数据的存储;所述传染病数据的查询获取包括传染病结构化数据的查询获取和传染病非结构化数据的查询获取;其中:
a、所述从已有的结构化数据库获取的传染病结构化数据的存储,包括以下步骤:
⑴、在HBase非结构化数据库中,建立HBase传染病非结构化存储表;
⑵、从已有的结构化数据库中,选取所有的传染病结构化数据;
⑶、采用Thrift接口,调用该接口的Tput函数读取所有的传染病结构化数据,将所有的传染病结构化数据存储到HBase传染病非结构化存储表中;
b、所述传染病非结构化数据的存储,包括以下步骤:
⑴、建立传染病非结构化数据的存储文本;
⑵、将传染病非结构化数据保存到存储文本中;
⑶、采用Thrift接口,调用该接口的Tput函数读取存储文本,将传染病非结构化数据以<key, value>形式存储在HBase 传染病非结构化存储表中;
c、所述传染病结构化数据的查询获取,包括以下步骤:
⑴、采用Thrift接口,向HBase传染病非结构化存储表发送查询传染病结构化数据的查询条件;
⑵、Thrift接口调用Tget函数,查询HBase传染病非结构化存储表中与查询条件相符的传染病结构化数据,并获取数据;
⑶、建立存储文本,将步骤⑵获取数据存储到文本中;
d、所述传染病非结构化数据的查询获取,包括以下步骤:
⑴、采用Thrift接口,向HBase传染病非结构化存储表发送传染病非结构化数据的查询条件;
⑵、调用Tget函数,查询HBase传染病非结构化存储表中与查询条件相符的传染病非结构化数据,并获取该数据;
⑶、建立存储文本,把获取的传染病非结构化数据存储到文本中;其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510166304.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种湖泊型流域水生态功能一二级分区方法
- 下一篇:一种学生测评系统
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用