[发明专利]一种科学数据存储关联方法有效
申请号: | 201810352627.1 | 申请日: | 2018-04-19 |
公开(公告)号: | CN108595588B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 丁一鸣;赵旦谱;阎克栋;台宪青 | 申请(专利权)人: | 中国科学院电子学研究所苏州研究院 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/28 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 楼高潮 |
地址: | 215121 江苏省苏州市工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 科学 数据 存储 关联 方法 | ||
本发明公开了一种科学数据存储关联方法,将科学数据通过建立一套元数据描述方案,根据元数据描述查找可以合并的科学数据,将科学数据进行合并后重新调整元数据和科学数据实体进行相应合并减少跨表查询,并将元数据按照一定规则存储在Neo4j中,表达出科学数据之间的关联。科学数据实体则存储在MongoDB用以支持复杂逻辑计算。本发明通过建立一套元数据描述对科学数据进行有效描述,并将元数据存储在Neo4j中,表达出科学数据之间的关联,减少存储空间。解决了现有技术中需要大量存储空间存储RDF数据,以及目前存在的查询性能差、速度较慢、以及无法进行复杂分析运算的问题。
技术领域
本发明属于信息技术领域,尤涉及一种科学数据存储关联方法。
背景技术
科学数据包括了社会公益性事业部门所开展的大规模观测、探测、调查、实验和综合分析所获得的长期积累和整编的海量数据,也包括国家科技计划项目实施与科技工作者长年累月科学实践所产生的大量数据,所以科学数据中带有大量的时空属性,这种数据对于科学研究和发现甚至跨学科发现有着重要的研究价值。
参考文献《关联数据发布流程与关键问题研究》、《基于关联数据的高校图书馆科学数据组织研究》和《基于数据关联的开放科学数据长期保存利用研究》等,目前关联数据流程主要采用RDF(Resource Description Framework 资源描述框架)来描述科学数据,它采用URI(Uniform Resource Identifier 统一资源标识符)来标识每一条科学数据资源,并采用“主语-谓语-宾语”三元组来表示每一条属性,通过属性之间对等达到数据关联的目的。关联数据流程如图1。
在流程图中包含四个步骤:
1.数据建模:为选取待发布的科学数据,选择或设计RDF此表,定义待发布实体之间的语义关系;
2.实体命名:为每个科学数据实体赋予一个永久的URI;
3.实体RDF化:采用RDF来描述每个实体;
4.实体关联化:采用RDF link来描述实体之间的关联。
在这种方案中,首先,RDF方式描述,采用传统关系型数据库会将数据分成多个维度存储多份数据,大幅度增加了数据的存储空间,对数据管理带来了很大的难度,尤其是以后随着科学研究的发展,产出的科学数据将呈现井喷式增长;其次,目前一般RDF发布服务器性能比较慢,尤其是在跨越多张表进行关联查询时候;以这种方式组织管理,无法进行复杂的分析运算很难做到科学发现。
发明内容
本发明所要解决的技术问题是针对背景技术的缺陷,提供一种科学数据存储关联方法,将原先四个步骤的关联流程减少到了三个,分别为数据建模、数据合并、数据关联三个流程,解决了现有技术中需要大量存储空间存储RDF数据,以及查询性能差、速度较慢、以及无法进行复杂分析运算的问题。
本发明为解决上述技术问题采用以下技术方案
本发明提出一种科学数据存储关联方法,包括:
步骤1、对科学数据的元数据进行描述,并按照模板生成数据描述元数据文件、属性描述元数据文件;
步骤2、采用MongoDB数据库对数据描述元数据和属性描述元数据进行合并存储,将具有类似结构的科学数据进行合并;首先对数据描述元数据中的范围项、数据量和主键进行合并,主键如果不一致则采用新的主键;然后对属性描述元数据进行最大化合并,将两个数据集中的数据属性全部包含进去;
步骤3、采用Neo4j图数据库对元数据进行存储和关联,Neo4j图数据库节点分为四大层:第一层标识数据分类,第二层标识学科分类,第三层标识数据集的数据描述元数据,第四层为数据集的属性描述元数据;其中第一层和第二层都可按照分类规则划分为多个层次,并且需与数据集的数据描述元数据中的数据分类、学科分类相对应,每层之间均为从属关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院电子学研究所苏州研究院,未经中国科学院电子学研究所苏州研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810352627.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置