[发明专利]面向用户自定义元数据的索引与查询方法和系统有效
| 申请号: | 202010259594.3 | 申请日: | 2020-04-03 |
| 公开(公告)号: | CN111427847B | 公开(公告)日: | 2023-04-11 |
| 发明(设计)人: | 卢宇彤;杜云飞;陈志广 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/14 |
| 代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 谭武艺 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 面向 用户 自定义 数据 索引 查询 方法 系统 | ||
本发明公开了一种面向用户自定义元数据的索引与查询方法和系统,本发明索引方法包括提取用户自定义元数据,初始化包含值存储哈希表、路径存储哈希表的层次式哈希索引结构并填充用户自定义元数据,值存储哈希表的键存储“属性名”、值存储该“属性名”对应的“属性值”集合;路径存储哈希表的键存储“属性名”和某一“属性值”组成的字符串,值存储该“属性名”及“属性值”对应“数据对象路径”集合。本发明只需提取文件的用户自定义元数据信息,无需任何数据移动开销;相比于遍历方式,本发明设计的层次式索引与查询机制能够快速定位目标文件,高效满足查询需求,能够满足科研人员对科学数据的定位需求。
技术领域
本发明涉及自描述文件格式的索引与查询技术,具体涉及一种面向用户自定义元数据的索引与查询方法和系统。
背景技术
科学模拟和工业仿真对计算能力的强烈需求促使了高性能计算系统的迅猛发展。传统高性能计算系统包含大量通过高速互联网络连接的计算节点;这些计算节点本身往往不挂载本地磁盘,而是依赖构建于磁盘阵列之上的并行文件系统(如Lustre 文件系统)提供高并发的I/O性能和可靠的持久化存储能力。文件元数据是由文件系统预定义的、描述文件属性的信息,一般包含文件的大小、创建时间、所属用户、读写权限和拓展属性等信息,一般以索引节点数据结构的形式实现。文件元数据由文件系统负责组织和管理,是文件系统管理数据的关键。科学数据通常表示为多维数组,且数组中每个单元都可能是一个复杂的数据对象。直接将每个多维数组以文件的形式存储,并依赖于并行文件系统进行管理的方式存在以下不足。首先,文件系统的元数据信息固定,缺少对多维数组中数据元素的描述,不利于科研人员实现跨平台的数据共享;其次,科学数据快速增长,每个多维数组作为一个文件的管理方式显著增加文件系统元数据管理压力;此外,数据分析过程涉及大量不同科学数据,每个文件存储单个多维数组的方式不利于科研人员建立多维数组之间的联系。
为了有效存储和管理复杂的科学数据,自描述文件格式应需而生。HDF(Hierarchical Data Format)是一种典型自描述的文件格式,最初由美国国家超算中心研发,目前提供的版本主要包括HDF4和HDF5,被广泛使用于高能物理、气象和天文等不同科学领域。所谓“自描述”是指此种文件格式中既包含文件内部对象的元数据信息,又包含文件内部对象的数据信息。自描述文件格式耦合“元数据”和“数据”的方式允许科研人员将多个复杂的多维数组对象组织为单个自描述文件,同时提供专用的API接口用于管理和访问自描述文件格式内部的数据对象,从而实现便捷的跨平台的数据共享。
随着高性能计算系统的计算能力不断提升,大规模模拟实验和高精度观测设备产生的科学数据也呈爆炸性趋势增长。相比分析完整的TB甚至PB级的科学数据集,科研人员在科学发现过程中往往针对部分感兴趣的数据进行处理。例如,广州市气象局使用的天气预报模式每两个小时产生5 GB以上的数据。尽管一年的气象数据包含数万个HDF5文件,但气象学领域的科学家通常只对一部分数据感兴趣,如某些包含雷暴、台风等极端天气事件的文件。为了标注此类特殊数据,科研人员往往为文件添加“属性名-属性值”形式的用户自定义元数据信息,如普通气象文件的用户自定义元数据信息为“气象类型-无”,而包含台风的气象文件的用户自定义元数据信息则为“气象类型-台风”。虽然用户自定义元数据可以作为文件元数据的拓展属性,但由于数据服务与文件系统分离,导致文件系统无法有效根据用户自定义元数据定位目标文件,遍历文件系统从而筛选所需文件的方式必然效率低下。HDF5自描述文件格式虽然提供相应的接口允许用户便捷的为文件添加用户自定义元数据,但是同样缺乏有效的索引查询机制。将科学数据导入数据库等外部数据管理系统虽然能够满足用户的索引和查询需求,但是随着数据量的不断增加,数据在并行文件系统与外部数据管理系统之间的移动成本难以忽略。因此,现有遍历方式和将数据导入外部数据管理系统的方式难以应用到大规模科学数据管理场景中。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010259594.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





