[发明专利]一种基于关联特性的多维元数据管理方法和系统有效
申请号: | 201310090042.4 | 申请日: | 2013-03-20 |
公开(公告)号: | CN103218404A | 公开(公告)日: | 2013-07-24 |
发明(设计)人: | 华宇;黄大彰;冯丹;刘进军;聂振华;蔡娟 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 朱仁玲 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关联 特性 多维 数据管理 方法 系统 | ||
技术领域
本发明属于计算机数据存储领域,更具体地,涉及一种基于关联特性的多维元数据管理方法和系统。
背景技术
随着云计算、云存储时代的到来,信息存储系统中的数据规模的几何级数式增长使得对数据的高效存储、管理与查询等问题也变得越来越困难。海量数据规模的不断增长导致了数据存储和维护的难度不断增加,研究表明,实际中海量存储系统的文件数据具有显著的关联特征。关联特性是指文件在其属性空间中具有的聚集现象,其本质上体现了文件之间的相关性。通常情况下,我们经常使用的是文件间的时间关联性与空间关联性,时间关联性表现在时间相近的文件在一段时间内会被立即访问,而空间关联性表现在位于相邻位置的文件具有很大可能性被后继请求访问。除了时间关联性与空间关联性之外,还有众多的关联性体现在文件与文件之间,比如文件大小、文件的访问频率、文件的创建者等。但是已有的研究成果明显缺乏对文件在更多属性上关联性的研究。考虑更多属性上的关联性,有助于更加准确地区分文件之间的相关性,基于多维属性空间中的距离度量,两个文件间的相关性可以明确的计算出来。面对海量数据处理,运用一定的方法来度量数据之间的关联性,并由此将数据划分成多个聚集的空间,将为后继处理带来明显的好处。
然而,现有的元数据管理方法存在以下问题:
(1)没有充分利用元数据的多维属性间的关联特性,表现在现有方法往往只利用了元数据的时间属性与空间属性,没有充分地挖掘元数据之间的关联特性。
(2)不能有效的支持复杂的查询请求,对于涉及元数据多维属性的查询请求,如范围查询、TopK查询等,现有方法不能有效地处理;
(3)可扩展性差,当元数据数目随着系统的扩展而变多时,现有方法的查询响应时间将显著增加。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于关联特性的多维元数据管理方法,旨在解决海量存储系统中的元数据管理问题,其能够充分地利用元数据的多维属性间的关联特性,满足复杂查询需求,并具有良好的可扩展性。
为实现上述目的,本发明提供了一种基于关联特性的多维元数据管理方法,包括以下步骤:
(1)在元数据服务器集群中,对每台元数据服务器上的元数据根据关联特性进行划分,以生成元数据集合与集合统计文件;
(2)根据集合统计文件,对元数据集群进行分组操作,以生成多个元数据服务器分组与分组配置文件;
(3)根据集合统计文件,分别在每台元数据服务器上建立本地索引表;本地索引表用于管理每台元数据服务器上的元数据集合,索引表中每一项记录了集合统计文件中的元数据集合编号,以及该元数据集合编号对应的元数据集合在磁盘中的存储地址;
(4)根据分组配置文件与集合统计文件,分别在每个元数据服务器分组内建立组索引表;
(5)根据组索引表,建立元数据服务器集群的顶层索引表;
(6)接收来自用户的查询请求,并根据查询请求依次查询顶层索引表、组索引表与本地索引表,并返回查询结果;其中用户查询请求包括点查询、范围查询和TopK查询。
步骤(1)包括以下子步骤:
(1-1)确定表示每台元数据服务器上元数据之间关联特性的多维属性;
(1-2)将元数据的多维属性构造成固定长度的输入向量,该输入向量作为位置灵敏哈希函数的输入值;
(1-3)使用相同的位置灵敏哈希函数对输入向量进行哈希计算,得到的哈希值作为该输入向量对应的元数据的唯一标识;
(1-4)将具有相同哈希值的元数据划分到同一元数据集合中,并以该哈希值作为该元数据集合的编号;
(1-5)统计元数据集合中元数据的划分情况,以生成集合统计文件;该集合统计文件包括元数据集合编号、元数据数目、各维属性平均值、各维属性范围,其中元数据集合编号范围为1,2,3,…,N,N表示位置灵敏哈希函数中哈希表的长度。
步骤(2)具体为,在每台元数据服务器上构建一个位向量,该位向量的长度与步骤(1)中位置灵敏哈希函数使用的哈希表长度相同,其后,根据所有元数据服务器的位向量两两之间的海明距离并利用层次聚类算法在元数据服务器之间进行聚类操作,以得到元数据服务器的分组,当聚类形成的分组数目达到下限,或者分组之间的距离到达了上限,则停止聚类操作,从而得到多个元数据服务器组,并将结果保存在分组配置文件中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310090042.4/2.html,转载请声明来源钻瓜专利网。