[发明专利]资源描述框架数据的处理方法有效
申请号: | 201110391522.5 | 申请日: | 2011-11-30 |
公开(公告)号: | CN102521299A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 袁平鹏;金海;赵峰;刘谱;吴步文 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 朱仁玲 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 资源 描述 框架 数据 处理 方法 | ||
技术领域
本发明涉及数据存储领域,更具体地说,本发明涉及一种资源描述框架数据的处理方法。
背景技术
资源描述框架(Resource Description Framework,RDF)已经成为数据交换的标准格式之一。它描述了互联网上的一个资源的属性及其与其他资源的关系。在形式上,RDF可以用一个三元组来表示:主体(subject)、谓词(predicate)和客体(object)。
由于RDF数据中,实体通常是用统一资源标识符(Uniform Resource Identifier,URI)或者字面(Literal)表示的,并且有很多是重复的,所以在存储时,通常先把这些URI或者字面转换成ID(整数)再进行存储。这样即减少了存储的空间,并且在查询也方便进行处理。在这个基础之上,根据ID的分布特点,提出各种压缩方法来减少ID所占用的空间。此外,对ID进行压缩在数据查询能够减少CPU缓存的缺失率,进而提高查询速度。
目前,国内外提出了一些资源描述框架数据存储系统。其中著名的有BitMat、RDF-3X等。BitMat采用了D-Gap的压缩方式,虽然有很好的压缩效果,但是其压缩的方式不利于快速地解压;RDF-3X采用了基于块的Delta压缩方式,但是其压缩方式不能快速地定位到某一特定的RDF三元组数据,并且其为了提高查询速度,存储的数据存在大量的冗余。总而言之,这些系统中没有很好地平衡数据的压缩效率和数据解压之间的关系。
发明内容
本发明的目的是提供一种资源描述框架数据的处理方法。该方法通过将RDF三元组数据表达成一个稀疏矩阵,根据稀疏矩阵的特点将稀疏矩阵进行自适应地压缩。利用本发明,能够对大规模的资源描述框架数据进行高效地存储。
本发明是通过以下技术方案实现的:
一种资源描述框架数据的处理方法,包括以下步骤:(1)利用哈希算法对资源描述框架数据进行处理,以生成N*3的矩阵,其中N为大于1的整数,矩阵的三列分别代表主体数组、谓词数据和客体数组,(2)确定主体数组和客体数组中的最大值eidmax,以及谓词数组中的最大值pidmax,(3)建立资源描述框架数据的关联矩阵M,其中,关联矩阵的大小为(eidmax+1)*N,并将关联矩阵M所有位初始化为0,(4)根据矩阵设置关联矩阵中的位值,并对资源描述框架数据进行转换,(5)对关联矩阵M进行压缩。
步骤(4)具体包括:
(4-1)设置计数器k=1;
(4-2)读取矩阵的第k行数据,将数据的三个分量记为(SID,PID,OID);
(4-3)将关联矩阵第k列中的第SID和第OID行置1;
(4-4)判断SID是否大于OID,若是进入步骤(4-5),否则进入步骤(4-6);
(4-5)将矩阵第eidmax+1行的第k列置1,
(4-6)并设置计数器k=k+1;
(4-7)判断k是否大于N,若是,则进入步骤(5),否则返回到步骤(4-2)。
步骤(5)具体包括:
(5-1)创建数组compress_buffer[],并设置计数器i=1,n=0;
(5-2)读取关联矩阵中的第i行,并将其存储在变量bit_vector中;
(5-3)将变量bit_vector按每15位进行分组,以形成位单元数组bit_unit[],若最后一个位单元不足15位,则进行补0对齐;
(5-4)设置计数器j=1,并将位单元数组bit_unit[]的长度记为bit_unit_length;
(5-5)读取位单元数组bit_unit[]中的第j个位单元unitj;
(5-6)判断位单元unitj中的位值是否都相同,若是,则进入步骤(5-13),否则进入步骤(5-7);
(5-7)在数组compress_buffer[]中增加一个压缩存储单元,将压缩存储单元的最高标志位设置为0;
(5-8)设置计数器j=j+1;
(5-9)判断j是否小于bit_unit_length,若是,则返回步骤(5-5),若不是则进入步骤(5-10);
(5-10)设置计数器i=i+1;
(5-11)判断计数器i是否小于eidmax+1,若是,则返回步骤(5-2),否则进入步骤(5-12);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110391522.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可分离式移动燃料篮
- 下一篇:一种发光MP4
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置