[发明专利]海量数字资源的免路径维护存储方法无效
| 申请号: | 200810171710.5 | 申请日: | 2008-10-23 |
| 公开(公告)号: | CN101727453A | 公开(公告)日: | 2010-06-09 |
| 发明(设计)人: | 孙一钢;王安生;朱先忠 | 申请(专利权)人: | 国家图书馆;北京邮电大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100081 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 海量 数字 资源 路径 维护 存储 方法 | ||
技术领域
本发明涉及海量数字资源的存储(存取)方法,具体地说,涉及一种海量数字资源的免路径维护存储方法。本发明可直接用于海量数字资源的存储与维护,可用于数字图书馆和数字档案馆中的数字资源的加工,永久保存以及转储与发布。
背景技术
数字资源的存储方法是指对资源本身的数据文件的存取以及对存取路径的维护。通常情况下,是把某一类数字资源的数据文件存放在一个海量的数据空间中,同时采用相应的软件管理系统来维护每个数字资源的存放路径,这样的管理系统要管理数以万计的数字资源,这些数字资源往往要占用以TB计的存储空间,这给文件路径的维护带来了困难,也降低了文件的存取效率。目前,数字资源的存取方法主要采取以下两种方式:
1.采用数据库字段存放数字资源:把数据文件存放到数据库表中的BLOB字段中,同时需要一个字段存放数字资源的标识信息。在存取资源时,通过标识信息的索引可以存取数字资源文件。如果资源数量太大,例如上百万的条目,会降低数据库的运行效率;如果单个资源文件比较大,例如上百M字节,也将降低数据库的运行效率。这是因为一般数据库管理系统都是为满足最佳的数据库表之间的笛卡尔运算效果而设计的,这样的存储方案不仅是浪费了存储服务器的资源,系统运行效率也比较低,并且一旦数据库出现故障会影响所有的数字资源的存取。
2.采用分类文件目录方法存放数字资源:对数字资源根据某种分类法(或对某种分类法进行改造)把数字资源存放到不同的与分类方法相关联的文件目录中。在这种情况下,存储管理系统需要维护文件标识和路径的对应表,系统根据对应表中提供的文件路径,即可存取数字资源本身。这也是目前比较常用的一种方式,例如国家图书馆的网上读书系统中,数字化图书影象的存储就采用这种方法,国内其它的网上读书(或网上图书馆)系统,例如超星数字图书馆、书生数字图书馆、中国知网CNKI、万方数据等也大都采用这一方案。本方案的优点是可对数字对象按类进行手工维护,例如增加一类图书或删除一类图书;缺点是检索系统必须维护每个对象的路径,存储的目录结构复杂,由于受存取效率的制约(因为目录的寻址算法往往是线性寻址)还必须对某些目录结构进行修正,如果某个资源放错了类别目录,在数据量太大后(例如上百万数据条目是很常见的),对某个目录的修改的风险太大,因为涉及的文件数量太多,以至于这种目录结构一旦生成就不能修改。
在海量数字资源存储环境中,会有数以亿计的数字资源文件,随着数字资源的变化,其存放的路径也会发生变化,对存取路径的维护关系到数字资源的完整性(数字资源的多个数据文件是完整的)和唯一性(避免数字资源文件的重复存放)。例如一般的省级图书馆会有上亿的数字资源,中国国家图书馆将有几十亿的数字资源,为了便于对资源进行资产化管理,需要对资源进行集中化管理,把这些资源存放在几个资源管理系统中,每个资源管理系统都会有几千万以上的数字资源。鉴于上述方法存在的上述问题,开发更好的海量数字资源存储方法对海量数字资源的管理具有重要的意义。
发明内容
本发明针对传统的数字资源存储方法中存在的问题,结合发明人多年来在海量数字资源存储上的研究和实验成果,提出了一种不需要维护文件资源存放路径的数字资源存放方法,在保证对数字资源存储完整性和唯一性的前提下,采用散列技术推算文件路径,省掉了背景技术中的两种方法中必须的文件路径维护,同时也提高了文件的存取效率。
本发明的思路是:在海量数字资源管理中,每个数字资源都必须具有一个唯一的资源对象标识,例如可以利用资源的URI、DOI、ISBN、ISSN或MARC数据的001字段作为唯一标识符,利用这个唯一标识符散列出一个路径,数字资源对象的标识符同时追加在这个路径的末端作为末级目录,数字资源的数据文件或者是数据文件包就存放在这个文件目录的路径中。这样资源管理系统只要根据数字对象的ID和散列算法即可存取数字资源,而不需要维护有关的对应定位信息。数字资源的存取地址只是数字资源标识符的一个函数。即:<数字资源的存取地址>=函数(数字资源的标识符)
本发明提供的一种海量数字资源的免路径维护存储方法,包括下列步骤:
步骤1,为一数字资源分配唯一的标识符;
步骤2,将所述数字资源的标识符的字符串散列到一个无符号的16位或32位整数D;
步骤3,将所述整数D换算为十六进制表示的字符串H;
步骤4,将所述字符串H的值合成一路径,并将所述数字资源的标识符追加到所述路径的末端作为末级目录,以使由不同标识符得到的目录各不相同;
步骤5,在步骤4得到的目录中存储所述数字资源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家图书馆;北京邮电大学,未经国家图书馆;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810171710.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子装置及其图片管理方法
- 下一篇:全球语言文字及语音即时互译系统





