[发明专利]用于处理用于在XML数据库中存储的非XML文档的方法和系统无效

专利信息
申请号: 200810098199.0 申请日: 2008-05-26
公开(公告)号: CN101320380A 公开(公告)日: 2008-12-10
发明(设计)人: 米歇尔·盖斯曼 申请(专利权)人: 软件股份公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京东方亿思知识产权代理有限责任公司 代理人: 柳春雷
地址: 德国达*** 国省代码: 德国;DE
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 处理 xml 数据库 存储 文档 方法 系统
【说明书】:

技术领域

本发明涉及一种用于处理用于在XML数据库中存储的非XML文档的方法和数据库系统。

背景技术

XML数据库是现代信息社会中最重要的技术工具之一。这种数据库的高度灵活性允许以非常高效的方式来存储和检索数据。通常,XML数据库设计用于XML文档。然而,在现有技术中也已知扩展XML数据库使得其能够存储其它类型的文档。例如,申请人的XML数据库Tamino适于存储非XML文档,例如文本文件、MS Office文件、PDF文件、图像和音频文件等。为了使得能从数据库检索这种非XML文档,已知分析要存储的非XML文档并且提取一些元数据,用于生成对应于该非XML文档的所谓XML影子(shadow)文档。使用XQuery,可随后搜索影子XML文档并且可检索对应的非XML文档。

通常由数据库系统的一个软件来执行对元数据的分析和提取,其中该软件专用于某种类型的非XML文档。作为候选,可为处理非XML文档提供更通用的分析和提取软件,该软件包括若干组件,每个组件特定地设计为处理预定义类型的非XML文档。类似的方法和系统从US6,549,922和已公开的US专利申请US 2005050086是已知的。

然而,现有技术用于处理用于在XML数据库中存储的非XML文档的所有方法和系统使用预定义格式或模式以用于所生成的XML文档。换言之,所有类型的非XML文档将总是导致某种类型的影子XML文档。例如上述的申请人的Tamino数据库使用固定XML模式,其依照“Dubin CoreMetadata Initiative”(http://dublincore.org/)并且遵循OpenOffice格式(http://openoffice.org)。结果,影子XML文档的内容有时不是非常有用,如果固定XML模式不允许用有意义的信息在影子XML文档上存储元数据的话。因此现有技术中已知的基于影子XML文档搜索非XML文档是低效和缓慢的。

上面略述的用于处理非XML文档的方法还导致一些问题,如果要处理新类型的非XML文档以供存储和/或如果要使用不同供应商的软件组件来处理不同类型的非XML文档的话。这尤其适用于如果新类型的文档不是标准的办公文档,而例如是图像,其中要提取的元数据(例如颜色分布、分辨率、大小或图像处理软件的任何结果)与用于标准办公文档的的元数据非常不同。

因此,本发明在一个方面基于技术问题提供了更灵活的方法用于生成影子XML文档,该方法克服了现有技术中上述缺点中的至少一些。

发明内容

在本发明的一个方面中,通过用于处理用于在XML数据库中存储的非XML文档的方法来解决该问题,该方法包括以下步骤:

-根据预定XML模式生成用于非XML文档的影子XML文档,影子XML文档包括从非XML文档提取的元数据,

-在XML数据库中存储影子XML文档和非XML文档;

其中XML模式包括适于包装至少部分未定义XML结构的XML内容的包装元素。

因此,本发明的方法在XML数据库中存储两个单独文档,非XML文档本身和对应的影子文档。如在XML模式中定义的影子XML文档的结构,是灵活的并且可以变化。这是因为没有完整地定义由本发明的XML模式的包装元素所包装的XML内容的结构。相反,任何良构的XML内容可布置在包装元素之内。结果,所述方法为生成XML影子文档的组件提供了更多的灵活性,因为它们不再必须严格地遵守不灵活的、固定的XML模式。

尽管包装元素可包装任何种类的良构XML内容,而不管其结构和内容,适于使用具有通配符的XQuery来搜索包装元素的XML内容。

根据本发明的另一方面,方法还包括在影子XML文档上创建索引的步骤,其中在一个示例中在XML模式中定义了用于索引的信息。因此,将包装元素的XML内容的结构的灵活性与一些定义结合,这些定义适于为影子XML文档和它们的非XML对应物的随后搜索和检索提供索引。在一个实施例中,影子XML文档包括标识对应非XML文档的唯一标识符。

根据另一方面,本发明涉及一种XML数据库系统,其具有适于分析非XML文档的分析器,以及适于从非XML文档提取元数据并且根据预定义XML模式生成用于非XML文档的影子XML文档的至少一个提取器,其中影子XML文档包括元数据。XML数据库系统还包括适于包装影子XML文档中所提取元数据的包装器,其中所包装元数据的结构是在XML模式中至少部分未定义的。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于软件股份公司,未经软件股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810098199.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top