[发明专利]用于处理用于在XML数据库中存储的非XML文档的方法和系统无效
申请号: | 200810098199.0 | 申请日: | 2008-05-26 |
公开(公告)号: | CN101320380A | 公开(公告)日: | 2008-12-10 |
发明(设计)人: | 米歇尔·盖斯曼 | 申请(专利权)人: | 软件股份公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 | 代理人: | 柳春雷 |
地址: | 德国达*** | 国省代码: | 德国;DE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 处理 xml 数据库 存储 文档 方法 系统 | ||
技术领域
本发明涉及一种用于处理用于在XML数据库中存储的非XML文档的方法和数据库系统。
背景技术
XML数据库是现代信息社会中最重要的技术工具之一。这种数据库的高度灵活性允许以非常高效的方式来存储和检索数据。通常,XML数据库设计用于XML文档。然而,在现有技术中也已知扩展XML数据库使得其能够存储其它类型的文档。例如,申请人的XML数据库Tamino适于存储非XML文档,例如文本文件、MS Office文件、PDF文件、图像和音频文件等。为了使得能从数据库检索这种非XML文档,已知分析要存储的非XML文档并且提取一些元数据,用于生成对应于该非XML文档的所谓XML影子(shadow)文档。使用XQuery,可随后搜索影子XML文档并且可检索对应的非XML文档。
通常由数据库系统的一个软件来执行对元数据的分析和提取,其中该软件专用于某种类型的非XML文档。作为候选,可为处理非XML文档提供更通用的分析和提取软件,该软件包括若干组件,每个组件特定地设计为处理预定义类型的非XML文档。类似的方法和系统从US6,549,922和已公开的US专利申请US 2005050086是已知的。
然而,现有技术用于处理用于在XML数据库中存储的非XML文档的所有方法和系统使用预定义格式或模式以用于所生成的XML文档。换言之,所有类型的非XML文档将总是导致某种类型的影子XML文档。例如上述的申请人的Tamino数据库使用固定XML模式,其依照“Dubin CoreMetadata Initiative”(http://dublincore.org/)并且遵循OpenOffice格式(http://openoffice.org)。结果,影子XML文档的内容有时不是非常有用,如果固定XML模式不允许用有意义的信息在影子XML文档上存储元数据的话。因此现有技术中已知的基于影子XML文档搜索非XML文档是低效和缓慢的。
上面略述的用于处理非XML文档的方法还导致一些问题,如果要处理新类型的非XML文档以供存储和/或如果要使用不同供应商的软件组件来处理不同类型的非XML文档的话。这尤其适用于如果新类型的文档不是标准的办公文档,而例如是图像,其中要提取的元数据(例如颜色分布、分辨率、大小或图像处理软件的任何结果)与用于标准办公文档的的元数据非常不同。
因此,本发明在一个方面基于技术问题提供了更灵活的方法用于生成影子XML文档,该方法克服了现有技术中上述缺点中的至少一些。
发明内容
在本发明的一个方面中,通过用于处理用于在XML数据库中存储的非XML文档的方法来解决该问题,该方法包括以下步骤:
-根据预定XML模式生成用于非XML文档的影子XML文档,影子XML文档包括从非XML文档提取的元数据,
-在XML数据库中存储影子XML文档和非XML文档;
其中XML模式包括适于包装至少部分未定义XML结构的XML内容的包装元素。
因此,本发明的方法在XML数据库中存储两个单独文档,非XML文档本身和对应的影子文档。如在XML模式中定义的影子XML文档的结构,是灵活的并且可以变化。这是因为没有完整地定义由本发明的XML模式的包装元素所包装的XML内容的结构。相反,任何良构的XML内容可布置在包装元素之内。结果,所述方法为生成XML影子文档的组件提供了更多的灵活性,因为它们不再必须严格地遵守不灵活的、固定的XML模式。
尽管包装元素可包装任何种类的良构XML内容,而不管其结构和内容,适于使用具有通配符的XQuery来搜索包装元素的XML内容。
根据本发明的另一方面,方法还包括在影子XML文档上创建索引的步骤,其中在一个示例中在XML模式中定义了用于索引的信息。因此,将包装元素的XML内容的结构的灵活性与一些定义结合,这些定义适于为影子XML文档和它们的非XML对应物的随后搜索和检索提供索引。在一个实施例中,影子XML文档包括标识对应非XML文档的唯一标识符。
根据另一方面,本发明涉及一种XML数据库系统,其具有适于分析非XML文档的分析器,以及适于从非XML文档提取元数据并且根据预定义XML模式生成用于非XML文档的影子XML文档的至少一个提取器,其中影子XML文档包括元数据。XML数据库系统还包括适于包装影子XML文档中所提取元数据的包装器,其中所包装元数据的结构是在XML模式中至少部分未定义的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于软件股份公司,未经软件股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810098199.0/2.html,转载请声明来源钻瓜专利网。