[发明专利]一种XML数据库全文检索的文本相关度计算方法和系统有效

申请号：	201210265017.0	申请日：	2012-07-27
公开（公告）号：	CN102799685A	公开（公告）日：	2012-11-28
发明（设计）人：	赵伟;郑程光;孙伟丰;罗正海;李泉;李浩;李书淦;程仁波	申请（专利权）人：	上海方正数字出版技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	上海汉声知识产权代理有限公司 31236	代理人：	胡晶
地址：	201203 上海市浦***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 xml 数据库全文检索文本相关计算方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及计算机技术领域，特别涉及一种XML数据库全文检索的文本相关度计算方法和系统。

背景技术

随着现代信息产业的不断深入发展，对于信息的集成和共享的需求也变得日益迫切。XML（全称Extensible Markup Language），是一种专门为internet而设计的一种标记语言。XML的重点不在于数据的形式本身，而在于管理数据信息，因此，XML使得不同数据库模式的统一成为可能，为异构数据库的集成问题提供了途径。因此，XML在近几年得到了发展和广泛的应用。XML数据库管理系统（XMLDBMS）也是近年来发展迅速的一种新型的数据库管理系统，它以存储和检索符合W3C标准的XML文文件数据为目标的数据库管理系统，并且可以更新XML文档。由于它存储的对象是XML文档，因此XMLDBMS本质上就是一种XML文档库。

随着XML相关技术的深入研究，XML查询已经具备了坚实的技术基础在此基础上，W3CWorldWideWebConsortium于2001年12月提出了XML查询语言规范工作草案-XQuery语言，迄今为止，XQuery语言一直在不断的发展中。XML数据的检索和更新语言是由W3C制定的标准的XQuery和XQuery Update。XQuery系列语言基于序列数据模型（XDM），即XQuery中任意资料都是一个序列，序列由若干个有序的项目（item）的组成；一个item是一个原子值或者一个XDM节点，一个XDM节点是XML文档的7种节点之一。基于这样的数据模型，最自然和高效的XML数据存储方案就是把XML文档存储为节点。XQuery的FLOWR语句类似于SQL的select/from/where/orderby，是遍历节点并且返回查询结果的方式，FLOWR语句依次处理一个序列中的每个item，这些被处理的item成为context item。XQuery Fulltext查询表达式以”contains text”开头并且其返回结果是一个布尔值，所以它总是作为谓词表达式来使用。

计算中，用户可以为每一个查询文本指定权重(weight)，用于相关度数值的计算。在XQuery中，相关度是一个score关键词定义的浮点数类型的变量，score只可以出现在FLOWR语句的For和Let子句中。虽然Fulltext查询表达式可以作为谓词表达式出现在任何xpath/xquery查询/更新语句中，但是这些语句中除了for和let子句外都不可以定义score变量；每个for子句中只允许定义一个score变量，但是允许在其查询表达式中有任意多个fulltext查询表达式作为谓词，但是每一个context item只有一个score值，无论有多少个fulltext查询表达式；可以使用Let子句定义多个score变量，每一个变量都使用一个特定的查询表达式来计算相关度。相关度变量值可以在FLOWR的where子句中用于过滤context item，也可以用在return子句中作为查询结果的一部分。XQuery Fulltext标准对相关度计算的要求非常宽泛，除了要求score（即相关度）变量值位于[0,1]区间内并且较大的值代表较大的相关度之外，其余都由不同的系统自定义实现。

相关度计算是全文检索的重要需求，正确合理地计算相关度可以让用户按照相关度对查询结果排序，以便优先处理和利用最相关的信息。

发明内容

为解决上述问题，本发明技术方案提供了一种XML数据库全文检索的文本相关度计算方法，包括：

计算包括XQuery Fulltext查询语法树中的叶节点在内的所有内节点的子节点的相关度和权重值；

将所述内节点的所有子节点的相关度和权重值分别保存在两个数组中；

获取所述内节点的所有子节点的相关度和权重值；

根据所获取的所述内节点的所有子节点的相关度和权重值计算所述内节点的相关度。

可选地，所述叶节点的相关度根据下述的公式计算得到：

S=M/N；

其中，M为查询字符串经过分词后得到的若干个目标查询单词在被检索的文本字符串中出现的总次数，N为将所述被检索的文本字符串分词后得到的单词的总数。

可选地，所述的叶节点和所述内节点的其他的所有子节点的权重值由用户自定义得到。

可选地，所述的根据所述内节点的所有子节点的相关度和权重值计算所述内节点的相关度S₀具体为，利用下述的公式计算：