[发明专利]一种XML关键字查询方法无效
| 申请号: | 201210338190.9 | 申请日: | 2012-09-13 |
| 公开(公告)号: | CN102867054A | 公开(公告)日: | 2013-01-09 |
| 发明(设计)人: | 宗竞 | 申请(专利权)人: | 江苏乐买到网络科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 杨林洁 |
| 地址: | 215123 江苏省苏州市苏州工*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 xml 关键字 查询 方法 | ||
技术领域
本发明涉及信息领域,尤其涉及一种XML关键字查询方法。
背景技术
随着越来越多的Web应用,如电子商务、电子政务与各种数字化资源等等,使得XML技术在Web应用中起着举足轻重的作用,也使得XML标准逐渐成为当前主流的数据格式,主要有数据表示、数据存储和数据交换。因此,如何高效地管理大量XML文档成为当前数据库领域研究的热点。当XML格式的数据成为主流数据后,如何高效的从XML文档中获取用户感兴趣的信息成为众多研究机构和学者关注的问题。因此,XML查询技术根据其查询模式的不同,可分为:XML结构化查询和XML关键字查询。
对于XML结构化查询而言,首先,用户需要凭借查询描述语言来描述对自己感兴趣的内容;其次,将用户的查询语句提交XML数据库系统;最后,XML数据库系统需要根据用户提交的查询语句返回与查询语句相匹配的结果给用户。因为结构化查询通常采用的是正则路径表达式的形式,所以其最主要的优点就是可以获得更精确的查询结果。但是XML结构化查询也存在着以下两点缺陷。
(1)需要普通用户必须学习相关的查询语言。
(2)需要普通用户了解所要查询的。
XML文档的数据组织形式由于XML结构化查询存在着以上缺陷,使得XML结构化查询不能被绝大多数的普通用户选择使用。因此,更为方便的XML关键字查询也随之成为信息检索领域的研究热点。对于XML关键字查询而言,首先,针对用户感兴趣的内容,用户只需要凭借若干个关键字来进行描述;其次,将用户的关键字提交给XML数据处理系统进行处理;最后,XML数据处理系统会返回与用户提交的关键字相匹配的结果给用户。因此,对普通用户来说,XML关键字查询是一种极为方便的查询模式。
但是,XML关键字查询也存在着明显的缺陷,由于XML文档具有半结构化、自描述性等特点,使得XML关键字查询通常返回的不是整个XML文档,而是包含全部关键字的XML文档片段。如果更深层次的节点包含关键字信息,那么需要考虑更多的上下文信息。因此,XML关键字查询返回的结果中通常含有大量的无关信息。然而,与传统的信息检索技术相比,虽然XML关键字查询技术和传统的信息检索技术都是提交若干个查询关键字,但是其查询结果往往是不同的。
随着XML关键字查询技术在现实生活中的广泛应用,如何有效的获取满足所有关键字组合语义的XML文档片段成为XML关键字查询的关键问题。
发明内容
基于上述问题,本发明提出一种具有查询高效性的XML关键字查询方法。
本发明的一个目的是提供一种XML关键字查询方法,其特征在于包括步骤:
首先,根据用户输入的关键字获得所有关键字的倒排表;
其次,通过扫描关键字倒排表并根据快速分组方法进行分组,因此根据不同的分组构建的子树自然也就满足以SLCA为根节点,且包含全部关键字;
最后,对每个分组构建路径子树,进而对路径子树根据单调性和一致性约束过滤冗余信息得到最终的查询结果,即匹配子树。
本发明的另一方面进一步包括,解析XML文档时,首先在每个编码的尾部附加一个路径ID用于标识其路径;其次构建关键字倒排表,将与每个关键字相匹配的所有节点组织在一起,并根据Dewey编码从小到大的顺序进行排序;最后,构建从根节点到每个值节点的路径索引,通过Dewey编码最后一位的路径ID索引该节点在XML文档中的全部路径。
本发明的另一方面进一步包括通过快速构建分组集来构建路径子树,进而获得全部的匹配子树。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见,下面描述中的附图仅仅是本发明的部分实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1示出了XML文档查询返回的完全子树示意图;
图2示出了XML文档查询返回的路径子树示意图。
具体实施方式
下面结合附图来详细地描述本发明的具体实施例。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏乐买到网络科技有限公司,未经江苏乐买到网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210338190.9/2.html,转载请声明来源钻瓜专利网。





