[发明专利]基于结构摘要的XML关键字检索方法有效
| 申请号: | 200910197333.7 | 申请日: | 2009-10-16 |
| 公开(公告)号: | CN102043802A | 公开(公告)日: | 2011-05-04 |
| 发明(设计)人: | 潘凌云;杨卫东;方非 | 申请(专利权)人: | 上海飞机制造有限公司;复旦大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 郑立柱 |
| 地址: | 200436*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 结构 摘要 xml 关键字 检索 方法 | ||
版权声明
本专利申请文件中包含受版权保护的内容,版权所有者对其它单位或个人在本专利申请由中国国家知识产权局公开之后对该内容进行的翻印没有异议,但保留就其它单位或个人针对该内容所进行的其它行为主张版权的所有权利。
技术领域
本发明涉及关键字检索,尤其涉及XML关键字检索。
背景技术
关键字检索因易于使用而广泛应用于信息检索领域。使用关键字检索,用户无须掌握复杂的查询语言,也无需了解XML文档的模式,便可以找到他们感兴趣的内容。由于XML已经成为构造网页和企业间进行信息描述和交换的标准,针对XML文档所进行的关键字检索(下称XML关键词检索)因而具有极其广阔的应用前景。
目前,与XML关键字检索相关的大部分研究都基于最低公共祖先(LCA),其中最具代表性的是由Yu Xu,Yannis Papakonstantinou在SIGMOD’2005上发表的Efficient Keyword Search for Smallest LCAs in XML Databases一文中的XKSearch中提出的最小最低公共祖先(SLCA),其中,以SLCA节点为根节点所返回的子树被认为是对用户有意义的。XKSearch中基于对LCA的计算来计算SLCA节点。LCA的最简便的计算方法是对文档中的元素和文本节点进行Dewey编码,然后对Dewey编码的结果计算最小公共前缀来得到LCA。XRANK、MLCA、XSEarch、VLCA等本质上与SLCA类似,不再赘述。XSeek、MaxMatch则探讨了如何在SLCA的基础上组织返回结果。关于XKSearch,可详见http://portal.acm.org/citation.cfm?id=1066217。
发明内容
本发明的申请人意识到,使用关键字来对XML进行检索,有以下关键性问题需要解决:
1.如何准确地定义关键字检索的语义
鉴于关键字的模糊检索的本质,其语义的定义显得十分重要。
2.如何建立合适高效的检索机制
Dewey编码的编码方式决定了对文档建立的索引中存在着许多的冗余和重复信息,使得文档的索引通常比文档还要大许多。图1a示出了对一个XML片段进行Dewey编码的例子。基于Dewey编码,可以方便直观地确定两个节点间的相互关系,并能迅速确定节点在树中的位置。Dewey编码的缺陷是存在较多的冗余信息,例如,图1(a)所示的XML树中的叶子节点Bob(0.0.0.0)的Dewey编码已经包含了该节点所有的路径信息,而author(0.0.0)又重复了对这个路径的编码。
3.如何让检索能够返回合适的结果
目前,对于以SLCA节点作为关键字检索的语义,返回的结果难以有效的组织。
基于对上述技术问题的认识,在本发明中,提出了一种基于结构摘要的XML关键字检索方法,其具体包括以下方面:
1)提供了XKSS索引建立方法,结合结构摘要技术来优化XML关键字检索的索引大小;
2)提供了在XKSS索引基础上计算SLCA的方法;
3)提供了利用XKSS来构造最小连通树的方法。
其中,结构摘要(structure summary)是一种由XML数据得到的对XML结构的近似描述,它以XML树结构中节点的路径信息为基础,对XML文档树的节点和路径进行约简,通常应用于对xPath等查询的路径进行快速查找匹配。它的特点是所有重复的节点和路径只在该结构摘要里出现一次,换言之,在结构摘要中不会存在两个具有相同路径的节点。对于一个XML文档而言,结构摘要是很小的,例如,图1a所示的XML文档的结构摘要如图1b所示。
XML小枝模式查询本质上是具有针对XML文档结构和内容的选择谓词的查询。将一组小枝模式与随时到达的XML文档进行匹配是XML流数据处理的核心操作。
在结构摘要索引方面也有许多相关的研究,其中,DataGuide最早被提出并应用于Stanford大学的Lore项目中。DataGuide的基本思想是将NFA转换为DFA的方法应用到归约XML树上的相同路径中。DataGuide是一个比较粗略的结构摘要,其中可能包含实际数据中并不存在的路径信息,所以,后来又陆续提出了一些基于双似(bisimilar)等价概念的结构摘要,如1-index和xSKETCH,以及后来放松双似的条件得到k阶双似的A(k)-indexes。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海飞机制造有限公司;复旦大学,未经上海飞机制造有限公司;复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910197333.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种混凝土试块双端面自动磨平机
- 下一篇:一种用于CNC机台的新型水箱





