[发明专利]一种使用位图索引的全文检索方法和装置有效
| 申请号: | 201210193874.4 | 申请日: | 2012-06-12 |
| 公开(公告)号: | CN102760165A | 公开(公告)日: | 2012-10-31 |
| 发明(设计)人: | 赵伟;郑程光;孙伟丰;罗正海;李泉;李浩;李书淦;程仁波 | 申请(专利权)人: | 上海方正数字出版技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 201203 上海市浦*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 使用 位图 索引 全文 检索 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,特别涉及一种使用位图索引的全文检索方法和装置。
背景技术
XML(全称Extensible Markup Language),是一种专门为internet而设计的一种标记语言,且由于其具有有效的表达各种信息、数据和使各种应用协同工作的能力,业已成为数据发布和数据交换的事实标准,因此,XML在近几年得到了发展和广泛的应用。XML的重点不在于数据的形式本身,而在于管理数据信息,因此,XML使得不同数据库模式的统一成为可能,为异构数据库的集成问题提供了途径。
XML数据库管理系统(XMLDBMS)是近年来快速发展的一种新型的数据库管理系统(DBMS),其用于存储和检索的数据为XML文档,并且支持XML文档的更新操作。随着XML标准被越来越多的行业采纳为数据交换标准,XML数据的管理(包括存储、检索、更新等)需求也保持着持续快速地增长,特别是XML数据库管理系统比关系数据库管理系统更加适合处理文本类数据和XML文档数据。查询引擎是数据库管理系统(数据库管理系统)中的核心子系统,由于XML是典型的半结构化数据,对XML数据的查询要求不同于传统数据库,在查询时不仅要对数据库中的数值进行查询,而且要对XML文档的结构和数据之间的关系进行查询。
在XML数据库管理系统中存储XML文档的实体称为容器,一个容器中存储任意多个XML文档的数据内容,而这个容器由若干个数据表支撑,分别存储这些XML文档的各个方面的数据和结构信息,包括节点数据,节点间关系,路径数据,各种索引,各种统计信息等。数据表存储的单位是数据行,一个数据表中含有若干个数据行,并且可以通过索引快速查找到特定的数据行。数据表中的每一行的位置使用一个TID来标识,一个TID唯一地标识一个数据行并且含有这个数据行在数据表中的地址,这样我们可以用TID找到数据行。
XML文档内容被作为节点数据存储在一个节点表中,在XDM的7种节点中,把属性节点,名字空间节点,文本节点,注释节点和处理指令节点都存放在它们的父亲节点(必然是元素节点)中,因此节点表中只存储元素节点和文档节点。文档节点存储一个XML文档的元数据信息,而文档的内容则存储在这个文档的所有的元素节点中。
随着XML相关技术的深入研究,XML查询已经具备了坚实的技术基础在此基础上,W3CWorldWideWebConsortium于2001年12月提出了XML查询语言规范工作草案-XQuery语言,迄今为止,XQuery语言一直在不断的发展中。XML数据的检索和更新语言是由W3C制定的标准的XQuery和XQuery Update。W3C同时制定了XQuery Fulltext标准,作为XML数据库管理系统的标准的全文检索语言。为了确保XML数据库管理系统的全文检索可以高效地执行,需要一个高效的文本索引来支持全文检索。
发明内容
为解决上述问题,本发明技术方案提供的一种使用位图索引的全文检索方法,适用于XML数据库管理系统,包括以下的步骤:
解析XML文档,获取所述XML文档的所有元素节点;
将所述XML文档的所有元素节点存储至一节点表中;
取出所述元素节点的所有文本子节点,并将所有文本子节点拆分成若干个单词,构成一集合;
对所述集合执行停用词过滤,得到有效单词集合;
构建位图索引表;
利用所述位图索引表进行全文检索。
可选地,所述构建位图索引表具体为:根据所述有效单词集合中的各个单词与所述节点表的数据行之间的映射关系构建所述有效单词集合中的各个单词的位图,形成所述位图索引表。
可选地,利用下述的公式根据所述有效单词集合中的各个单词与所述节点表的数据行之间的映射关系构建所述有效单词集合中的各个单词的位图:
block=i/M;
offset=i%M;
其中,TID为节点表中的数据行的地址,表示成为(block,offset),M为一个数据页中可存储的数据行数目的最大值,i表示每个单词的位图中的位置。
可选地,进一步包括,在所述将所述XML文档的所有元素节点存储至一节点表中的过程中,还进一步包括,为所述位图索引表的每个数据行构建索引键值,具体为:所述位图索引表具有一回调函数,所述回调函数负责为所述位图索引表的每个数据行构建索引键值;
所述回调函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海方正数字出版技术有限公司,未经上海方正数字出版技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210193874.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:粘合片
- 下一篇:3,3,3-三氟丙烯的制造方法





