[发明专利]XML数据库全文检索方法及系统在审
申请号: | 201310311498.9 | 申请日: | 2013-07-23 |
公开(公告)号: | CN104346332A | 公开(公告)日: | 2015-02-11 |
发明(设计)人: | 赵伟;李浩;郑程光;孙伟丰;罗正海;陈丽娟 | 申请(专利权)人: | 北大方正集团有限公司;方正信息产业控股有限公司;上海方正数字出版技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | xml 数据库 全文 检索 方法 系统 | ||
1.一种XML数据库全文检索方法,其特征在于,所述方法包括:
在XML数据库中设置停用词元数据表、词汇关系元数据表、词根化元数据表、以及中文分词元数据表,并且各元数据表中每一行以一个字符串为主键;
在进行查询时,利用所述字符串引用与其对应的词汇表。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收用户设定的词汇关系名称,并在词汇关系词汇表中使用所述词汇关系名称定义词汇关系;
根据所述词汇关系词汇表生成所述词汇关系元数据表。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据用户注册的词根化词汇表生成所述词根化元数据表。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收用户注册的一个或多个专业词汇表;
根据所述专业词汇表生成所述中文分词元数据表。
5.根据权利要求1所述的方法,其特征在于,所述字符串为统一资源定位符URL字符串。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
在进行全文查询时,如果启用了词根化词汇表,则先获取用户查询语句中的关键词和XML节点数据行中的关键词这两个关键词的词根,然后比较这两个词根是否相同。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
如果启用了词根化词汇表,并且需要查询全文索引表,则将词根化词汇表中的每个词都去查询全文索引表,得到多个数据行标识TID位图;
对所述多个TID位图做或运算,得到符合全文检索条件的节点集合。
8.一种XML数据库全文检索系统,其特征在于,所述系统包括:
设置单元,用于在XML数据库中设置停用词元数据表、词汇关系元数据表、词根化元数据表、以及中文分词元数据表,并且各元数据表中每一行以一个字符串为主键;
查询单元,用于在进行查询时,利用所述字符串引用与其对应的词汇表。
9.根据权利要求8所述的系统,其特征在于,所述系统还包括:
接收单元,用于接收用户设定的词汇关系名称,和/或接收用户注册的一个或多个专业词汇表;
所述设置单元,具体用于在词汇关系词汇表中使用所述词汇关系名称定义词汇关系,并根据所述词汇关系词汇表生成所述词汇关系元数据表;根据用户注册的词根化词汇表生成所述词根化元数据表;根据所述专业词汇表生成所述中文分词元数据表。
10.根据权利要求8或9所述的系统,其特征在于,
所述查询单元在进行全文查询时,如果启用了词根化词汇表,则先获取用户查询语句中的关键词和XML节点数据行中的关键词这两个关键词的词根,然后比较这两个词根是否相同。
11.根据权利要求10所述的系统,其特征在于,所述系统还包括:
所述查询单元,在启用了词根化词汇表,并且需要查询全文索引表时,将词根化词汇表中的每个词都去查询全文索引表,得到多个数据行标识TID位图;对所述多个TID位图做或运算,得到符合全文检索条件的节点集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;方正信息产业控股有限公司;上海方正数字出版技术有限公司,未经北大方正集团有限公司;方正信息产业控股有限公司;上海方正数字出版技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310311498.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种氨基酸微肥
- 下一篇:金银花提取物的生产方法