[发明专利]XML数据库全文检索方法及系统在审
申请号: | 201310311498.9 | 申请日: | 2013-07-23 |
公开(公告)号: | CN104346332A | 公开(公告)日: | 2015-02-11 |
发明(设计)人: | 赵伟;李浩;郑程光;孙伟丰;罗正海;陈丽娟 | 申请(专利权)人: | 北大方正集团有限公司;方正信息产业控股有限公司;上海方正数字出版技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | xml 数据库 全文 检索 方法 系统 | ||
技术领域
本发明涉及数据库技术领域,具体而言,涉及一种XML数据库全文检索方法及系统。
背景技术
XML数据库管理系统是近年来快速发展的一种新型的数据库管理系统(DBMS),它存储和检索的数据是XML文档,并且支持更新XML文档。由于存储和检索的是XML文档,所以XMLDBMS常常被用作文档数据库,全文检索就是XML数据库管理系统的一个重要功能。
XML数据的检索和更新语言是由W3C制定的标准的XQuery和XQuery Update。W3C同时制定了XQuery Fulltext标准,作为XMLDBMS的标准的全文检索语言。XQuery Fulltext标准制定了在XQuery Fulltext查询中使用任意的停用词(Stopwords)、词汇关系(Thesaurus)和词根化(Stemming)词汇表的机制。
Stopwords词汇表的作用是在全文检索过程中忽略非常常用的单词,比如冠词,助词,语气词,介词等等,因为这些词在大多数文本中都存在,失去了索引的意义和价值;这些词被列在一个Stopwords词汇表中,做分词和全文检索的词语匹配时,就忽略这些单词,认为它们与任何单词都匹配。
Thesaurus词汇表的作用是定义词汇之间的关系,比如词汇关系,词汇意义的扩展或者缩小关系,常用与不常用关系等,以便在查找一个词的时候也可以找到含有与之有指定关系的其他词语的文本。
Stemming词汇表的作用是在英语等西文语言中作词根匹配,只要两个单词有相同的词根,就可以认为它们相等,虽然他们在字面上并不相同。比如英文中的done和doing在启用词根化选项时是相同的单词。
然而,上述Stopwords、Thesaurus和Stemming词汇表的机制显然不适用于中文。
发明内容
本发明提供一种XML数据库全文检索方法及系统,可以使用户根据自身应用需求来扩展和定制全文检索运行方式。
为此,本发明实施例提供如下技术方案:
一种XML数据库全文检索方法,所述方法包括:
在XML数据库中设置停用词元数据表、词汇关系元数据表、词根化元数据表、以及中文分词元数据表,并且各元数据表中每一行以一个字符串为主键;
在进行查询时,利用所述字符串引用与其对应的词汇表。
优选地,所述方法还包括:
接收用户设定的词汇关系名称,并在词汇关系词汇表中使用所述词汇关系名称定义词汇关系;
根据所述词汇关系词汇表生成所述词汇关系元数据表。
优选地,所述方法还包括:
根据用户注册的词根化词汇表生成所述词根化元数据表。
优选地,所述方法还包括:
接收用户注册的一个或多个专业词汇表;
根据所述专业词汇表生成所述中文分词元数据表。
优选地,所述字符串为统一资源定位符URL字符串。
优选地,所述方法还包括:
在进行全文查询时,如果启用了词根化词汇表,则先获取用户查询语句中的关键词和XML节点数据行中的关键词这两个关键词的词根,然后比较这两个词根是否相同。
优选地,所述方法还包括:
如果启用了词根化词汇表,并且需要查询全文索引表,则将词根化词汇表中的每个词都去查询全文索引表,得到多个数据行标识TID位图;
对所述多个TID位图做或运算,得到符合全文检索条件的节点集合。
一种XML数据库全文检索系统,所述系统包括:
设置单元,用于在XML数据库中设置停用词元数据表、词汇关系元数据表、词根化元数据表、以及中文分词元数据表,并且各元数据表中每一行以一个字符串为主键;
查询单元,用于在进行查询时,利用所述字符串引用与其对应的词汇表。
优选地,所述系统还包括:
接收单元,用于接收用户设定的词汇关系名称,和/或接收用户注册的一个或多个专业词汇表;
所述设置单元,具体用于在词汇关系词汇表中使用所述词汇关系名称定义词汇关系,并根据所述词汇关系词汇表生成所述词汇关系元数据表;根据用户注册的词根化词汇表生成所述词根化元数据表;根据所述专业词汇表生成所述中文分词元数据表。
优选地,所述查询单元在进行全文查询时,如果启用了词根化词汇表,则先获取用户查询语句中的关键词和XML节点数据行中的关键词这两个关键词的词根,然后比较这两个词根是否相同。
优选地,所述系统还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;方正信息产业控股有限公司;上海方正数字出版技术有限公司,未经北大方正集团有限公司;方正信息产业控股有限公司;上海方正数字出版技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310311498.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种氨基酸微肥
- 下一篇:金银花提取物的生产方法