[发明专利]一种面向海量小规模XML文档融合路径约束的XML检索方法无效
| 申请号: | 201010160331.3 | 申请日: | 2010-04-30 |
| 公开(公告)号: | CN101807211A | 公开(公告)日: | 2010-08-18 |
| 发明(设计)人: | 袁晓洁;张莹;温延龙;刘众奇;汪陈应 | 申请(专利权)人: | 南开大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 天津佳盟知识产权代理有限公司 12002 | 代理人: | 侯力 |
| 地址: | 300071*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 一种面向海量小规模XML文档融合路径约束的XML检索方法。包括:创新地以带有XPath形式路径约束的关键字作为用户提交查询的方式,使用户更加容易且准确地表达查询需求;提出一种新的融合路径约束的检索排序模型,该模型在传统向量空间模型基础上,充分利用XML文档的结构层次特性,巧妙地将N-Gram思想应用于路径约束匹配计算,从而获得文档同用户查询的相关度,最终按照相关度对文档进行排序。本发明提出的XML文档检索方案,能够准确地表达用户的查询需求,且充分利用XML文档的路径约束来计算文档同用户查询的相关度,通过本发明方案可得到更加符合用户需求的检索结果。本发明可用于XML文档检索、XML数据库检索等领域。 | ||
| 搜索关键词: | 一种 面向 海量 小规模 xml 文档 融合 路径 约束 检索 方法 | ||
【主权项】:
1.一种面向海量小规模XML文档融合路径约束的XML检索方法,其特征在于该方法包括如下步骤:第1、对XML文档进行预处理第1.1、将XML文档定义为一棵XML文档树,定义1:一篇XML文档D可以表示为一棵有序文档树,用9元组T=(V,v0,E,∑,P,type,id,lab)表示,其中:①.V是文档D中所有XML节点的集合;②.v0是文档D的根节点,v0∈V;③.E是文档D中父子约束的集合,是一个二元关系即
且E={(u,v)|u∈V,v∈V,u是v的父亲节点},若有父子约束(u,v)∈E,可简写为u→v;④.有穷字母表∑是文档D中所有节点名称的集合;⑤.P是文档D中祖先路径约束的集合,P是一个多元关系即
且P={(v0,v1,...,vn)|(vi,vi+1)∈E,0≤i<n}∪{v0},给定节点vn的祖先路径约束(v0,v1,...,vn)∈P,表示的是从根节点v0到节点vn的连续父子约束,即v0→v1,v1→v2,...,vn-1→vn,简写为v0→v1→v2→...→vn,使用函数path:V→P返回XML节点的祖先路径约束,即当v∈V,path(v)∈P;⑥.函数type:V→{ELEM,ATTR,TEXT}返回XML节点的类型,给出节点v∈V,有:a)若v是元素节点,则type(v)=ELEM,所有元素节点组成的集合用Ve表示,则Ve={v|v∈V∧type(v)=ELEM};b)若v是属性节点,则type(v)=ATTR,所有属性节点组成的集合用Va表示,则Va={v|v∈V∧type(v)=ATTR;c)若v是文本节点,则type(v)=TEXT,所有文本节点组成的集合用Vt表示,则Vt={v|v∈V∧type(v)=TEXT};⑦.函数id:V→DeweyId返回文档D中节点v的编码,即当v∈V,id(v)∈DeweyId,其中,DeweyId是文档D中所有节点编码的集合,节点v的Dewey编码是节点v在文档D中的唯一标识;⑧.函数lab:V→∑∪{#text}返回文档D中节点v的名称,即当v∈Ve∪Va,lab(v)∈∑,定义文本节点的名称都为#text,即当v∈Vt,lab(v)=#text。第1.2、使用Dewey编码为XML文档进行编码;第1.3、为检索系统所有XML文档的元素节点名称、属性节点名称和文本节点的内容建立标引词和节点编码的倒排索引表;第1.4、计算系统中标引词在各篇XML文档中的频率(出现次数)和标引词的逆文档频率;第2、对用户提交的查询进行分析处理,形式化地表达用户的检索意图第2.1、对用户提交的查询方式进行重新定义,定义2:用户以如下方式提交查询:lab 11 / lab 12 / . . . . . . / lab 1 n 1 : key 11 w 11 , q , key 12 w 12 , q , . . . . . . , key 1 m 1 w 1 m 1 , q ]]>lab 21 / lab 22 / . . . . . . / lab 2 n 2 : key 21 w 21 , q , key 22 w 22 , q , . . . . . . , key 2 m 2 w 2 m 2 , q ]]> ……lab p 1 / lab p 2 / . . . . . . / lab pn p : key p 1 w p 1 , q , key p 2 w p 2 , q , . . . . . . , key pm p w p m p , q ]]> 其中,keyij(i=1,2,...,p,j=1,2,...,mi)为用户提交的关键字,关键字的总数
wij,q(i=1,2,...,p,j=1,2,...,mi)为用户给关键字keyij设定的权重,wij,q>0,也可缺省设定,认为所有的关键字权重相同,即wij,q=1/m;
(i=1,2,...,p)为用户给关键字keyij(j=1,2,...,mi)设定的路径约束,ni为关键字keyij路径约束的长度,labik(i=1,2,...,p,k=1,2,...,ni)为该路径约束中节点的名称,当1≤r<s≤ni时,labir和labis对应的节点具有祖先后裔关系;第2.2、将用户提交的查询解析成为重新定义的用户查询形式,定义3:对于定义2中用户提交的查询可以表示为一个包含m个三元组的集合Q={(keyt,patht,wt,q)|t=1,2,...,m},其中:①.keyt是用户提交的关键字,依用户提交关键字次序编号,共有
个关键字,即t=1,2,...,m1,m1+1,...,m1+m2,m1+m2+1,...,m;②.patht是关键字keyt的路径约束,当
时,
(i=1,2,...,p)③.wt,q是关键字keyt在用户查询Q中的权重,wt,q>0,若用户未指定关键字的权重,则任何关键字的权重wt,q=1/m(t=1,...,m);第3、利用本发明提出的检索排序模型对XML文档进行检索,并将检索结果依照相关度排序,最终返回给用户。第3.1、查找标引词倒排索引表,返回与用户查询每个关键字匹配的文档节点,确定同用户查询相关的文档;第3.2、定义标引词在文档中的修正频率,计算相关文档中各个标引词的修正频率;第3.3、定义每个相关文档中各个标引词的权重并计算;第3.4、定义每个相关文档同查询的相关度并计算,并依据相关度对文档排序。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010160331.3/,转载请声明来源钻瓜专利网。
- 上一篇:永磁发电机
- 下一篇:圆珠笔用水性墨组合物





