[发明专利]一种面向海量小规模XML文档融合路径约束的XML检索方法无效
| 申请号: | 201010160331.3 | 申请日: | 2010-04-30 |
| 公开(公告)号: | CN101807211A | 公开(公告)日: | 2010-08-18 |
| 发明(设计)人: | 袁晓洁;张莹;温延龙;刘众奇;汪陈应 | 申请(专利权)人: | 南开大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 天津佳盟知识产权代理有限公司 12002 | 代理人: | 侯力 |
| 地址: | 300071*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 海量 小规模 xml 文档 融合 路径 约束 检索 方法 | ||
【技术领域】
本发明属于数据库技术领域,具体涉及一种新型的融合路径约束,对海量小规模XML 文档进行检索的方案。
【背景技术】
可扩展标记语言(eXtensible Markup Language,XML)凭借其自描述性、可扩展性和半结 构化等特点,已经成为最受欢迎的信息表示和数据交换的标准,并在各个领域得到了广泛 支持和应用。随着XML形式数据和信息大量涌现,如何从海量XML文档中获取用户感 兴趣的信息,成为人们广泛关注的问题之一。正是基于这种需求,信息检索这一传统的数 据管理和获取技术,开始涉足XML数据领域。
由于使用简单、界面简洁,关键字检索方式在传统的信息检索领域取得了巨大成功, 近年来,XML文档的关键字检索也受到工业界和学术界的广泛关注。XML关键字检索不 同于结构化的XML查询(如XPath、XQuery等),不仅易于使用,且用户不再需要了解 所查询XML文档的DTD或Schema模式,也不需要学习和掌握复杂的查询语言等相关知 识,适用于互联网中大量存在的小规模自由XML文档。但是,XML关键字检索方式并没 有充分考虑XML文档半结构化检索的特性,且用户单凭关键字的简单组合难以或无法准 确表达自己的查询需求。因此,如何帮助用户更准确地表达自己的查询需求,成为了XML 信息检索领域研究难题之一。
当用户提交查询需求后,搜索引擎将在海量文档集中检索出可能与用户需求相关的文 档,并将这些文档按照其同用户需求的相关性进行排序,最后返回给用户。在传统的信息 检索中,通常使用向量空间模型(Vector Space Model,VSM)来衡量文档同用户查询的相关 性。向量空间模型是将文档和查询都表示成由标引词权重构成的向量,利用向量间的相似 度来评价文档和查询的相关性,而向量间的相似度可用它们之间夹角的余弦值来定量计 算。在向量空间模型中,查询标引词权重可由用户设定,也可认为所有关键字的权重相同; 而文档标引词权重通常采用著名的tf-idf方案进行计算,tf指标引词在文档中出现的频率, 用于体现标引词对文档的重要程度,可用tfi,j表示标引词termi在文档dj出现的频率;idf 指标引词的逆文档频率,用于体现标引词区分文档的能力,标引词termi的逆文档频率idfi的一般计算公式为:idfi=log(N/ni),其中,N表示系统中的文档总数,ni表示系统中含有标 引词termi的文档数目,则标引词termi在文档dj中的权值wi,j可以描述为:wi,j=tfi,j×idfi= tfi,j×log(N/ni)。但是由于XML文档具有结构层次特性,这种纯文本上的tf-idf加权方案并 不完全适用,因此如何改进标引词加权方案和向量空间模型来计算文档和查询的相似度, 也成为需要进一步研究的问题之一。
目前,对于大规模XML文档的检索,研究人员大多认为不需要将整篇文档返回给用 户,只返回符合检索条件的文档片段即可,但判断符合检索条件片段粒度通常很困难。而 且,对于海量小规模XML文档的检索,由于文档本身较短小,如果只返回部分片段,很 可能造成提供信息过少,不能满足用户的需求。因此不妨同Web搜索引擎一样,快捷地 将检索出的整篇文档返回给用户。
【发明内容】
本发明的目的在于克服现有技术存在的上述不足,提出一种面向海量小规模XML文 档融合路径约束的XML检索方法。
本发明针对现有技术中的问题,创新地以带有XPath形式路径约束的关键字作为用户 提交查询的方式;设计一种新的融合路径约束的检索排序模型,该模型在传统向量空间模 型的基础上,充分利用XML文档的结构层次特性,巧妙地将N-Gram思想应用于模糊路 径约束匹配的计算中,从而对文档标引词加权方案进行调整,最终获得文档同用户查询的 相关度,并按照该相关度的高低对文档进行排序;最后将检索排序后的整篇文档返回给用 户。该方法的主要步骤如下:
第1、对XML文档进行预处理;
第2、对用户提交的查询进行分析处理,形式化地表达用户的检索意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010160331.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:永磁发电机
- 下一篇:圆珠笔用水性墨组合物





