[发明专利]一种确定检索词在文档中的位置信息的方法以及装置有效

专利信息
申请号: 201110430651.0 申请日: 2011-12-20
公开(公告)号: CN103176978A 公开(公告)日: 2013-06-26
发明(设计)人: 童征宇;徐剑波;闫进兵 申请(专利权)人: 北大方正集团有限公司;北京方正阿帕比技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 郭润湘
地址: 100871 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 确定 检索 文档 中的 位置 信息 方法 以及 装置
【说明书】:

技术领域

发明涉及信息检索技术领域,尤其涉及一种确定检索词在文档中的位置信息的方法以及装置。

背景技术

全文检索系统是目前应用非常普及的一种检索系统,该检索系统主要根据预先建立的倒排索引文件确定出与用户终端提交的检索词匹配的文档,该文档一般为包括用户终端提交的各检索词的文档。

目前,全文检索系统建立倒排索引文件的过程包括:通过索引程序扫描文档中的每一个词项,并分别对每一个词项建立一个索引项,该索引项用于标识所对应词项在该文档中出现的位置信息,并根据为文档中的每一个词项分别建立的索引项创建倒排索引文件。在建立倒排索引文件后,全文检索系统在进行检索时,首先通过读取该倒排索引文件确定出包含用户提交的词项的文档集合(该集合中包括的文档可以以文档列表的形式存在),以及该词项在每个文档中分别出现的位置信息(该位置信息可以以列表的形式存在),然后返回检索命中结果。一般情况下,用户终端提交的检索词可以为词组,也可以为短句,因此,在应用全文检索系统进行检索时,一般将检索请求中的检索词对应的词组或短句划分为多个词项在索引文件中进行查找,并将同时包含所有划分得到的词项的文档确定为初步命中的文档,然后读取检索词在初步命中的每个文档中分别出现的位置信息,并将确定出的位置信息满足设定位置关系的文档确定为最终的命中的文档返回给该用户终端。具体地,确定位置信息满足设定位置关系的文档,即在确定出检索词在文档中出现的位置信息后,根据检索词在文档中的上述位置信息进行位置关系计算。在进行位置关系计算时需要读取检索词包括的各词项分别在初步命中的文档中分别出现的位置信息,下面将以读取下表1中初步命中的文档包括的检索词在文档中的位置信息为示例进行说明:

表1:

  检索词  数字  信息  处理  加速  的  方法  文档1  100  50  60  0  1000  20  文档2  40  20  400  20  1200  0  文档3  0  90  100  80  3200  400  文档4  200  100  300  120  2000  100  文档5  210  130  0  140  2300  140  文档6  310  0  320  150  2300  140  文档7  50  410  210  150  3000  140

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110430651.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top