[发明专利]一种确定检索词在文档中的位置信息的方法以及装置有效
申请号: | 201110430651.0 | 申请日: | 2011-12-20 |
公开(公告)号: | CN103176978A | 公开(公告)日: | 2013-06-26 |
发明(设计)人: | 童征宇;徐剑波;闫进兵 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 检索 文档 中的 位置 信息 方法 以及 装置 | ||
技术领域
本发明涉及信息检索技术领域,尤其涉及一种确定检索词在文档中的位置信息的方法以及装置。
背景技术
全文检索系统是目前应用非常普及的一种检索系统,该检索系统主要根据预先建立的倒排索引文件确定出与用户终端提交的检索词匹配的文档,该文档一般为包括用户终端提交的各检索词的文档。
目前,全文检索系统建立倒排索引文件的过程包括:通过索引程序扫描文档中的每一个词项,并分别对每一个词项建立一个索引项,该索引项用于标识所对应词项在该文档中出现的位置信息,并根据为文档中的每一个词项分别建立的索引项创建倒排索引文件。在建立倒排索引文件后,全文检索系统在进行检索时,首先通过读取该倒排索引文件确定出包含用户提交的词项的文档集合(该集合中包括的文档可以以文档列表的形式存在),以及该词项在每个文档中分别出现的位置信息(该位置信息可以以列表的形式存在),然后返回检索命中结果。一般情况下,用户终端提交的检索词可以为词组,也可以为短句,因此,在应用全文检索系统进行检索时,一般将检索请求中的检索词对应的词组或短句划分为多个词项在索引文件中进行查找,并将同时包含所有划分得到的词项的文档确定为初步命中的文档,然后读取检索词在初步命中的每个文档中分别出现的位置信息,并将确定出的位置信息满足设定位置关系的文档确定为最终的命中的文档返回给该用户终端。具体地,确定位置信息满足设定位置关系的文档,即在确定出检索词在文档中出现的位置信息后,根据检索词在文档中的上述位置信息进行位置关系计算。在进行位置关系计算时需要读取检索词包括的各词项分别在初步命中的文档中分别出现的位置信息,下面将以读取下表1中初步命中的文档包括的检索词在文档中的位置信息为示例进行说明:
表1:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110430651.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带散热装置的止血仪
- 下一篇:口腔检查辅助器