[发明专利]倒排索引求交方法无效
| 申请号: | 201110118161.7 | 申请日: | 2011-05-09 |
| 公开(公告)号: | CN102136011A | 公开(公告)日: | 2011-07-27 |
| 发明(设计)人: | 刘晓光;敖耐勇;吴迪;张帆;王刚 | 申请(专利权)人: | 南开大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 天津佳盟知识产权代理有限公司 12002 | 代理人: | 侯力 |
| 地址: | 300071*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 一种倒排索引求交方法。该方法包括:预处理,对每个倒排列表,以docID的索引为横坐标、值为纵坐标作二维散点图,基于最小二乘法生成一条线性回归直线,使得图中所有点到该直线的竖直离差的平方和最小,求出左安全搜索距离、右安全搜索距离,保存所求出的线性回归信息。倒排索引求交,根据已保存的倒排列表的线性回归信息,确定要找的docID在该倒排列表中的安全搜索范围,然后在此范围内采用已有的某种搜索方法进行搜索。本发明的倒排索引求交方法可以缩小搜索范围,减少搜索时间,缩短搜索引擎的响应时间,提高用户体验。 | ||
| 搜索关键词: | 索引 方法 | ||
【主权项】:
1. 一种倒排索引求交方法,其特征在于,包括:第1、离线预处理:对每个倒排列表
,以docID的索引
为横坐标、值
为纵坐标作二维散点图,其中
,
表示
包含的docID个数且
,
为非负整数,基于最小二乘法生成一条线性回归直线
,
,
,其中
,
,使得图中所有点
到该直线的竖直离差
的平方和
最小,求出左安全搜索距离
和右安全搜索距离
,保存所求出的线性回归信息
,
,
和
;第2、倒排索引求交方法,具体步骤是:第2.1、对于包含
个关键词
的查询,
为正整数且
,对应倒排列表
包含的docID个数呈非降序,初始化docID索引
,关键词索引
,结果集合
,其中
,
;第2.2、根据第1步离线预处理已保存的
的线性回归信息,确定
中的第
个元素
在
中的安全搜索范围
;第2.3、采用已有的某种搜索方法,确定
是否在第2.2步确定的安全搜索范围中;第2.4、若第2.3步的结果为是,则检查
是否成立;第2.5、若第2.4步的结果为是,则
且返回第2.2步;第2.6、若第2.4步的结果为否,则保存
到集合
中且执行第2.8步;第2.7、若第2.3步的结果为否,则执行第2.8步;第2.8、检查
是否成立;第2.9、若第2.8步的结果为是,则
,
且返回第2.2步;第2.10、若第2.8步的结果为否,则结束搜索,并将
作为最终结果集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110118161.7/,转载请声明来源钻瓜专利网。





