[发明专利]分布式索引文件的检索方法、检索系统及检索服务器有效
| 申请号: | 200710112451.4 | 申请日: | 2007-06-26 |
| 公开(公告)号: | CN101071442A | 公开(公告)日: | 2007-11-14 |
| 发明(设计)人: | 孙良 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
| 地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分布式 索引 文件 检索 方法 检索系统 服务器 | ||
1.一种分布式索引文件的检索方法,其特征在于,包括:
对获取的检索串进行解析后生成由关键词组成的检索表达式;
将所述关键词的检索请求及该关键词的倒排表项的预读请求发送至集群中的各个检索服务器;
当所述关键词为高频关键词时,将所述关键词的倒排表项进行分割,集群中的每个检索服务器读取所述分割后的关键词的一部分倒排表项,当所述关键词为低频关键词时,集群中的某一检索服务器读取所述关键词的全部倒排表项;
集群中的检索服务器对所述关键词的倒排表项进行逻辑操作后输出检索结果。
2.根据权利要求1所述的方法,其特征在于,所述关键词按照命中文档的频率高低分为由超高频关键词和中高频关键词组成的高频关键词以及低频关键词。
3.根据权利要求2所述的方法,其特征在于,所述倒排表项包括:所述关键词的文档标识、所述关键词在所述文档中的权值、及所述关键词在所述文档中的位置偏移。
4.根据权利要求3所述的方法,其特征在于,所述方法进一步包括:所述检索服务器将所述关键词倒排表项中的八字节的文档标识压缩为四字节的文档篇号。
5.根据权利要求1所述的方法,其特征在于,所述集群中包含N台检索服务器,N为整数;
所述分割具体为:对所述高频关键词的倒排表项中的文档篇号进行取模,将相同模值的倒排表项作为一组,所述取模参数为N。
6.根据权利要求1所述的方法,其特征在于,所述集群中的检索服务器对所述关键词的倒排表项进行逻辑操作后输出检索结果包括:
将所述某一检索服务器中低频关键词的倒排表项的文档篇号进行取模后发送到对应的检索服务器;
所述集群中的每个检索服务器对所述高频关键词和低频关键词的倒排表项进行逻辑操作;
对所述每个检索服务器的逻辑操作结果进行汇总后得到所述检索串的检索结果。
7.一种分布式索引文件的检索系统,其特征在于,包括:
缓存代理服务器,用于对获取的检索串进行解析后生成由关键词组成的检索表达式;
集群代理服务器,用于将所述关键词的检索请求及该关键词的倒排表项的预读请求发送至集群中的各个检索服务器;
检索服务器,用于当所述关键词为高频关键词时,将所述关键词的倒排表项进行分割,集群中的每个检索服务器读取所述分割后的关键词的一部分倒排表项,当所述关键词为低频关键词时,集群中的某一检索服务器读取所述关键词的全部倒排表项,并对所述关键词的倒排表项进行逻辑操作后输出检索结果。
8.一种分布式索引文件的检索服务器,其特征在于,包括:
检索解释模块,用于对获取的检索串进行解析后生成由关键词组成的检索表达式供上层服务器调用;
读取管理模块,用于接收所述关键词的检索请求及该关键词的倒排表项的预读请求;
关键词读取模块,用于按照所述关键词命中文档的频率高低读取高频关键词的一部分倒排表项,所述一部分倒排表项为将所述高频关键词的倒排表项进行分割后的一部分倒排表项,和/或读取低频关键词的全部倒排表项;
逻辑运算模块,用于对所述高频关键词的倒排表项和低频关键词的倒排表项进行逻辑操作后输出检索结果。
9.根据权利要求8所述的检索服务器,其特征在于,所述检索服务器进一步包括:
标识转换模块,用于将所述关键词倒排表项中的八字节的文档标识压缩为四字节的文档篇号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710112451.4/1.html,转载请声明来源钻瓜专利网。





