[发明专利]一种基于Lucene分片结构的打分处理方法及系统有效
申请号: | 201310413271.5 | 申请日: | 2013-09-12 |
公开(公告)号: | CN103455619A | 公开(公告)日: | 2013-12-18 |
发明(设计)人: | 陈建国;梁峰;姜平 | 申请(专利权)人: | 焦点科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 张苏沛 |
地址: | 210061 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Lucene分片结构的打分处理方法及系统,包括对索引文件进行数据拆分,形成索引文件分片数据,然后分到各个分片处理器上,完成初始化工作;搜索处理器接收用户输入的查询信息,对查询信息进行分词处理,形成搜索词项;依次按照搜索词项,在全局信息缓冲器中进行查找,是否存在本搜索词项的相关信息;如果不存在,直接把这个搜索词项发送到各个分片处理器进行处理;如果存在,则搜索处理器先从全局信息缓冲器中获取该搜索词项的全局信息,然后再发给各个分片处理器进行处理。本发明通过多次请求处理全局信息,使各个分片共享全局信息,解决了同一个词项在不同分片中计算的得分不一致的问题,使搜索结果的排序更合理。 | ||
搜索关键词: | 一种 基于 lucene 分片 结构 打分 处理 方法 系统 | ||
【主权项】:
一种基于Lucene分片结构的打分处理方法,包括:对索引文件进行数据拆分,形成索引文件分片数据,然后分到各个分片处理器上,完成索引文件的初始化工作;搜索处理器接收用户输入的查询信息,对查询信息进行分词处理,形成1个或多个搜索词项;依次按照搜索词项,在全局信息缓冲器中进行查找,是否存在本搜索词项的相关信息;如果不存在,直接执行步骤1,如果存在,则搜索处理器先从全局信息缓冲器中获取该搜索词项的全局信息idf(t),然后执行步骤4;步骤1:把这个搜索词项发送到各个分片处理器,分片处理器根据存储在其中的索引文件分片数据,过滤出包含这个搜索词项的命中文档数量,然后把这个搜索词项的命中文档数量以及该索引文件分片数据包含的总文档数量一起返回给搜索处理器;步骤2:搜索处理器汇总各个分片处理器返回的这个搜索词项的命中文档数量以及该索引文件分片数据包含的总文档数量,计算出该搜索词项的全局信息idf(t);步骤3:搜索处理器把这个搜索词项的全局信息idf(t)保存到全局信息缓冲器中;步骤4:搜索处理器把得出的搜索词项的全局信息idf(t)发给各个分片处理器,分片处理器接收到搜索词项的全局信息idf(t)后,根据存储在其中的索引文件分片数据,计算出索引文件分片数据中各个命中文档的得分;步骤5:通过以上过程,得出用户搜索信息中各个搜索词项的得分后,就搜索词项命中的各个文档,按照需要对其中包含的多个搜索词项的得分进行“与”操作运算,或者是进行“或”操作运算,得出每个命中文档的得分总值;步骤6:按照每个命中文档的得分总值,对所有的命中文档进行排序;并根据搜索结果展示条件的需要,提取排名在前面的一定数量的命中文档作为搜索结果按照得分总值从大到小进行排序展示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310413271.5/,转载请声明来源钻瓜专利网。