[发明专利]一种基于Lucene分片结构的打分处理方法及系统有效
申请号: | 201310413271.5 | 申请日: | 2013-09-12 |
公开(公告)号: | CN103455619A | 公开(公告)日: | 2013-12-18 |
发明(设计)人: | 陈建国;梁峰;姜平 | 申请(专利权)人: | 焦点科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 张苏沛 |
地址: | 210061 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lucene 分片 结构 打分 处理 方法 系统 | ||
技术领域
本发明属于海量数据处理技术领域,具体涉及一种基于Lucene分片结构的打分处理方法及系统。
背景技术
随着互联网的迅猛发展,互联网信息飞速增长,人们在日常工作和生活中已经越来越依赖网络来获取信息,那么如何快速找到所需要的信息对于人们的重要性是不言而喻的。传统的关系型数据库检索方式已经无法支撑目前互联网如此大的数据量的检索,因此全文搜索作为一种大数据量的查询方式应运而生,而这其中又以Lucene为代表的全文搜索工具以其高效率,高准确率,高扩展的优点越来越多的被互联网企业使用。
但是因为Lucene的简单易用的特点决定了其在处理更大数据的时候有一定的弊端,Lucene底层还是属于单机的搜索工具,对于能处理的单个搜索的大小,有一定的限制,因此在解决大数据量的全文搜索,就成了一个亟待解决的问题。特别是随着互联网数据量的海量规模,分布式的搜索显得尤为必要。
在分布式搜索方法方面,专利“一种基于Lucene的分布式搜索方法”(申请号:201110122631.7)提出的方法主要为:包括索引步骤和搜索步骤;所述的索引步骤为通过至少一台建立索引的索引主机,与至少两台从属服务器通过分布式文件系统的方式结合;所述搜索流程,由至少一台搜索主机和至少两台从属服务器组成搜索引擎。本专利提出的方法有效解决单机搜索性能差的问题,通过多个服务器的合作,能有效进行扩展,并且在索引数量增大时,索引维护不会由于消耗服务器性能而影响搜索的性能效果。
但此专利没有指出通过这种搜索方法,搜索结果是如何进行合理的排序方法。因为对于搜索的效果来说,搜索结果的排序对于用户搜索来说是非常重要的。
Lucene中搜索结果的排序时需要对搜索结果进行打分处理,Lucene经典的打分策略打分公式如下所示:
tf(t in d):项频率因子,文档d中出现项t的频率,又称之为文档频率;
idf(t):项在倒排文档中出现的频率,我们称之为反文档频率;
get Boost:加权项,可以对文档和域分别进行加权,对于该加权信息,可以由用户自己根据数据的实际情况进行定义;
norm:域的归一化因子,用来表明域中包含的项数量,越短的域在包含相同项数量的同时具有更高的权重;
coord:协调因子,基于文档中包含查询项的个数,对文档中包含更多搜索项的文档进行and加权操作;
query Norm:每个查询项的归一化值,每个查询项的权重平方和。
对于上述的Lucene的打分公式,其中idf(t)的定义为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310413271.5/2.html,转载请声明来源钻瓜专利网。