[发明专利]一种ElasticSearch搜索相关度算法优化方法及系统有效

专利信息
申请号: 201710512775.0 申请日: 2017-06-29
公开(公告)号: CN107330057B 公开(公告)日: 2020-08-07
发明(设计)人: 谭云峰 申请(专利权)人: 哈尔滨工程大学科技园发展有限公司
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/33
代理公司: 哈尔滨市阳光惠远知识产权代理有限公司 23211 代理人: 蔡岩岩
地址: 150001 黑龙江*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 elasticsearch 搜索 相关 算法 优化 方法 系统
【说明书】:

发明提出了一种ElasticSearch搜索相关度算法优化方法和系统,属于相关度算法优化技术领域。解决了现有相关度算法不准确的问题,该相关度算法优化方法和系统通过把相关度算法计算出来的评分作为新算法中的一个维度,然后结合字符相关度评分维度进行评分,得到评分后,把两个评分根据倍数进行缩放并相加,然后将搜索推荐文档按照评分大小排序并获得匹配最准确字符。所述相关度算法优化方法和系统适用于各种搜索相关度算法的优化中。

技术领域

本发明涉及一种搜索相关度算法优化系统和方法,属于相关度算法优化技术领域。

背景技术

在这个互联网无处不在的年代,各种各样的数据存在我们生活中,比如说我们每日微信的聊天记录,朋友圈每日看不完的状态,还有每日更新的新闻信息,公司内部的各种邮件,电商网站的商品信息等等。

我们想快速的查找目标数据,用传统的数据库like不能很好的匹配目标数据,于是产生了一项互联网技术搜索,搜索是根据相关度算法去给搜索中的每个文档打分,分数最高的就是搜索推荐的最匹配的数据。

现有相关度算法由如下部分组成:

score(q,d)=queryNorm(q)*coord(q,d)*∑(tf(t in d)*idf(t)2*t.getBoost()*norm(t,d))(t inq)

queryNorm(q)对查询进行一个归一化,不影响排序,因为对于同一个查询这个值是相同的,但是对term于ES来说,必须在分片是1的时候才不影响排序,否则的话,还是会有一些细小的区别,有几个分片就会有几个不同的queryNorm值

coord(q,d)=overlap/maxoverlap其中overlap是检索命中query中term的个数,maxoverlap是query中总共的term个数。

tf(t in d)=√frequency即term t在文档中出现的次数。

idf(t)=1+log(numDocs/(docFreq+1))log是以e为底的,不是以10或者以2为底,这点需要注意,numDocs是指所有的文档个数,如果有分片的话,就是指的是在当前分片下总的文档个数,docFreq是指相关文档的个数,如果有分片对应的也是在当前分片下相关的个数。

norm(d)=1/√numTerms numTerms是文档的总长度。

可见现有相关度算法为了实现相关度算法的准确性,利用多个维度从多个不同维度给文档打分,分别是(1)coord(q,d)关键词分词之后,文档命中个数除以分词总数维度;(2)tf(t ind)每个分词在文档中出现的频率维度;(3)idf(t)每个分词的总文档数除以分词相关文档总数维度;(4)norm(d)每个相关文档的长度维度

但是,现有的搜索相关度算法经常出现其匹配的数据不是用户想要目标数据缺陷,不能准确的为用户推荐目标数据,浪费用户查找目标数据的时间的问题。

发明内容

本发明为了解决现有技术中ElasticSearch搜索服务器的相关度算法搜索推荐结果不准确的问题,提出了一种ElasticSearch搜索相关度算法优化系统和方法。

一种ElasticSearch搜索相关度算法优化系统,所采取的技术方案如下:所述相关度算法优化系统包括:

用于对输入的文字或字符进行搜索的搜索模块;

用于判断输入的文字或字符是否是汉字的判断模块;

用于将输入的汉字解析成汉语拼音的解析模块;

用于将每个汉语拼音、拼音首字母或英文字符与索引库中的内容进行匹配并生成匹配结果的匹配模块;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学科技园发展有限公司,未经哈尔滨工程大学科技园发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710512775.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top