[发明专利]一种面向多维数据的分段式检索排序系统设计方法在审

专利信息
申请号: 202210632927.1 申请日: 2022-06-07
公开(公告)号: CN114969310A 公开(公告)日: 2022-08-30
发明(设计)人: 李志昌 申请(专利权)人: 南京云问网络技术有限公司
主分类号: G06F16/338 分类号: G06F16/338;G06F16/33;G06F16/335;G06F40/247;G06F40/289;G06F40/30
代理公司: 南京瑞华腾知识产权代理事务所(普通合伙) 32368 代理人: 胡海
地址: 210000 江苏省南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 多维 数据 段式 检索 排序 系统 设计 方法
【权利要求书】:

1.一种面向多维数据的分段式检索排序系统设计方法,其特征在于,包括如下步骤:

步骤101)数据准备,将检索用到的数据提前加载到内存中;

步骤102)数据改写,使用数据准备拓展模块改写内存中数据;

步骤103)数据预处理,处理用户检索内容;

步骤104)数据预处理改写,改写数据预处理后的对象;

步骤105)构建query,根据数据预处理结果及页面选择的筛选条件,构建query;

步骤106)ES检索,将ES检索引擎传入已构建完成的query,调用云搜索工具封装好的ES接口,召回query;

步骤107)query召回处理,将ES返回的结果进行高亮和基础字段封装处理;

步骤108)引入了语义匹配模型,Colbert-search能力模型将ES返回结果的得分与语义匹配模型得分按比例融合,得到综合得分,再根据综合得分排序;

步骤109)个性化重排序,根据用户的行为属性数据,以及ES检索引擎和Colbert-search能力模型融合后的综合得分,判断两篇文档的差异,若差异小于设定值,则判断为相近文档,通过比对数据的用户行为属性给文档加上业务相关比重后再次排序,得到最终检索排序;

步骤110)个性化重排序改写,对所述步骤109)个性化重排序进行改写。

2.根据权利要求1所述的一种面向多维数据的分段式检索排序系统设计方法,其特征在于:所述步骤103)中处理用户检索内容包括使用自然语言中的分词能力进行分词、通过同义词对检索内容进行泛化处理。

3.根据权利要求1所述的一种面向多维数据的分段式检索排序系统设计方法,其特征在于:所述数据预处理拓展模块用于定制化处理,改写步骤103)数据预处理结果。

4.根据权利要求1所述的一种面向多维数据的分段式检索排序系统设计方法,其特征在于:所述步骤109)中数据的用户行为属性包括文档浏览量、点赞点踩量、评论量、分享量、打分量。

5.根据权利要求4所述的一种面向多维数据的分段式检索排序系统设计方法,其特征在于:对所述数据的用户行为属性进行比重划分,即对文档浏览量、点赞点踩量、评论量、分享量、打分量进行业务比重的划分,根据比重计算文档得分再次进行排序。

6.根据权利要求5所述的一种面向多维数据的分段式检索排序系统设计方法,其特征在于:所述根据比重计算文档得分的公式如下:

其中Score(d)表示文档得分,Score(ES,BS)表示ES检索引擎和Colbert-search能力模型融合后的综合得分,k是各文档的数据的用户行为属性占的比重。

7.根据权利要求1所述的一种面向多维数据的分段式检索排序系统设计方法,其特征在于:通过配置SEO策略对最终检索排序进行调整,更改最终检索排序。

8.根据权利要求1所述的一种面向多维数据的分段式检索排序系统设计方法,其特征在于:所述步骤步骤106)中ES检索使用bm25算法,在bm25的基础上加入sentence-bert模型,将不同的句子输入到sentence-bert模型中,获取到句子的语义表征向量,为了提高检索速度,把这些向量进行保存,每次检索query计算与这些向量的相似度,算法公式如下:

其中,b表示bm25的算法得分,s表示sentence-bert模型算法得分,表示词权重,控制非线性词频率归一化,b控制文档长度对于分数的惩罚力度,dl代表文档长度,avgdl代表平均字段长度;是词项在文档中的频率;表示bm25算法得分与sentence-bert模型算法得分的融合比例;表示sentence-bert模型算法得分。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京云问网络技术有限公司,未经南京云问网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210632927.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top