[发明专利]查询请求补全方法、装置、电子设备和存储介质在审
| 申请号: | 202011476378.0 | 申请日: | 2020-12-14 | 
| 公开(公告)号: | CN113779176A | 公开(公告)日: | 2021-12-10 | 
| 发明(设计)人: | 邹波;刘丹;邱立坤 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 | 
| 主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/332;G06F16/33;G06F16/35;G06F40/216;G06F40/295 | 
| 代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 孙宝海;袁礼君 | 
| 地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 查询 请求 方法 装置 电子设备 存储 介质 | ||
本公开提供了一种查询请求补全方法、装置、电子设备和计算机可读存储介质,涉及检索技术领域。其中,查询请求补全方法包括:构造查询请求的标准化语料集;基于所述标准化语料集构建前缀树;在获取到用户输入的查询请求的前缀时,在所述前缀树中查询与所述前缀匹配的节点查询语料;基于所述节点查询语料补全所述查询请求。通过本公开的技术方案,基于前缀树的前缀检索,可以很好的改善相关技术中es召回+排序算法导致的系统开销较大,以及请求时间过长的问题,进而减少用户连续输入时出现的卡顿,提升补全效果,从而提升用户的输入体验。
技术领域
本公开涉及检索技术领域,尤其涉及一种查询请求补全方法、装置、电子设备和计算机可读存储介质。
背景技术
Query(查询请求,为了在数据库中寻找某一特定文件、网站、记录或一系列记录,由搜索引擎或数据库送出的消息)自动补全常用于搜索引擎中,目标是在用户输入query过程中预测完整的query,按照相关性排序后推荐给用户,通过辅助用户输入query,提升用户体验,避免输入拼写错误或表述模糊的query。随着商业对话系统的兴起,query自动补全也被引入其中。
相关技术中,query自动补全的主要流程包括:获取用户输入的prefix(前缀)后,先通过特定召回算法从预先设置的query数据库召回一批与用户输入相关的候选query,再通过特定的排序算法对候选query进行相关性排序,最后取排名最高的若干个query推荐给用户,但该方式目前存在以下缺陷:
由于补全过程涉及千万语料ElasticSearch(简称es)的检索,以及对检索进行排序与匹配,导致用户连续输入过程中出现卡顿,或者当前query补全结果还未返回,用户已经开始输入下一个字,不但影响补全效果,还会影响用户的输入体验。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种查询请求补全方法、装置、电子设备和计算机可读存储介质,至少在一定程度上能够改善相关技术中的补全方式导致的系统开销较大,以及请求时间过长的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种查询请求补全方法,包括:构造查询请求的标准化语料集;基于所述标准化语料集构建前缀树;在获取到用户输入的查询请求的前缀时,在所述前缀树中查询与所述前缀匹配的节点查询语料;基于所述节点查询语料补全所述查询请求。
在一个实施例中,所述构造查询请求的标准化语料集包括:基于历史查询语料与对应的第一咨询量,和/或预存的用户与机器人之间的标准查询问句与对应的第二咨询量构造所述标准化语料集。
在一个实施例中,所述基于历史查询语料与对应的第一咨询量,和/或预存的用户与机器人之间的标准查询问句与对应的第二咨询量构造所述标准化语料集包括:基于预设筛选条件对历史查询语料执行筛选操作,基于筛选结果与所述第一咨询量生成第一语料集;基于预设的意图分类获取对应的所述标准查询问句,以基于所述标准查询问句与所述第二咨询量生成第二语料集;
基于所述第一语料集和/或所述第二语料集生成所述标准化语料集。
在一个实施例中,所述基于预设筛选条件对历史查询语料执行筛选操作,基于筛选结果与所述第一咨询量生成第一语料集包括:选取自当前时刻向前预设时长内的与所述查询请求相关的对话日志;删除所述对话日志中的停用词,生成待处理的语料集;基于编辑距离算法提取所述待处理的语料集中的多类相似查询请求,并每类对所述相似查询请求进行合并处理,以得到多类合并查询请求;统计每类所述相似查询请求的咨询量,以作为所述第一咨询量;基于所述第一咨询量与咨询数量阈值之间的关系筛选所述多类合并查询请求,将筛选出的所述合并查询请求确定为所述第一语料集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011476378.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:光传感器结构
- 下一篇:一种具有心血管益处的GLP-1小分子





