[发明专利]一种类案检索方法、系统、电子设备及存储介质在审
申请号: | 202310187729.3 | 申请日: | 2023-03-02 |
公开(公告)号: | CN116069903A | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 邹游 | 申请(专利权)人: | 特斯联科技集团有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/211;G06N3/088 |
代理公司: | 北京中知法苑知识产权代理有限公司 11226 | 代理人: | 李明;赵吉阳 |
地址: | 101199 北京市通州*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 种类 检索 方法 系统 电子设备 存储 介质 | ||
本公开的实施例提供一种类案检索方法、系统、电子设备及存储介质,属于类案检索领域。所述方法包括:接收用户的检索案例请求;将所述检索案例句子输入预先训练的类案检索编码器,得到对应的句子向量表示;根据所述句子向量表示和案例向量表示集合,得到与所述检索案例句子相似的相似案例。本公开的实施例的一种类案检索方法、系统、电子设备及存储介质,解决了类案案例库数据无标注的场景下的训练问题,避免了人工添加标注的人力开销和时间。提高了检索句子向量表示的质量,从而提升了检索的准确度。
技术领域
本公开的实施例属于数据检索领域,具体涉及一种类案检索方法、系统、电子设备及存储介质。
背景技术
类案的检索往往存在没有标注数据的情况,这种情况下无法训练有监督的模型。当前做法大多是通过人工添加标注的有监督方式进行类案的检索,增加了人力开销;或者简单的通过关键词进行类案的检索,准确性较低。
而使用无监督的方式,句向量的表示往往质量不高,导致类案的检索准确性很难得到保证。当前做法仅仅简单采用词向量生成句向量的方式表示句向量,导致句向量的表示质量仍然非常差。
另外,在案例库数据量很大的情况下,检索出相似案例的耗时问题也非常严重。
发明内容
本公开的实施例旨在至少解决现有技术中存在的技术问题之一,提供一种类案检索方法、系统、电子设备及存储介质。
本公开一方面提供一种类案检索方法,包括:
接收用户的检索案例请求;其中,所述检索案例请求包括检索案例句子;
将所述检索案例句子输入预先训练的类案检索编码器,得到对应的句子向量表示;其中,所述类案检索编码器采用基于对比学习的无监督方式预先训练得到;
根据所述句子向量表示和案例向量表示集合,得到与所述检索案例句子相似的相似案例;其中,所述案例向量表示集合经由所述类案检索编码器对案例集合处理得到。
可选的,所述类案检索编码器采用以下步骤训练得到:
设置类案检索编码器encoder和动量编码器momentum encoder;
更新所述encoder和所述momentum encoder的网络权重,根据损失函数
可选的,所述损失函数
(1)
其中,
可选的,所述更新所述encoder和所述momentum encoder的网络权重,包括:
通过反向传播法更新所述encoder的网络权重;
通过如下式(1)更新所述momentum encoder的网络权重:
(2)
其中,为所述momentum encoder的网络权重,为所述encoder的网络权重,;
在更新所述momentum encoder的过程中每个最新的mini-batch数据进入队列,最旧的数据出队列,每一批mini-batch的数据进行训练的时候,队列的数据编码作为负样本进行对比学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于特斯联科技集团有限公司,未经特斯联科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310187729.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:钢丝绳带式输送机清扫装置
- 下一篇:一种飞机燃油系统气密性检测仪