[发明专利]业务文档检索方法、装置、设备及存储介质在审
| 申请号: | 202310695053.9 | 申请日: | 2023-06-12 |
| 公开(公告)号: | CN116662488A | 公开(公告)日: | 2023-08-29 |
| 发明(设计)人: | 丁嘉罗;董世超 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/38;G06N3/0455;G06N3/0895 |
| 代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 于志光 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 业务 文档 检索 方法 装置 设备 存储 介质 | ||
1.一种业务文档检索方法,其特征在于,所述方法包括:
对预构建的信息抽取模型进行多阶段通用训练,得到原始双塔模型;
获取原始文档训练集合,利用所述原始文档训练集合对所述原始双塔模型进行对比学习训练,得到标准双塔模型,其中,所述标准双塔模型包括标准查询模型及标准文档模型;
获取待检索文档集合,利用所述标准文档模型对所述待检索文档集合进行多注意力稠密向量编码,得到稠密向量集合;
获取用户查询信息,利用所述标准查询模型对所述用户查询信息进行向量编码,得到查询向量;
基于所述查询向量对所述稠密向量集合进行文档检索,得到文档检索结果。
2.如权利要求1所述的业务文档检索方法,其特征在于,所述获取包含通用领域文档数据的第一文档训练集合,利用所述第一文档训练集合对所述信息抽取模型进行模型训练,得到通用信息抽取模型;
获取包含特定领域文档数据的第二文档训练集合,利用所述第二文档训练集合对所述通用信息抽取模型进行模型训练,得到特定信息抽取模型;
将所述特定信息抽取模型作为原始查询模型,以及将同样方法训练的特定信息抽取模型作为原始文档模型,将所述原始查询模型及原始文档模型进行并联,并在并联模型后构建交互层,得到所述原始双塔模型。
3.如权利要求1中所述的业务文档检索方法,其特征在于,所述利用所述原始文档训练集合对所述原始双塔模型进行对比学习训练,得到标准双塔模型,包括:
基于所述原始文档训练集合中的原始查询数据及原始文档数据构造正样本对及负样本对;
利用所述原始双塔模型的原始查询模型提取所述正样本对及负样本对中的查询向量,以及利用原始双塔模型的原始文档模型提取所述正样本对及负样本对中的文档向量;
利用所述原始双塔模型的交互层对所述查询向量及所述文档向量进行交互计算,得到交互损失,在所述交互损失大于预设的交互阈值时,调整所述原始双塔模型的模型参数,直至所述交互损失小于等于所述交互阈值时,停止训练,得到包含标准查询模型及标准文档模型的标准双塔模型。
4.如权利要求3所述的业务文档检索方法,其特征在于,利用下述Loss函数计算所述交互损失:
其中,Loss表示交互损失,L表示原始文档训练集合的大小,λ表示温度参数,(Qj,Pj)表示正样本对,Qj表示第j个查询向量,Pj表示第j个文档向量,(Qj,Ni)表示负样本对,Ni表示第i个文档向量。
5.如权利要求4所述的业务文档检索方法,其特征在于,所述基于所述原始文档训练集合中的原始查询数据及原始文档数据构造正样本对及负样本对,包括:
从所述原始文档训练集合中随机选择一个原始查询数据作为目标查询数据,为所述目标查询数据随机配置一个原始文档数据,得到查询-文档对并作为正样本对;
将所述原始文档训练集合中未配置的原始文档数据作为所述目标查询数据的负样本,并组成负样本对;
返回所述从所述原始文档训练集合中随机选择一个原始查询数据作为目标查询数据的步骤,直至所有原始查询数据被选为目标查询数据,汇总所有的正样本对及负样本对作为训练数据。
6.如权利要求1所述的业务文档检索方法,其特征在于,所述利用所述标准文档模型对所述待检索文档集合进行多注意力稠密向量编码,得到稠密向量集合,包括:
利用所述标准文档模型对所述待检索文档集合中的文档进行向量编码,得到编码向量;
利用预设数量的参数向量矩阵对所述编码向量进行多注意力机制计算,得到所述稠密向量集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310695053.9/1.html,转载请声明来源钻瓜专利网。





