[发明专利]业务文档检索方法、装置、设备及存储介质在审
| 申请号: | 202310695053.9 | 申请日: | 2023-06-12 |
| 公开(公告)号: | CN116662488A | 公开(公告)日: | 2023-08-29 |
| 发明(设计)人: | 丁嘉罗;董世超 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/38;G06N3/0455;G06N3/0895 |
| 代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 于志光 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 业务 文档 检索 方法 装置 设备 存储 介质 | ||
本发明涉及金融科技领域的人工智能技术,揭露了一种业务文档检索方法,包括:对预构建的信息抽取模型进行多阶段通用训练,得到原始双塔模型,利用原始文档训练集合对原始双塔模型进行对比学习训练,得到包括标准查询模型及标准文档模型的标准双塔模型,利用标准文档模型对待检索文档集合进行多注意力稠密向量编码,得到稠密向量集合,利用标准查询模型对用户查询信息进行向量编码,得到查询向量,基于查询向量对稠密向量集合进行文档检索,得到文档检索结果。本发明还涉及区块链技术,所述文档检索结果可存储在区块链的节点中。本发明还提出一种业务文档检索装置、电子设备以及可读存储介质。本发明可以提高文档检索的效率及准确率。
技术领域
本发明涉及金融科技及人工智能技术领域,尤其涉及一种业务文档检索方法、装置、电子设备及可读存储介质。
背景技术
随着科技的发展,非结构化数据的查询检索变的越来越重要,文档检索主要通过稠密向量检索来进行,例如,金融类业务文档的检索。稠密向量检索是指将海量的非结构化数据或半结构化数据通过AI模型转换成向量化数据进行存储,并构建索引来检索。
随着大型深度学习模型的快速发展,稠密向量检索的解决方案主要集中在三个方向,即表示型、全交互型和半交互型。其中:1、表示型的解决方案也被称为双塔模型,通常是指基于两个结构相似的深度学习模型分别对query和待检索的document进行编码,然后计算query编码向量与所有待检索document编码向量的相似度距离,按相似度高低来召回相关document,双塔模型的优势是可以离线提前计算好所有的document编码向量,线上推理阶段只需要计算query编码向量,并与提前计算好的document向量进行相似度计算即可,这样的检索方案效率最快,但由于query和document在模型训练阶段缺少交互,检索准确率完全依赖于独立深度学习模型的编码能力,然而在金融领域,将复杂多变的金融检索信息映射到固定长度的向量中是非常困难的,所以表示型方案的检索准确率往往较低;2、在全交互型方案中,query和document会作为一个整体贯穿模型训练阶段和线上推理阶段,同一个document根据搭配query的不同,会有不同的向量表示并蕴含特定的相关性信息,这样大大提高了检索的准确率,但全交互式方案不可忽视的缺点是线上检索效率极低,由于query和document是结合在一起进行编码,无法对海量的document提前进行编码计算,例如,每一次金融文档线上检索都需要临时计算所有的待检索向量,检索效率低下;3、半交互型方案是指在模型训练阶段进行一定的交互式对比学习,在模型推理阶段(线上检索)简化为双塔模型,如借鉴模型蒸馏技术,将交互式模型作为老师模型,将其能力蒸馏到双塔学生模型中去,通过这种方式来针对性地增强双塔模型的向量表征能力,这样既保留了一部分交互式模型的检索能力,又能维持双塔模型的检索效率,缺点是训练阶段的测试效果无法反映线上的实际效果,检索准确率较低。
综上所述,现有的业务文档检索方法均存在检索效率低或准确率较低的问题。
发明内容
本发明提供一种业务文档检索方法、装置、电子设备及可读存储介质,其主要目的在于提高文档检索的效率及准确率。
为实现上述目的,本发明提供的一种业务文档检索方法,包括:
对预构建的信息抽取模型进行多阶段通用训练,得到原始双塔模型;
获取原始文档训练集合,利用所述原始文档训练集合对所述原始双塔模型进行对比学习训练,得到标准双塔模型,其中,所述标准双塔模型包括标准查询模型及标准文档模型;
获取待检索文档集合,利用所述标准文档模型对所述待检索文档集合进行多注意力稠密向量编码,得到稠密向量集合;
获取用户查询信息,利用所述标准查询模型对所述用户查询信息进行向量编码,得到查询向量;
基于所述查询向量对所述稠密向量集合进行文档检索,得到文档检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310695053.9/2.html,转载请声明来源钻瓜专利网。





