[发明专利]基于语义匹配的证据文档检索方法、系统及存储介质有效
| 申请号: | 202110061517.1 | 申请日: | 2021-01-18 |
| 公开(公告)号: | CN112818093B | 公开(公告)日: | 2023-04-18 |
| 发明(设计)人: | 李虹琳;叶思涛 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/279 |
| 代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 袁文婷;张娓娓 |
| 地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 语义 匹配 证据 文档 检索 方法 系统 存储 介质 | ||
1.一种基于语义匹配的证据文档检索方法,应用于电子装置,其特征在于,所述方法包括:
对待检索证据文档进行段落划分,以将所述待检索证据文档划分为至少一个文本段落;
确定段落划分后的所述待检索证据文档中的与用户查询问题相关的所有文本段落,记为相关文本段落组;
自所述相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落,并对所述召回文本段落进行召回;
基于预设的阅读理解模型对所述召回文本段落进行处理,以提取所述召回文本段落内的与所述用户查询问题对应的最终答案字段;其中,
自所述相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落的过程包括:
确定所述相关文本段落组内各相关文本段落的代表特征序列;
分别计算各代表特征序列与所述用户查询问题之间的序列相似比率、编辑距离以及句向量相似度;
计算所述用户查询问题与各代表特征序列的所述序列相似比率、所述编辑距离以及所述句向量相似度的总和,并且取与总和数值前N的代表特征序列对应的相关文本段落记为所述召回文本段落。
2.根据权利要求1所述的基于语义匹配的证据文档检索方法,其特征在于,对所述待检索证据文档进行段落划分,以将所述待检索证据文档划分为至少一个文本段落的过程包括的过程包括:
以预设尺寸的窗口每次滑动预设固定步长的方式对所述待检索证据文档进行截取,以将所述待检索证据文档划分为至少一个文本段落;或者,
根据所述待检索证据文档内的子标题对所述待检索证据文档进行段落划分,以将所述待检索证据文档划分为至少一个文本段落。
3.根据权利要求2所述的基于语义匹配的证据文档检索方法,其特征在于,若所述待检索证据文档为图片式pdf文档,则在对所述待检索证据文档进行段落划分之前,需要先对所述待检索证据文档进行文字识别,以将所述待检索证据文档转换为word格式文档。
4.根据权利要求3所述的基于语义匹配的证据文档检索方法,其特征在于,确定段落划分后的所述待检索证据文档中的与用户查询问题相关的所有文本段落,记为相关文本段落组的过程包括:
对所述用户查询问题进行预处理,以确定与所述用户查询问题对应的所有的查询要素类型;
基于所述查询要素类型对所述待检索证据文档进行查询,以确定所述待检索证据文档中所有的包含至少一个与所述查询要素类型匹配的特征要素的文本段落,记为所述相关文本段落组。
5.根据权利要求4所述的基于语义匹配的证据文档检索方法,其特征在于,
所述序列相似比率的计算公式为:
其中,a为所述用户查询问题与所述代表特征序列中相同字符的个数,b为用户查询问题中的字符个数,c为所述代表特征序列中的字符个数;
所述编辑距离的计算公式为:
其中,设将所述用户查询问题转换为所述代表特征序列所需要的总操作次数为a,b为用户查询问题中的字符个数,c为所述代表特征序列中的字符个数,max()为取最大值函数;
所述句向量相似度的计算公式为:f(x)=∑a∈A∑b∈Bsin(e,f)
其中,分别对所述用户查询问题、所述代表特征序列进行分词及去停用词生成查询关键词序列A、代表关键词序列B,sin 为词向量余弦相似度函数,Σ为求和符号,e为查询关键词,f为代表关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110061517.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种定频太空能系统和控制方法
- 下一篇:一种功能性全谷物混合豆乳及其生产方法





