[发明专利]基于问题对匹配和问答对匹配的问答匹配方法及系统在审
申请号: | 202211063932.1 | 申请日: | 2022-08-31 |
公开(公告)号: | CN115391513A | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 赵秀浩;李钊;吴士伟;李晓;王瑞霜;王灿俊 | 申请(专利权)人: | 山东省计算中心(国家超级计算济南中心) |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06N3/04;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 闫伟姣 |
地址: | 250000 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 问题 匹配 答对 问答 方法 系统 | ||
本发明属于问答匹配技术领域,提供了一种基于问题对匹配和问答对匹配的问答匹配方法及系统,在获取问题后,先通过预设的问句‑问句匹配模型,得到问题中的问句向量表示和预设问答库中问句的向量表示,在此基础上计算问题中的问句和预设问答库中问句之间的相似度,对问答库进行初步筛选;然后,再通过预设的问句‑答案匹配模型,得到问题中的问句向量表示和筛选后问答库中答案的向量表示,在此基础上,计算问题中的问句和筛选后问答库中答案之间的相似度,并将相似度得分最高的问答对作为获取问题最终匹配的问答对;在问答对匹配过程中,两次相似度计算实现了对问答对的初步筛选和最终确定,提高了相似度计算的精度,保证了匹配效果。
技术领域
本发明属于问答匹配技术领域,尤其涉及一种基于问题对匹配和问答对匹配的问答匹配方法及系统。
背景技术
基于知识库的问答系统是指对输入的自然语言问题在已经构建好的问答库中检索出正确的答案。传统的方法使用TF-IDF、BM25等算法对输入问题的句子和问答库中的问题句子进行浅层的相关性计算,其中,TF-IDF(Term Frequency–Inverse DocumentFrequency)是一种用于信息检索与数据挖掘的常用加权技术,BM是Best Match最佳匹配的缩写,25指的是第25次算法迭代。
发明人发现,如今出现的用于计算文本相似度的SimBERT预训练模型,可以将句子映射到高维的向量空间中,在一定程度上能够更好的对句子对进行深层的相似度计算,但是,SimBERT预训练模型对相似度的计算精度还有待于提高。
发明内容
本发明为了解决上述问题,提出了一种基于问题对匹配和问答对匹配的问答匹配方法及系统,在SimBERT预训练模型的基础上使用问题对数据集和问答对数据集分别微调得到两个最优问题对匹配模型和问答对匹配模型的方法来计算输入问题与问答库中问题的相似度以及输入问题和问答库中答案的相似度,最终根据问题和答案之间的相似度得出最佳答案。
为了实现上述目的,本发明是通过如下的技术方案来实现:
第一方面,本发明提供了一种基于问题对匹配和问答对匹配的问答匹配方法,包括:
获取问题中的问句;
依据获取的问句,以及预设的问句-问句匹配模型,得到问题中的问句向量表示和预设问答库中问句的向量表示;
依据问题中的问句向量表示和预设问答库中问句的向量表示,计算问题中的问句和预设问答库中问句之间的相似度,保留相似度符合预设要求的预设问答库中的问答对,得到筛选后的问答库;
依据获取的问句,以及预设的问句-答案匹配模型,得到问题中的问句向量表示和筛选后问答库中答案的向量表示;
依据问题中的问句向量表示和预设问答库中问句的向量表示,计算问题中的问句和筛选后问答库中答案之间的相似度,相似度得分最高的问答对作为获取问题最终匹配的问答对。
进一步的,句子对数据输入问句-问句匹配模型和问句-答案匹配模型之前,将句子对中的每个句子中的词转换为索引的形式,在每个转换为索引形式句子的开头和结尾分别添加对应的索引值。
进一步的,问句-问句匹配模型和问句-答案匹配模型由SimBERT模型训练得到;SimBERT模型中,对句子对中的两个句子分别获取每个句子最后一层的向量表示;然后对每个句子先进行线性变换将每个句子映射到预设维度的句子向量空间中,再对句子对中的两个句子的向量表示在最后一维上进行拼接得到新的向量表示;最后再进行一次线性变换得到最终的向量表示。
进一步的,使用BM25算法,对获取的问句与问答库中的问句进行相关性计算,得到与获取问句相关的多个问答库中的问答对。
进一步的,得到与获取问句相关的多个问答库中的问答对后,将获取的句子与问答对中的每个问句配对得到问句-问句列表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省计算中心(国家超级计算济南中心),未经山东省计算中心(国家超级计算济南中心)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211063932.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:计算温度场的方法及电子设备
- 下一篇:一种塔式起重机行走机构