[发明专利]相似问题的确定方法和装置、存储介质及电子装置有效
| 申请号: | 202010764803.X | 申请日: | 2020-08-03 |
| 公开(公告)号: | CN111737449B | 公开(公告)日: | 2020-12-11 |
| 发明(设计)人: | 周辉阳;闫昭 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/332;G06N3/04;G06N3/08 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 周婷婷 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 相似 问题 确定 方法 装置 存储 介质 电子 | ||
本发明公开了一种相似问题的确定方法和装置、存储介质及电子装置。其中,该方法包括:将第一问题输入到第一目标神经网络模型,得到与第一问题的语义相似度大于第一预设阈值的第二问题集合;将第一问题和第一答案输入到第二目标神经网络模型,得到与第一问题的语义相似度大于第二预设阈值的第三问题集合;在第二问题集合和第三问题集合中确定目标问题子集,其中,所述目标问题子集中的问题为所述第一问题的相似问题。本发明解决了语料数量和质量较低的技术问题。
技术领域
本发明涉及计算机领域,具体而言,涉及一种相似问题的确定方法和装置、存储介质及电子装置。
背景技术
在问答领域的建设过程之中,语料是非常重要的核心资产。有了语料才能训练一个好的模型,让属于这个领域的语料都能被模型识别出来。对于问答型的任务,问答对语料的数量就更加的重要,更多的语料就能让产品更加的智能化,能回答用户各种千奇百怪的问题。所以不难发现,问答语料的数量和质量对于问答领域的端到端影响和用户的体验是起了决定影响力的,对问答型的任务是显得尤其重要,语料的数量指的是语料要够多,数量要够大,语料的质量指的是语料的质量要好,要能包含用户的各种方式的问法。
现有技术向用户推荐相关问题的时候,通常是采用检索式的召回推荐,一般是通过搜索引擎进行检索、召回,然后推荐。比如,用户输入了一个问答对(问题:飞机航行灯如何分布答案:xxxx),通常会到数据库中进行检索,看看数据库中有哪些相似的问题,可以推荐给企业用户。
但是检索的方式存在以下问题:1、自建的问答对数据库需要时间积累,需要花费大量的人力,物力和财力。2、对于一些重要的企业级问题可能是加密的,例如有些关键字在企业内是加密的,对于这些问题和答案是无法获取到的,使得自建的问答对数据库中的问答对不够全面。3、自建的问答对数据库中的相似问题大部分是字符的差异,无法满足用户对多样化语句的需求(用户期望的是字符差别比较大,但是语义是同一个意思的问法)。
针对相关技术中,语料数量和质量较低的问题目前尚未存在有效解决方案。
发明内容
本发明实施例提供了一种相似问题的确定方法和装置、存储介质及电子装置,以至少解决语料数量和质量较低的技术问题。
根据本发明实施例的一个方面,提供了一种相似问题的确定方法,包括:将第一问题输入到第一目标神经网络模型,得到与所述第一问题的语义相似度大于第一预设阈值的第二问题集合,其中,所述第一目标神经网络模型是使用第一训练数据集对第一初始神经网络模型训练得到的模型,所述第一训练数据集包括第一训练问题集合;将所述第一问题和第一答案输入到第二目标神经网络模型,得到与所述第一问题的语义相似度大于第二预设阈值的第三问题集合,其中,所述第一答案为所述第一问题的答案,所述第二目标神经网络模型是使用第二训练数据集对第二初始神经网络模型训练得到的模型,所述第二训练数据集包括:具有对应关系的第二训练问题集合和第二训练答案集合;在所述第二问题集合和所述第三问题集合中确定目标问题子集,其中,所述目标问题子集中的问题为所述第一问题的相似问题。
根据本发明实施例的另一方面,还提供了一种相似问题的确定装置,包括:第一输入模块,用于将第一问题输入到第一目标神经网络模型,得到与所述第一问题的语义相似度大于第一预设阈值的第二问题集合,其中,所述第一目标神经网络模型是使用第一训练数据集对第一初始神经网络模型训练得到的模型,所述第一训练数据集包括第一训练问题集合;第二输入模块,用于将所述第一问题和第一答案输入到第二目标神经网络模型,得到与所述第一问题的语义相似度大于第二预设阈值的第三问题集合,其中,所述第一答案为所述第一问题的答案,所述第二目标神经网络模型是使用第二训练数据集对第二初始神经网络模型训练得到的模型,所述第二训练数据集包括:具有对应关系的第二训练问题集合和第二训练答案集合;确定模块,用于在所述第二问题集合和所述第三问题集合中确定目标问题子集,其中,所述目标问题子集中的问题为所述第一问题的相似问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010764803.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用电设备的供电方法及系统
- 下一篇:一种吹塑注塑产品包装设备





