[发明专利]问题处理方法、装置、计算机设备和存储介质在审
申请号: | 202010174852.8 | 申请日: | 2020-03-13 |
公开(公告)号: | CN111400470A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 费昊;冯晓;王昊;吕进 | 申请(专利权)人: | 深圳市腾讯计算机系统有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06N20/00 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 黄晶晶;李文渊 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问题 处理 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种问题处理方法、装置、计算机设备和存储介质。所述方法包括:获取问题查询语句;从预设问题库中,查找与所述问题查询语句匹配的候选问题;分别将所述问题查询语句与各所述候选问题组成问题组合,输入相似度预测模型中,输出所述问题组合中候选问题与所述问题查询语句之间的相似度;所述相似度预测模型,是将多个数据源的样本问题组合和相应的相似度标签作为训练集,通过多任务迭代训练对基础语言模型的模型参数进行调整后得到的;选取相似度最高的候选问题,作为与所述问题查询语句匹配的目标问题。采用本方法能够提高处理准确率。
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种问题处理方法、装置、计算机设备和存储介质。
背景技术
随着科学技术的飞速发展,自然语言处理技术也随之不断地发展。通常会使用自然语言处理技术来进行语句处理。比如,会使用自然语言处理技术处理进行语句相似度判断。
传统方法中,是直接使用样本数据对初始的模型框架进行训练,得到用于进行相似度识别的模型。然而,由于标注数据量有限,导致模型的预测准确性比较低,从而导致进行语句处理的准确率比较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高语句处理准确率的问题处理方法、装置、计算机设备和存储介质。
一种问题处理方法,所述方法包括:
获取问题查询语句;
从预设问题库中,查找与所述问题查询语句匹配的候选问题;
分别将所述问题查询语句与各所述候选问题组成问题组合,输入相似度预测模型中,输出所述问题组合中候选问题与所述问题查询语句之间的相似度;所述相似度预测模型,是将多个数据源的样本问题组合和相应的相似度标签作为训练集,通过多任务迭代训练对基础语言模型的模型参数进行调整后得到的;
选取相似度最高的候选问题,作为与所述问题查询语句匹配的目标问题。
一种问题处理装置,所述装置包括:
查询模块,用于获取问题查询语句;从预设问题库中,查找与所述问题查询语句匹配的候选问题;
相似度预测模块,用于分别将所述问题查询语句与各所述候选问题组成问题组合,输入相似度预测模型中,输出所述问题组合中候选问题与所述问题查询语句之间的相似度;所述相似度预测模型,是将多个数据源的样本问题组合和相应的相似度标签作为训练集,通过多任务迭代训练对基础语言模型的模型参数进行调整后得到的;
匹配模块,用于选取相似度最高的候选问题,作为与所述问题查询语句匹配的目标问题。
在一个实施例中,所述装置包括:
模型训练模块,用于获取训练集;所述训练集,包括来自多个数据源的样本问题组合和所述样本问题组合所对应的相似度标签;采用所述训练集,对基础语言模型迭代地进行多任务训练,得到相似度预测模型。
在一个实施例中,模型训练模块还用于针对至少两个基础语言模型中每个基础语言模型,采用所述训练集,对所述基础语言模型迭代地进行多任务训练,得到与所述基础语言模型对应的预测模型;不同所述基础语言模型的处理粒度不同;根据与各基础语言模型分别对应的所述预测模型,得到相似度预测模型。
在一个实施例中,模型训练模块还用于采用所述训练集,对第一基础语言模型迭代地进行多任务训练,得到与第一基础语言模型对应的预测模型;所述第一基础语言模型,是以字符为处理粒度的基础语言模型;采用所述训练集,对第二基础语言模型迭代地进行多任务训练,得到与第二基础语言模型对应的预测模型;所述第二基础语言模型,是以词为处理粒度的基础语言模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市腾讯计算机系统有限公司,未经深圳市腾讯计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010174852.8/2.html,转载请声明来源钻瓜专利网。