[发明专利]一种语音对话生成方法、装置、计算机设备及存储介质在审
| 申请号: | 202110575146.9 | 申请日: | 2021-05-26 |
| 公开(公告)号: | CN113157896A | 公开(公告)日: | 2021-07-23 |
| 发明(设计)人: | 张涛;周坤胜;曾增烽 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/194;G06F40/279 |
| 代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 对话 生成 方法 装置 计算机 设备 存储 介质 | ||
1.一种语音对话生成方法,其特征在于,包括:
获取待答复语料,并确定与所述待答复语料具有关联关系的关联语料;
对所述待答复语料和所述关联语料进行组合,得到第一文本序列;
获取所述第一文本序列的长度,基于所述第一文本序列的长度对预设语料库中的历史语料进行划分,得到第二文本序列;
对所述第一文本序列进行向量转化,得到第一句向量序列,以及对所述第二文本序列进行向量转化,得到第二句向量序列;
计算所述第一句向量序列和所述第二句向量序列的相似度;
将与所述第一文本序列相似度最大的第二文本序列的下一句语料作为答复语料,输出所述答复语料。
2.如权利要求1所述的语音对话生成方法,其特征在于,在所述对所述待答复语料和所述关联语料进行组合,得到第一文本序列的步骤之前,还包括:
分别对所述待答复语料和所述关联语料进行分词处理,得到分词词组;
对所述分词词组进行文本识别,并基于文本识别结果从所述分词词组中去除预先设定的停用词。
3.如权利要求1所述的语音对话生成方法,其特征在于,所述获取所述第一文本序列的长度,基于所述第一文本序列的长度对预设语料库中的历史语料进行划分,得到第二文本序列的步骤,具体包括:
获取所述第一文本序列的长度,并比对所述第一文本序列的长度与所述历史语料的长度;
若所述第一文本序列的长度小于所述历史语料的长度,则基于所述第一文本序列的长度对预设语料库中的历史语料进行划分,得到第二文本序列。
4.如权利要求3所述的语音对话生成方法,其特征在于,所述基于所述第一文本序列的长度对预设语料库中的历史语料进行划分,得到第二文本序列的步骤,具体包括:
依次从所述历史语料中读取语句,得到待处理语料;
当所述待处理语料的长度与所述第一文本序列的长度相等时,将所述待处理语料从所述历史语料中划分出来;
历遍所述历史语料,直至将所述历史语料中的所有语句全部划分,得到第二文本序列。
5.如权利要求1所述的语音对话生成方法,其特征在于,所述计算所述第一句向量序列和所述第二句向量序列的相似度的步骤,具体包括:
分别计算所述第一句向量序列和所述第二句向量序列中每一个相互对应的句向量的相似度;
基于每一个相互对应的句向量的相似度确定每一个句向量的权重;
基于每一个相互对应的句向量的相似度和所述每一个句向量的权重计算所述第一句向量序列和所述第二句向量序列的相似度。
6.如权利要求1所述的语音对话生成方法,其特征在于,所述基于每一个相互对应的句向量的相似度确定每一个句向量的权重的步骤,具体包括:
通过以下公式计算每一个相互对应的句向量的权重:
其中,aj为第一句向量序列中第j个句向量,bj为第二句向量序列中第j个句向量,cos(aj,bj)为aj和bj的句向量的相似度,Q为句向量的权重。
7.如权利要求1至6任意一项所述的语音对话生成方法,其特征在于,所述将与所述第一文本序列相似度最大的第二文本序列的下一句语料作为答复语料,输出所述答复语料的步骤,具体包括:
对计算得到的所有相似度进行排序,得到相似度排序结果;
基于所述相似度排序结果确定与所述第一文本序列相似度最大的第二文本序列;
将与所述第一文本序列相似度最大的第二文本序列的下一句语料作为答复语料,输出所述答复语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110575146.9/1.html,转载请声明来源钻瓜专利网。





