[发明专利]语音交互的处理方法、装置、电子设备及存储介质有效
| 申请号: | 202011322535.2 | 申请日: | 2020-11-23 |
| 公开(公告)号: | CN112382291B | 公开(公告)日: | 2021-10-22 |
| 发明(设计)人: | 刘兵;吴震;白锦峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/06 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王萌 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 交互 处理 方法 装置 电子设备 存储 介质 | ||
1.一种语音交互的处理方法,包括:
获取当前时间点用户的输入语音以及所述用户的历史语音序列;
根据所述输入语音和所述历史语音序列生成所述用户的语音特征信息;其中,所述语音特征信息包括:所述历史语音序列对应的历史语音融合特征以及所述输入语音对应的输入语音特征;或者,所述语音特征信息包括:输入语音融合特征,其中,所述输入语音融合特征为对所述历史语音序列对应的历史语音融合特征和所述输入语音对应的输入语音特征进行融合得到的特征;
根据所述语音特征信息生成所述输入语音的分类判断结果;
若所述分类判断结果为拒识,则忽略所述输入语音;
若所述分类判断结果为接收,则对所述输入语音进行响应处理。
2.根据权利要求1所述的方法,其中,所述语音特征信息包括所述历史语音序列对应的历史语音融合特征以及所述输入语音对应的输入语音特征时,所述根据所述语音特征信息生成所述输入语音的分类判断结果,包括:
根据所述历史语音融合特征生成当前时间点的预测语音特征;
将当前时间点的预测语音特征和所述输入语音特征进行比对,生成所述分类判断结果。
3.根据权利要求2所述的方法,其中,在根据所述输入语音和所述历史语音序列生成所述用户的语音特征信息之前,还包括:
获取经过预训练的对比预测编码CPC模型;
结合所述CPC模型中的语音编码层和特征融合层构建接收拒识分类模型的特征提取模块,用于基于所述输入语音和所述历史语音序列生成所述语音特征信息;
结合所述CPC模型中的预测层以及损失函数构建所述接收拒识分类模型的分类判断模块,用于基于所述语音特征信息生成所述分类判断结果;
获取训练数据,其中,所述训练数据包括:一次唤醒多次交互过程中的第一样本输入语音、第一样本历史语音序列以及分类标注结果;
采用所述第一样本输入语音、所述第一样本历史语音序列以及所述分类标注结果对所述接收拒识分类模型进行训练,得到训练好的接收拒识分类模型。
4.根据权利要求1所述的方法,其中,所述语音特征信息包括所述输入语音融合特征时,所述根据所述语音特征信息生成所述输入语音的分类判断结果,包括:
根据所述输入语音融合特征生成所述分类判断结果。
5.根据权利要求4所述的方法,其中,在根据所述输入语音和所述历史语音序列生成所述用户的语音特征信息之前,还包括:
获取经过预训练的对比预测编码CPC模型;
结合所述CPC模型中的语音编码层和特征融合层构建接收拒识分类模型的特征提取模块,用于基于所述输入语音和所述历史语音序列生成所述语音特征信息;
结合多层感知机以及激励函数层构建所述接收拒识分类模型的分类判断模块,用于基于所述语音特征信息生成所述分类判断结果;
获取训练数据,其中,所述训练数据包括:一次唤醒多次交互过程中的第一样本输入语音、第一样本历史语音序列以及分类标注结果;
采用所述第一样本输入语音、所述第一样本历史语音序列以及所述分类标注结果对所述接收拒识分类模型进行训练,得到训练好的接收拒识分类模型。
6.根据权利要求3或5所述的方法,其中,所述获取经过预训练的对比预测编码CPC模型,包括:
获取预训练数据,其中,所述预训练数据包括:正例数据和负例数据,其中,所述正例数据包括:一次唤醒一次交互过程中用户的任意一条第二样本输入语音,以及所述第二样本输入语音之前的多条历史语音组成的第二样本历史语音序列;
采用所述预训练数据对初始的CPC模型进行训练,得到经过预训练的CPC模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011322535.2/1.html,转载请声明来源钻瓜专利网。





