[发明专利]语音处理方法、装置以及电子设备有效
申请号: | 201910463203.7 | 申请日: | 2019-05-30 |
公开(公告)号: | CN110197658B | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 孙建伟 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 方法 装置 以及 电子设备 | ||
1.一种语音处理方法,其特征在于,所述方法包括以下步骤:
采用训练样本集,对第一声学模型进行训练,其中,所述第一声学模型包括编码层、解码层和输出层;所述训练样本集中各类型训练样本为不同硬件设备采集的语音数据;
对所述解码层和所述输出层复制,得到多个分支;每一个分支包括一个所述解码层和对应的一个所述输出层;
根据所述多个分支和所述第一声学模型的编码层,生成第二声学模型;
采用所述训练样本集中各类型训练样本,分别对所述第二声学模型中匹配相应类型的分支进行训练,以采用经过训练的第二声学模型对待识别的目标语音进行语音识别,得到所述目标语音对应的发音信息。
2.根据权利要求1所述的方法,其特征在于,所述训练样本包括语音的原始音频特征和语音对应文本标注的参考发音信息,所述采用所述训练样本集中各类型训练样本,分别对所述第二声学模型中匹配相应类型的分支进行训练,包括:
采用所述第二声学模型的编码层对所述训练样本中的原始音频特征进行编码;
根据所述训练样本的类型,将对应的编码输入匹配所述类型的分支,得到输出发音信息;
根据所述参考发音信息与所述输出发音信息之间的差异,对所述匹配所述类型的分支进行参数调整,以使所述差异最小化。
3.根据权利要求2所述的方法,其特征在于,
所述原始音频特征,包括滤波器FBank特征。
4.根据权利要求1所述的方法,其特征在于,所述采用所述训练样本集中各类型训练样本,分别对所述第二声学模型中匹配相应类型的分支进行训练之前,还包括:
根据所述训练样本的来源和/或适用业务场景划分类别。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述第一声学模型还包括注意力层;
所述第二声学模型相应包括所述注意力层。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述采用经过训练的第二声学模型进行语音识别,包括:
采用所述第二声学模型的编码层对待识别的目标语音进行编码;
根据所述目标语音的类型,从所述第二声学模型的多个分支中确定目标分支;
将所述目标语音的编码,输入所述目标分支得到对应的发音信息。
7.一种语音处理装置,其特征在于,所述装置包括:
第一训练模块,用于采用训练样本集,对第一声学模型进行训练,其中,所述第一声学模型包括编码层、解码层和输出层;所述训练样本集中各类型训练样本为不同硬件设备采集的语音数据;
处理模块,用于对所述解码层和所述输出层复制,得到多个分支;每一个分支包括一个所述解码层和对应的一个所述输出层;
生成模块,用于根据所述多个分支和所述第一声学模型的编码层,生成第二声学模型;
第二训练模块,用于采用所述训练样本集中各类型训练样本,分别对所述第二声学模型中匹配相应类型的分支进行训练,以采用经过训练的第二声学模型对待识别的目标语音进行语音识别,得到所述目标语音对应的发音信息。
8.根据权利要求7所述的装置,其特征在于,所述训练样本包括语音的原始音频特征和语音对应文本标注的参考发音信息,所述第二训练模块,用于:
采用所述第二声学模型的编码层对所述训练样本中的原始音频特征进行编码;
根据所述训练样本的类型,将对应的编码输入匹配所述类型的分支,得到输出发音信息;
根据所述参考发音信息与所述输出发音信息之间的差异,对所述匹配所述类型的分支进行参数调整,以使所述差异最小化。
9.根据权利要求8所述的装置,其特征在于,所述原始音频特征,包括滤波器FBank特征。
10.根据权利要求7所述的装置,其特征在于,所述装置,还包括:
划分模块,用于根据所述训练样本的来源和/或适用业务场景划分类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910463203.7/1.html,转载请声明来源钻瓜专利网。