[发明专利]模型训练方法、语音分离方法、装置及电子设备有效
| 申请号: | 202011618335.1 | 申请日: | 2020-12-31 |
| 公开(公告)号: | CN112820313B | 公开(公告)日: | 2022-11-01 |
| 发明(设计)人: | 陈孝良;冯大航;赵力;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
| 主分类号: | G10L21/028 | 分类号: | G10L21/028;G10L21/0208;G10L25/30;G06N3/08;G06N3/04 |
| 代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 黄灿;左晓菲 |
| 地址: | 100094 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 模型 训练 方法 语音 分离 装置 电子设备 | ||
1.一种模型训练方法,其特征在于,所述方法包括:
将声音信号的语音特征分别输入预先训练的N个第一神经网络模型,得到N个输出结果,所述N个输出结果为从所述声音信号中分离出的N个拾音区域对应的说话人语音的语音特征,N为大于1的整数;
将所述声音信号的语音特征输入第二神经网络模型,对所述第二神经网络模型进行训练,其中,用于训练所述第二神经网络模型的损失函数基于所述N个输出结果确定;
所述损失函数基于所述N个输出结果和所述声音信号中真实的说话人语音确定;
所述损失函数与第一损失值成正相关,所述第一损失值为:a*(T1-T2)2,其中,a为训练系数,T1基于所述N个输出结果拼接获得,T2为所述第二神经网络模型的输出值。
2.根据权利要求1所述的方法,其特征在于,所述损失函数与第二损失值成正相关,所述第二损失值为:(1-a)*(T3-T2)2,其中,T3为所述声音信号中真实的说话人语音的语音特征。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述第二神经网络模型进行训练,包括:
在第一轮训练过程中,将损失函数中的训练系数设置为预设值,基于设置后的训练系数对所述第二神经网络模型进行训练;
在第M轮训练过程中,将所述损失函数中的训练系数按照预设规则调整为目标值,基于调整后的训练系数对所述第二神经网络模型进行训练,所述目标值小于所述预设值,M为大于1的整数。
4.一种语音分离方法,其特征在于,所述方法包括:
采用权利要求1至3中任一项所述的模型训练方法对所述第二神经网络模型进行训练;
将待分离语音输入训练完成的所述第二神经网络模型,得到语音分离结果。
5.一种模型训练装置,其特征在于,所述模型训练装置包括:
第一输入模块,用于将声音信号的语音特征分别输入预先训练的N个第一神经网络模型,得到N个输出结果,所述N个输出结果为从所述声音信号中分离出的N个拾音区域对应的说话人语音的语音特征,N为大于1的整数;
第二输入模块,用于将所述声音信号的语音特征输入第二神经网络模型,对所述第二神经网络模型进行训练,其中,用于训练所述第二神经网络模型的损失函数基于所述N个输出结果确定;
所述损失函数基于所述N个输出结果和所述声音信号中真实的说话人语音确定;
所述损失函数与第一损失值成正相关,所述第一损失值为:a*(T1-T2)2,其中,a为训练系数,T1基于所述N个输出结果拼接获得,T2为所述第二神经网络模型的输出值。
6.一种语音分离装置,其特征在于,所述语音分离装置包括:
训练模块,用于采用权利要求1至3中任一项所述的模型训练方法对所述第二神经网络模型进行训练;
输入模块,用于将待分离语音输入训练完成的所述第二神经网络模型,得到语音分离结果。
7.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至3中任一项所述的模型训练方法中的步骤,或者,所述程序被所述处理器执行时实现如权利要求4所述的语音分离方法中的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011618335.1/1.html,转载请声明来源钻瓜专利网。





