[发明专利]声纹编码网络的训练方法及装置有效
申请号: | 202110513396.X | 申请日: | 2021-05-11 |
公开(公告)号: | CN113299295B | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 王志铭;熊涛 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/08;G10L17/18 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声纹 编码 网络 训练 方法 装置 | ||
1.一种声纹编码网络的训练方法,包括:
获取第一语音片段对应的声学特征和说话人标识;
将所述声学特征输入声纹编码网络,得到第一编码向量;
基于所述说话人标识对应的类别权重向量以及所述第一编码向量,确定第一训练损失,该第一训练损失负相关于所述类别权重向量与第一编码向量之间的第一相似度,且正相关于预先设定的边际参数;
基于与所述第一语音片段对应相同说话人标识的同类语音片段,以及对应不同说话人标识的异类语音片段,确定第二训练损失,该第二训练损失正相关于所述第一语音片段与同类语音片段各自所对应编码向量之间的同类间距离,且负相关于所述第一语音片段与异类语音片段各自所对应编码向量之间的第一异类间距离,所述第二训练损失还正相关于所述第一异类间距离和第二异类间距离之间的相对大小,其中第二异类间距离为所述同类语音片段与异类语音片段各自所对应编码向量之间的向量间距离;
基于所述第一训练损失和第二训练损失,训练所述声纹编码网络和类别权重向量。
2.根据权利要求1所述的方法,其中,获取第一语音片段对应的声学特征和说话人标识,包括:
获取所述第一语音片段,并对该第一语音片段进行预处理,所述预处理包括语音增强处理,和/或,静音抑制处理;
基于预处理后的第一语音片段,提取所述声学特征。
3.根据权利要求1或2所述的方法,其中,所述声学特征包括,梅尔频谱倒谱系数MFCC特征,或梅尔标度滤波器组FBank特征。
4.根据权利要求1所述的方法,其中,所述声纹编码网络采用时延神经网络TDNN,或,压缩与激发残差网络SE-ResNet。
5.根据权利要求1所述的方法,其中,确定第一训练损失,包括:
计算所述第一编码向量与对应多个说话人标识的多个类别权重向量之间的多个相似度,该多个相似度中包括所述第一相似度;
利用预设缩减函数处理所述第一相似度,得到缩减相似度,所述预设缩减函数包括所述边际参数;
利用所述多个相似度中除所述第一相似度以外的其他相似度,对所述缩减相似度进行归一化处理,得到预测概率,该预测概率指示正确识别出所述第一语音片段所对应说话人的概率;
基于所述预测概率,确定所述第一训练损失;
其中,基于第一训练损失和第二训练损失,训练所述声纹编码网络和类别权重向量,包括:
基于所述第一训练损失和第二训练损失,训练所述声纹编码网络和多个类别权重向量。
6.根据权利要求1所述的方法,其中,所述第二训练损失还负相关于所述第二异类间距离。
7.根据权利要求1所述的方法,其中,训练后的对应多个说话人标识的多个类别权重向量被作为分类网络中全连接层的多个参数向量;所述方法还包括:
将待辨认的目标语音片段输入训练后的声纹编码网络,得到目标编码向量;
将所述目标编码向量输入所述分类网络,得到目标说话人识别结果。
8.根据权利要求1所述的方法,其中,还包括:
将用户录入的注册语音输入训练后的声纹编码网络,得到注册编码向量;
将用户输入的验证语音,输入所述训练后的声纹编码网络,得到验证编码向量;
基于所述注册编码向量和验证编码向量之间的相似度,判断输入所述验证语音的用户与录入所述注册语音的用户是否为同一用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110513396.X/1.html,转载请声明来源钻瓜专利网。