[发明专利]声纹编码网络的训练方法及装置有效

申请号：	202110513396.X	申请日：	2021-05-11
公开（公告）号：	CN113299295B	公开（公告）日：	2022-12-30
发明（设计）人：	王志铭;熊涛	申请（专利权）人：	支付宝（杭州）信息技术有限公司
主分类号：	G10L17/04	分类号：	G10L17/04;G10L17/08;G10L17/18
代理公司：	北京亿腾知识产权代理事务所(普通合伙) 11309	代理人：	陈霁;周良玉
地址：	310000 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	声纹编码网络训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书实施例提供了一种声纹编码网络的训练方法，包括：获取第一语音片段对应的声学特征和说话人标识；将该声学特征输入声纹编码网络，得到第一编码向量；确定第一训练损失，其负相关于该说话人标识对应的类别权重向量与第一编码向量之间的第一相似度，且正相关于预先设定的边际参数；确定第二训练损失，该第二训练损失正相关于第一语音片段与其同类语音片段各自所对应编码向量之间的同类间距离，且负相关于第一语音片段与其异类语音片段各自所对应编码向量之间的第一异类间距离；基于第一训练损失和第二训练损失，训练声纹编码网络和类别权重向量。

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及一种声纹编码网络的训练方法及装置。

背景技术

声纹识别(Voiceprint Recognition,简称VPR)是生物识别技术的一种，声纹识别也称为说话人识别(Speaker Recognition)，有两类，即说话人辨认(SpeakerIdentification)和说话人确认(Speaker Verification)。前者用以判断某段语音是若干人中的哪一个所说的，是多选一问题；而后者用以确认某段语音是否是指定的某个人所说的，是一对一判别问题。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。不管是辨认还是确认，都需要先对说话人的声纹进行建模，包括训练声纹编码模型来提取表征说话人特点的声纹特征。显然，声纹编码模型的训练效果，决定提取出的声纹特征的有效性，进而影响声纹识别结果的准确度。

然而，目前声纹编码模型的训练方式难以满足实际应用中对声纹识别结果的高要求。因此，需要一种方案，可以有效提高对声纹编码模型的训练效果，从而优化声纹识别结果的准确度和可用性。

发明内容

本说明书一个或多个实施例描述了声纹编码网络的训练方法及装置，可以使得训练出的声纹编码网络能够更加有效、精准地提取出说话人语音中的声纹特征，进而提高声纹识别结果的准确度和可用性。

根据第一方面，提供了一种声纹编码网络的训练方法，包括：获取第一语音片段对应的声学特征和说话人标识；将所述声学特征输入声纹编码网络，得到第一编码向量；基于所述说话人标识对应的类别权重向量以及所述第一编码向量，确定第一训练损失，该第一训练损失负相关于所述类别权重向量与第一编码向量之间的第一相似度，且正相关于预先设定的边际参数；基于与所述第一语音片段对应相同说话人标识的同类语音片段，以及对应不同说话人标识的异类语音片段，确定第二训练损失，该第二训练损失正相关于所述第一语音片段与同类语音片段各自所对应编码向量之间的同类间距离，且负相关于所述第一语音片段与异类语音片段各自所对应编码向量之间的第一异类间距离；基于所述第一训练损失和第二训练损失，训练所述声纹编码网络和类别权重向量。

在一个实施例中，获取第一语音片段对应的声学特征和说话人标识，包括：获取所述第一语音片段，并对该第一语音片段进行预处理，所述预处理包括语音增强处理，和/或，静音抑制处理；基于预处理后的第一语音片段，提取所述声学特征。

在一个实施例中，所述声学特征包括，梅尔频谱倒谱系数MFCC特征，或梅尔标度滤波器组FBank特征。

在一个实施例中，所述声纹编码网络采用时延神经网络TDNN，或，压缩与激发残差网络SE-ResNet。

在一个实施例中，确定第一训练损失，包括：计算所述第一编码向量与对应多个说话人标识的多个类别权重向量之间的多个相似度，该多个相似度中包括所述第一相似度；利用预设缩减函数处理所述第一相似度，得到缩减相似度，所述预设缩减函数包括所述边际参数；利用所述多个相似度中除所述第一相似度以外的其他相似度，对所述缩减相似度进行归一化处理，得到预测概率，该预测概率指示正确识别出所述第一语音片段所对应说话人的概率；基于所述预测概率，确定所述第一训练损失。其中，基于第一训练损失和第二训练损失，训练所述声纹编码网络和类别权重向量，包括：基于所述第一训练损失和第二训练损失，训练所述声纹编码网络和多个类别权重向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于支付宝（杭州）信息技术有限公司，未经支付宝（杭州）信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110513396.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种工业油烟净化系统
下一篇：基于安卓终端软硬解码混合播放多路视频的方法及装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]声纹编码网络的训练方法及装置有效

专利文献下载