[发明专利]基于间距损失函数的神经网络训练方法和装置在审
申请号: | 201910521431.5 | 申请日: | 2019-06-17 |
公开(公告)号: | CN110222841A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 俞凯;钱彦旻;项煦;王帅;黄厚军 | 申请(专利权)人: | 苏州思必驰信息科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 方挺;邓婷婷 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 间距损失 神经网络训练 神经网络 真实分布 方法和装置 归一化处理 概率分布 预设 预处理 方法更新 函数计算 类别概率 识别性能 随机梯度 损失函数 逐渐减小 标准时 说话 区分性 小批量 输出 申请 | ||
本发明公开基于间距损失函数的神经网络训练方法和装置,其中,一种基于间距损失函数的神经网络训练方法,包括:对待训练音频进行预处理并输入至神经网络中,待训练音频具有预设的说话人类别的真实分布;输出待训练音频的说话人类别概率分布;使用归一化处理后的Softmax间距损失函数计算说话人类别的概率分布与真实分布的差距;使用小批量随机梯度下降方法更新神经网络的参数以逐渐减小所有待训练音频的概率分布与真实分布的差距;当达到预设标准时,训练完成并固定神经网络的参数。本申请实施例通过使用一个归一化处理后的鼓励“区分性”的损失函数,可以使得识别性能更好。
技术领域
本发明属于神经网络训练技术领域,尤其涉及基于间距损失函数的神经网络训练方法和装置。
背景技术
相关技术中,用于身份验证的说话人识别装置,如智能音箱或者手机上使用的个人助理的通过声音鉴别使用者的功能。产品如华为音箱、谷歌助理、苹果Siri等。
目前的神经网络说话人识别系统,一般可以分为传统的基于i-vector的系统和基于神经网络的系统。此处只对基于神经网络的系统进行讨论。该系统会首先使用给定的数据(已知的说话人列表及每个说话人对应的音频文件)训练一个神经网络说话人分类器。
训练的过程为,给出一条音频,经过预处理后输入给神经网络,神经网络输出说话人类别(如果训练数据中有100个说话人,则有100个类别)的概率分布(如0.01,0.01,0.01,...,所有100个概率的和为1.0)。而说话人类别的真实分布为单点分布(因为该音频只对应一个说话人,例如,该条音频对应第三个说话人类别,则真实分布为0.0,0.0,1.0,0.0,...,即第三个说话人类别概率为1.0,其他类别概率为0.0)。这两个分布的差距由损失函数进行计算。绝大多数情况下,其损失函数为softmax层输出的概率分布和正确标注分布的交叉熵(CE,cross entropy)。
训练的过程使用小批量(mini-batch)随机梯度下降(SGD,Stochastic gradientdescent)方法,更新神经网络的参数,并逐渐减小所有训练样本的这两个分布的差距。当达到某个设定的标准后,训练完成,神经网络的参数固定下来。此时,一条预处理之后的音频输入到神经网络,会计算出说话人类别的概率分布,取概率最大的类别为神经网络对这条音频对应的的说话人的预测值。(如概率最大的是第99类,那么神经网络预测这条音频属于第99个说话人)。
训练完成后,神经网络的分类层不再需要,只需要提取出神经网络中间某层的输出。不同音频之间的相似性,使用它们对应的神经网络中间层输出进行比对或者后处理。对于一段音频,首先将其预处理为语音特征,再将语音特征作为神经网络的输入,神经网络中间层的输出作为提取出的高层信息,用到后续的说话人分类或者鉴别中。
发明人在实现本申请的过程中发现,现有的方案至少存在以下缺陷:
已有的训练方法,大多数都没有考虑到使用一个鼓励“区分性”的损失函数,如果用于比对的说话人没有出现在训练数据中,那么提取出的高层信息容易受到环境噪音、录制设备多样性的影响,进而影响到识别性能。
发明内容
本发明实施例提供一种基于间距损失函数的神经网络训练方法和装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种基于间距损失函数的神经网络训练方法,包括:对待训练音频进行预处理并输入至神经网络中,所述待训练音频具有预设的说话人类别的真实分布;输出所述待训练音频的说话人类别概率分布;使用归一化处理后的Softmax间距损失函数计算所述说话人类别的概率分布与真实分布的差距;使用小批量随机梯度下降方法更新所述神经网络的参数以逐渐减小所有待训练音频的概率分布与真实分布的差距;当达到预设标准时,训练完成并固定所述神经网络的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司,未经苏州思必驰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910521431.5/2.html,转载请声明来源钻瓜专利网。