[发明专利]一种基于自适应中心锚的语种识别方法及系统有效
申请号: | 202110841690.3 | 申请日: | 2021-07-26 |
公开(公告)号: | CN113282718B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 马杰 | 申请(专利权)人: | 北京快鱼电子股份公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/56;G06N3/04;G06N3/08 |
代理公司: | 北京天盾知识产权代理有限公司 11421 | 代理人: | 张彩珍 |
地址: | 100093 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自适应 中心 语种 识别 方法 系统 | ||
1.一种基于自适应中心锚的语种识别方法,其特征在于,包括以下步骤:
S100:构建语种数据集;
S200:对所述语种数据集中的语音数据进行增强处理;
S300:提取所述增强处理后的语音数据的特征,生成特征数据集;
S400:构建深度神经骨干网络,并基于分类损失函数采用有监督学习方式训练所述深度神经骨干网络;所述深度神经骨干网络是基于多尺度的残差神经网络,是通过在Resnet34网络基础上进行改进得到;
S500:基于度量损失函数,采用自适应中心锚方法进一步训练所述深度神经骨干网络;
S600:基于所述训练后的深度神经骨干网络进行语种识别;
其中,所述深度神经骨干网络包括:卷积层Conv1、Blocks1、Blocks2、Blocks3、Blocks4、池化层、Flatten层和Linear层,其中Conv1的结构为Conv2D+BatchNormalization+Relu的结构,Blocks1、Blocks2、Blocks3、Blocks4中的每个均包括Conv_Bn_Relu_k_s_n和Concatenate函数,其中Conv_Bn_Relu表示Conv2D+BatchNormalization+Relu的结构,_k表示Conv2D的kernel size,_s表示strides参数设置,_n表示Conv2D输出神经元个数;
将Conv_Bn_Relu_3_1_32的输出值作为第一个Conv_Bn_Relu_1_1_32的第一次输入值,将所述第一个Conv_Bn_Relu_1_1_32的输出值切割成4个相同大小的张量split1、split2、split3和split4;
将split2输入Conv_Bn_Relu_3_1_8得到split2的输出结果;将split2的输出结果与split3进行叠加,然后输入Conv_Bn_Relu_3_1_8得到split3的输出结果;将split3的输出结果与split4进行叠加,然后输入Conv_Bn_Relu_3_1_8得到split4的输出结果;
拼接split2的输出结果、split3的输出结果、split4的输出结果和split1得到拼接后的张量,以实现尺度因子为4的多尺度融合残差神经网络;
所述步骤S500包括以下子步骤:
S510:计算每个语种训练集中的特征在所述深度神经骨干网络输出的结果,并基于各个语种训练集的输出结果计算均值向量以得到每个语种的特征中心;
S520:计算各个语种训练集的输出结果与其对应的语种特征中心的欧式距离,基于欧式距离构建Anchor集和非Anchor集;
S530:基于Anchor集和非Anchor集对所述深度神经骨干网络进行训练,不断更新特征中心和特征中心附近的样本,以实现自适应中心锚的选取;
S540:重复执行步骤S510-S530,直至网络收敛;
不断更新特征中心和特征中心附近的样本,以实现自适应中心锚的选取具体为:
当所有的Anchor集计算完成后,重新计算每个语种训练集的输出结果的均值向量,重新构建新的Anchor集,从而完成了自适应中心锚的选取。
2.根据权利要求1所述的语种识别方法,其特征在于,所述步骤S100中还包括对所述语种数据集中的语音数据进行预处理,包括以下子步骤:
S110:抽取所述语种数据集中同一语种的所有语音数据进行拼接;
S120:计算所述拼接后得到的语音数据中的连续静音段,若连续静音段大于设定阈值,则除掉该连续静音段。
3.根据权利要求1所述的语种识别方法,其特征在于,所述步骤S200中的增强处理包括增强语音信噪比、语速、时域随机裁剪和语音变调中的一种或多种。
4.根据权利要求1所述的语种识别方法,其特征在于,所述分类损失函数采用Categorical_Crossentropy、amsoftmax和aamsoftmax中的一种。
5.根据权利要求1所述的语种识别方法,其特征在于,所述度量损失函数采用Triplet-Loss和Contrastive Loss中的一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京快鱼电子股份公司,未经北京快鱼电子股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110841690.3/1.html,转载请声明来源钻瓜专利网。