[发明专利]一种基于自适应中心锚的语种识别方法及系统有效
申请号: | 202110841690.3 | 申请日: | 2021-07-26 |
公开(公告)号: | CN113282718B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 马杰 | 申请(专利权)人: | 北京快鱼电子股份公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/56;G06N3/04;G06N3/08 |
代理公司: | 北京天盾知识产权代理有限公司 11421 | 代理人: | 张彩珍 |
地址: | 100093 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自适应 中心 语种 识别 方法 系统 | ||
本发明公开了一种基于自适应中心锚的语种识别方法及系统,包括构建语种数据集;对语种数据集中的语音数据进行增强处理;提取增强处理后的语音数据的特征,生成特征数据集;构建深度神经骨干网络,并基于分类损失函数采用有监督学习方式训练深度神经骨干网络;基于度量损失函数,采用自适应中心锚方法进一步训练所述深度神经骨干网络;基于训练后的深度神经骨干网络进行语种识别;该方法通过数据增强扩大了数据集,同时也增加了数据集的鲁棒性;使用多尺度融合的残差神经网络从而增强骨干网络的特征表达能力,先后使用了分类损失和度量损失进一步提升识别的准确率。
技术领域
本发明涉及语音处理技术领域,具体涉及一种基于自适应中心锚的语种识别方法及系统。
背景技术
随着语音信号处理及人工智能的发展,尤其是近年来深度学习的快速发展使得语种识别技术的可靠性进一步提升,很多的智能语音助手可以使用自动的语种识别技术来推断用户所使用的语言;语种识别技术作为很多语音处理任务的预处理部分,在多语种语音识别、跨语种通信和机器翻译等领域有着广泛的应用。
目前语种识别模型训练时采用的深度学习方法可分为前端、编码层和后端,其中前端代表输入特征,编码层代表骨干网络,后端代表损失函数,后端又可分为度量损失和分类损失,上述单独采用骨干网络结合度量损失或骨干网络结合分类损失的深度学习方法的准确率和可靠性并不高,仍需进一步提高。
发明内容
针对上述问题,本发明的一个目的是提供一种基于自适应中心锚的语种识别方法,该方法在前端使用有效的数据增强扩大数据集的同时也增加了数据集的鲁棒性,在编码层使用多尺度融合的残差神经网络增强骨干网络的特征表达能力,在后端先后使用了分类损失和度量损失进一步提升识别的准确率。
本发明的第二个目的是提供一种基于自适应中心锚的语种识别系统。
本发明所采用的第一个技术方案是:一种基于自适应中心锚的语种识别方法,包括以下步骤:
S100:构建语种数据集;
S200:对所述语种数据集中的语音数据进行增强处理;
S300:提取所述增强处理后的语音数据的特征,生成特征数据集;
S400:构建深度神经骨干网络,并基于分类损失函数采用有监督学习方式训练所述深度神经骨干网络;
S500:基于度量损失函数,采用自适应中心锚方法进一步训练所述深度神经骨干网络;
S600:基于所述训练后的深度神经骨干网络进行语种识别。
优选地,所述步骤S100中还包括对所述语种数据集中的语音数据进行预处理,包括以下子步骤:
S110:抽取所述语种数据集中同一语种的所有语音数据进行拼接;
S120:计算所述拼接后得到的语音数据中的连续静音段,若连续静音段大于设定阈值,则除掉该连续静音段。
优选地,所述步骤S200中的增强处理包括增强语音信噪比、语速、时域随机裁剪和语音变调中的一种或多种。
优选地,所述步骤S400中的深度神经骨干网络是基于多尺度的残差神经网络。
优选地,所述分类损失函数采用Categorical_Crossentropy、amsoftmax和aamsoftmax中的一种。
优选地,所述度量损失函数采用Triplet-Loss和Contrastive Loss中的一种。
优选地,步骤S500包括以下子步骤:
S510:计算每个语种训练集中的特征在所述深度神经骨干网络输出的结果,并基于各个语种训练集的输出结果计算均值向量以得到每个语种的特征中心;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京快鱼电子股份公司,未经北京快鱼电子股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110841690.3/2.html,转载请声明来源钻瓜专利网。