[发明专利]基于深度神经网络的口音分类方法及其模型在审
申请号: | 202110052375.2 | 申请日: | 2021-01-14 |
公开(公告)号: | CN112992119A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 王伟;吴小培;张超;吕钊;张磊;郭晓静;高湘萍;周蚌艳 | 申请(专利权)人: | 安徽大学 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/06;G10L15/08;G10L15/16;G10L15/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 合肥市上嘉专利代理事务所(普通合伙) 34125 | 代理人: | 李璐 |
地址: | 230601 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 神经网络 口音 分类 方法 及其 模型 | ||
本发明公开了一种基于深度神经网络的口音分类方法,包括:提取原始音频的帧级频域特征,构建2D语音频谱作为网络输入X;构建一个多任务权值共享的基于CRNNs的前端编码器来提取频谱X的局部序列描述符{P1,…,PT'};在训练过程中,前端编码器后增设语音识别任务分支网络,用来抑制口音识别中的过拟合现象;构建用于口音识别任务的核心分支网络,首先将所有局部序列描述符整合成一个全局口音特征;然后在预测过程中引入判别性损失函数;最后通过基于softmax的分类层对全局口音特征进行分类,实现口音预测。还公开了一种高度可判别性的基于深度神经网络的口音分类模型,对来自不同区域群体的说话人能给出一个可靠的口音预测。
技术领域
本发明涉及深度学习领域,特别是涉及一种基于深度神经网络的口音分类方法及其模型。
背景技术
口音是在某一语言下说话人的多样性发音行为,该不同的发音方式可归因于说话人的社会环境,居住区域等等。然而各种各样的口音会对语音控制的相关技术的泛化性提出挑战,例如自动语音识别。口音识别技术可用于针对性解决口音相关问题或者预测说话人区域身份,在近些年来被广泛深入研究。随着深度学习技术的日益发展,越来越多的图像或者语音的识别问题采用训练人工神经网络模型得以很好解决。同人脸识别、说话人识别等工作类似,实现口音识别任务的核心内容可总结如下:(1)使用CNN和RNN网络来提取输入频谱的局部特征;(2)将局部特征整合成一个定长的且全局口音特征;(3)对于识别任务,我们希望口音特征具有良好的判别性,因此选择合适的判别性损失函数来进行特征学习是至关重要。
在深度学习领域中,受到了人类视觉神经系统的启发,CNN使用卷积核来代替人类中的视野,这样既能够降低计算量,又能够有效的保留图像的特征,同时对图片的处理更加地高效,AlexNet、VGG、ResNet等CNN网络广泛应用于图像识别任务中提取不同局部特征。RNN是一种用于处理序列数据的神经网络,相比一般的神经网络来说,它能够处理序列变化的数据,LSTM,GRU,SRU等特殊的RNN通过改进可以捕捉长期的依赖关系,被广泛应用于序列到序列或者序列分类等问题中。卷积循环网络(CRNN)将CNN和RNN二者结合用于处理基于图像的序列问题,例如光学字符识别(OCR)、声音事件检测、语音识别等任务。通过CNN/RNN提取的局部特征在神经网络的分类层前需要重构成1维向量,在图像识别任务中常见的作法是进行平铺,但是该方法会生成较大维度特征向量进而增加训练参数。在图像检索任务中,NetVLAD将局部特征通过k个类心软对齐后聚集得到一个全局特征。对于序列特征常见的多对一特征融合方法有平均/标准差池化,RNN等。此外,损失函数在深度特征学习中扮演着至关重要的角色,它决定着网络的学习准则和特征的表征性能。在诸多分类任务中,人们希望获取一个优异判别性的特征空间,即类内样本特征差异尽可能小,类间样本特征差异尽可能大。softmax是一个最常见分类损失函数,但是其所追求成功分类的概率空间并不意味也是一个良好的度量空间,因此很多softmax的变体被提出。早期对损失函数改进有对特征和类属权值进行L2归一化,后来AM-Softmax、CosFace、ArcFace等损失函数进一步在角度空间添加margin来加强特征的判别性。
不考虑信道,背景噪声等外部因素,面向说话人识别的深度网络将说话人语音中性别,语速,发音等音色信息浓缩成个体级的特征。但是口音属于在同一区域下一群说话人的发音习惯,因此口音识别比说话人识别更具挑战性在于学习一个群体级特征。特别是在越来越多说话人倾向标准式发音的语音场景下,口音的侦测与识别愈加困难。另外,因为口音识别任务训练过程容易产生过拟合现象,这往往由于不准确的学习过程造成。
因此亟需提供一种新型的基于深度神经网络的口音分类方法及其模型来解决上述问题。
发明内容
本发明所要解决的技术问题是提供一种基于深度神经网络的口音分类方法及其模型,借鉴和吸收深度学习领域中人脸识别和说话人识别人物中的一些核心方法来解决口音识别问题;此外针对训练过程中的过拟合现象,还提出采用语音识别辅助任务来缓和该问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110052375.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种相控阵扫查装架防偏离装置
- 下一篇:一种多输出可充足充电多用电源电路