[发明专利]基于深度神经网络的口音分类方法及其模型在审
申请号: | 202110052375.2 | 申请日: | 2021-01-14 |
公开(公告)号: | CN112992119A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 王伟;吴小培;张超;吕钊;张磊;郭晓静;高湘萍;周蚌艳 | 申请(专利权)人: | 安徽大学 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/06;G10L15/08;G10L15/16;G10L15/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 合肥市上嘉专利代理事务所(普通合伙) 34125 | 代理人: | 李璐 |
地址: | 230601 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 神经网络 口音 分类 方法 及其 模型 | ||
1.一种基于深度神经网络的口音分类方法,其特征在于,包括以下步骤:
S1:提取原始音频的帧级频域特征,并构建2D语音频谱作为网络输入X;
S2:构建一个多任务权值共享的基于CRNNs的前端编码器来提取频谱X的局部序列描述符{P1,...,PT′};
S3:在训练过程中,在前端编码器后增设语音识别任务分支网络,用来纠正训练过程中学习方向即抑制口音识别中的过拟合现象;
S4:构建用于口音识别任务的核心分支网络,将所有局部序列描述符整合成一个全局口音特征;
S5:在预测过程中引入判别性损失函数,用于增强全局口音特征的判别能力;
S6:通过基于softmax的分类层对全局口音特征进行分类,实现口音预测。
2.根据权利要求1所述的基于深度神经网络的口音分类方法,其特征在于,步骤S1的具体步骤为:对于一段语音信号,在每帧语音信号内提取MFCC或者FBANK频域特征来构建2D语音频谱,然后扩张通道维度用于CNN运算。
3.根据权利要求1所述的基于深度神经网络的口音分类方法,其特征在于,所述基于CRNNs的前端编码器包括卷积神经网络(CNNs)、循环神经网络(RNNs)、位于CNNs与RNNs之间的序列共享的全连接层(FC);
所述CNNs中每层会对上一层特征图进行池化并增加特征图数目;
所述全连接层(FC)用来降低帧级维度;
所述RNNs用来进一步提取局部序列描述子{P1,...,PT′}。
4.根据权利要求1所述的基于深度神经网络的口音分类方法,其特征在于,所述语音识别任务分支网络包括编码器RNNs层、解码器;
所述RNNs层用来对共享局部序列描述符继续抽取高级语义特征;
所述解码器采用的类型包括CTC、Attention、CTC/Attention、Transformer。
5.根据权利要求1所述的基于深度神经网络的口音分类方法,其特征在于,在步骤S4中,对局部序列描述符的整合方式包括平均池化、RNN、聚集描述向量VLAD。
6.根据权利要求1所述的基于深度神经网络的口音分类方法,其特征在于,在步骤S5中,所述判别性损失函数的基本形式是softmax的变体函数+用于多分类任务的交叉熵函数;
所述交叉熵函数为:
其中M表示类别数目,N表示为样本个数,yic表示样本i是否为类c的标签,pic表示样本i为类c的概率;
所述softmax的变体函数包括CosFace、ArcFace、Circle-Loss。
7.一种基于深度神经网络的口音分类模型,其特征在于,主要包括:
语音输入模块,用于提取原始音频的帧级频域特征,并构建2D语音频谱作为网络输入X;
基于CRNNs的前端编码器,用于提取频谱X的局部序列描述符{P1,...,PT′};
语音识别任务分支网络,位于所述前端编码器之后,用来纠正训练过程中学习方向即抑制口音识别中的过拟合现象;
用于口音识别任务的核心分支网络,用于将所有局部序列描述符整合成一个全局口音特征、在全局口音特征后增设判别性损失函数来增强全局口音特征的判别能力、在全局口音特征后添加基于softmax的分类层用于口音预测;
分类结果输出模块,用于输出所述用于口音识别任务的核心分支网络的判别性损失函数和基于softmax的口音分类层,以及所述语音识别任务分支网络中的解码器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110052375.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种相控阵扫查装架防偏离装置
- 下一篇:一种多输出可充足充电多用电源电路