[发明专利]一种基于因果特征抽取的域自适应跨库语音情感识别方法在审
| 申请号: | 202211102845.2 | 申请日: | 2022-09-09 |
| 公开(公告)号: | CN115602197A | 公开(公告)日: | 2023-01-13 |
| 发明(设计)人: | 傅洪亮;汪洋;耿磊;单帅;于航;康超男;陶华伟;庄志豪;刘曼;杨静;郭歆莹;徐志军;程晓林 | 申请(专利权)人: | 河南工业大学 |
| 主分类号: | G10L25/63 | 分类号: | G10L25/63 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 450001 河南省郑州市高新*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 因果 特征 抽取 自适应 语音 情感 识别 方法 | ||
1.一种基于因果特征抽取的域自适应跨库语音情感识别方法,其特征在于该方法包括:
(1)使用两个语音数据库,分别作为训练语音库和测试语音库,其中,训练语音库包含多段语音及其对应的情感类别标签,测试数据库中仅包含待识别语音数据;
(2)利用声学低维描述子处理语音片段,并利用统计函数对获得值进行扩充,将扩充后得到的数据拼接为向量,作为语音情感特征;
(3)建立基于因果特征抽取的域自适应模型,利用训练语音情感特征和测试语音情感特征对模型进行训练,通过域自适应和因果特征抽取,得到一个从训练数据泛化到测试数据的鲁棒模型,模型损失回传,优化网络参数;
(4)重复步骤(3),直至训练达到预设的轮次,完成模型优化,对训练语音数据进行情感分类。
2.根据权利要求1所述的基于因果特征抽取的域自适应跨库语音情感识别方法,其特征在于:步骤(2)具体包括:
(2-1)对于训练和测试语音数据,计算其声学低维描述子的值,包括过零率、帧能量均方根、基因频率和梅尔谱频率倒谱系数;
(2-2)对于(2-1)计算得到的声学低维描述子的值,应用统计函数处理进行扩充,包括均值,标准差,最大值以及偏度。
3.根据权利要求1所述的基于因果特征抽取的域自适应跨库语音情感识别方法,其特征在于:步骤(3)包括:
(3-1)基于因果特征抽取的域自适应模型总体损失设计为:
式中,为训练数据的分类损失,为训练数据和测试数据的特征分布对齐损失,为因果损失;
(3-2)获取步骤(2)提取到的语音情感特征,输入一维卷积神经网络进行特征处理,利用相应的特征表征完成源域上的情感分类,以指导网络训练,模型的源域分类损失设计为:
式中表示训练过程中的批次大小,取值为1或0,表示样本属于第类情感类型的预测概率;
(3-3)使用最大均值差异(Maximum Mean Discrepancy, MMD)度量训练数据和测试数据的特征分布距离,并进行对齐,从而完成模型对测试数据的适应,特征分布距离损失设计为:
式中为再生希尔伯特空间,为特征映射函数,和分别为处理后的训练数据和测试数据特征;
(3-4)将源域特征通过反卷积得到与原始特征一致的维度,构造相关性矩阵以度量特征在重构前后相同维度的相关性以及不同维度的独立性,相关性矩阵设计为:
式中和分别表示原始特征和卷积重构后的特征,表示特征维度。
4.将相关性矩阵优化为单位阵,获得特征与标签间的因果关系,因果损失设计为:
根据权利要求1所述的基于因果特征抽取的域自适应跨库语音情感识别方法,其特征在于:步骤(4)优化网络参数包括:
(4-1)优化器设定为随机梯度下降(Stochastic gradient descent,SGD),初始学习率设置为0.1-0.001;
(4-2)在每一轮计算损失函数后,根据损失函数对网络中各个参数的梯度,进行参数更新,优化特征处理网络,更新过程如下:
式中为网络参数,为学习率,为参数梯度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211102845.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于岩溶地质的可纠偏盾构机
- 下一篇:一种新型心电图机导联线系统





