[发明专利]一种基于双深度网络的多模式情感信息融合与识别方法有效
| 申请号: | 202010000791.3 | 申请日: | 2020-01-02 |
| 公开(公告)号: | CN111128242B | 公开(公告)日: | 2023-01-24 |
| 发明(设计)人: | 韩志艳;王健 | 申请(专利权)人: | 渤海大学 |
| 主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G06V40/16;G06N3/04;G06N3/08 |
| 代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李珉 |
| 地址: | 121013 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 网络 模式 情感 信息 融合 识别 方法 | ||
1.一种基于双深度网络的多模式情感信息融合与识别方法,其特征在于:包括以下步骤:
步骤1、情感信号获取;
首先诱发情感,再同步获取相应情感状态下的语音信号和面部表情信号,并将二者绑定存储,获得多个情感样本;
步骤2、对每个情感样本的情感信号进行预处理;
步骤2-1、语音信号预处理;
对获取的情感样本中的语音信号进行预处理,包括预加重、分帧加窗和端点检测;
步骤2-2、面部表情信号预处理;
对获取的情感样本中的面部表情信号,首先进行脸部定位,然后进行图像几何特性和光学特性的归一化处理;
步骤3、对每个情感样本中的情感特征参数进行提取;
步骤3-1、训练深度信念网络,并将预处理后的语音信号送入训练好的深度信念网络来自动提取语音信号中的情感特征;
步骤3-2、用深度卷积神经网络自动提取情感样本中的面部表情特征;
步骤3-2-1、建立深度卷积神经网络结构;所述深度卷积神经网络结构包括卷积层、最大池化层、第一组残差块、第二组残差块、平均池化层和全连接层;并分别在第一组残差块的始端与末端之间加入跨层连接支路,第二组残差块的始端与末端之间加入跨层连接支路;
所述第一组残差块包括两种类型的残差块,分别是ResNet-34和ResNet-50;第二组残差块包括三种类型的残差块,分别是ResNet-34、ResNet-50和ResNet-101;
步骤3-2-2、采用梯度下降算法训练建立好的深度卷积神经网络;
步骤3-2-3、将预处理后的面部表情信号作为训练好的深度卷积神经网络的输入,其输出即为面部表情特征参数;
步骤4、将每个情感样本中的情感特征参数进行组合,获得情感样本的组合特征向量;
将用深度信念网络提取的语音情感特征和用深度卷积神经网络自动提取的面部表情特征顺序组合起来获得情感样本的组合特征向量;
步骤5、基于AdaBoost算法和类可靠度实现情感识别;
步骤5-1、将获得的所有情感样本的组合特征向量构成一个集合称为组合特征向量集,并将该组合特征向量集等分成三份,分别作为训练样本集、可靠度预测样本集和测试样本集;
步骤5-2、通过对训练样本集做有放回的抽样,获得若干个子训练样本集;
步骤5-3、利用Adaboost算法对各子训练样本集分别进行训练,获得每个子训练样本集上的强分类器;所述强分类器的输出层有6个神经元,代表6种人类基本情感,即高兴、愤怒、惊奇、悲伤、恐惧和中性;
步骤5-4、用可靠度预测样本集中的数据作为各强分类器的测试样本来预测各强分类器输出各情感类别的正确率,作为各情感类别的可靠度值;
步骤5-5、将待测样本送入各强分类器进行识别,每个强分类器对每类情感均产生一个可能性比率;将各强分类器输出的每类情感的可靠度值与可能性比率作乘积,然后将各强分类器类别相同的乘积值累加,将累加值最大的情感类别作为最终的情感识别结果。
2.根据权利要求1所述的一种基于双深度网络的多模式情感信息融合与识别方法,其特征在于:步骤1所述获取相应情感状态下的语音信号和面部表情信号的具体方法为:利用麦克风接收语音数据后,再通过采样量化获得相应的语音信号;而面部表情信号则通过摄像机拍摄获得;
所述的采样量化的采样频率为11.025kHz、量化精度为16bit;所述的通过摄像机拍摄获得的每幅面部表情信号图像大小为256×256像素。
3.根据权利要求2所述的一种基于双深度网络的多模式情感信息融合与识别方法,其特征在于:步骤2-1所述预加重采用一阶数字预加重滤波器实现,预加重滤波器的系数取值为0.93~0.97;所述分帧加窗为以帧长256点的标准进行分帧,并对分帧后的数据加汉明窗处理;所述端点检测利用基于短时能零积和鉴别信息的语音端点检测法进行;步骤2-2所述脸部定位利用肤色模型实现;所述图像几何特性归一化根据左右两眼的坐标值旋转图像实现;所述图像光学特性的归一化处理先采用直方图均衡化方法对图像灰度做拉伸,然后对图像像素灰度值进行归一化处理,使标准人脸图像的像素灰度值为0,方差为1。
4.根据权利要求1所述的一种基于双深度网络的多模式情感信息融合与识别方法,其特征在于:步骤3-1所述深度信念网络包括四个隐含层,每层的每个单元连接到每个相邻层中的每个单元,没有层内连接,即使用多个受限玻尔兹曼机堆叠而成;
所述训练深度信念网络的具体方法为:
1)训练第一个受限玻尔兹曼机,其联合概率分布由能量函数指定,如下式所示:
其中,P(v,h;θ)为第一个受限玻尔兹曼机的联合概率,v为M维的可见层向量,M是可见层的神经元个数,h为N维的隐含层向量,N是隐含层的神经元个数,θ={a,b,W},W为权重矩阵,b为可见层的偏置向量,a为隐含层的偏置向量,Z(θ)为配分函数的归一化常数,如下公式所示:
其中,E(v,h;θ)为能量函数,公式为:
其中,Wij是可见层的第i个神经元和隐含层的第j个神经元之间的对称权值,bi是可见层的第i个神经元的偏置,aj是隐含层的第j个神经元的偏置,vi是可见层向量的第i个元素,hj是隐含层向量的第j个元素;
2)训练第二个受限玻尔兹曼机,并将第一个受限玻尔兹曼机的隐含层作为第二个受限玻尔兹曼机的可见层,并依此添加任意多层继续扩展,其中每个新的受限玻尔兹曼机对前一个受限玻尔兹曼机的样本建模。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渤海大学,未经渤海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010000791.3/1.html,转载请声明来源钻瓜专利网。





