[发明专利]一种基于多模深度学习的双模态情感识别方法在审
| 申请号: | 201910951187.6 | 申请日: | 2019-10-08 |
| 公开(公告)号: | CN111242155A | 公开(公告)日: | 2020-06-05 |
| 发明(设计)人: | 赵小明;张石清 | 申请(专利权)人: | 台州学院 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州杭诚专利事务所有限公司 33109 | 代理人: | 尉伟敏 |
| 地址: | 318000 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 双模 情感 识别 方法 | ||
1.一种基于多模深度学习的双模态情感识别方法,其特征在于,包括步骤:
A)采集音视频信号,获取语音Mel频谱片段和与语音Mel频谱片段对应的视频片段,获得音频RGB图像三通道输入矩阵和视频RGB图像三通道输入矩阵,获得音频数据样本和视频数据样本;
B)构建音频深度卷积神经网络和视频深度卷积神经网络,利用音频数据样本训练音频深度卷积神经网络,获得高层次音频特征;利用视频数据样本训练深度卷积神经网络,获得高层次视频特征;
C)构建高层次的音视频统一特征,建立由全连接层构成的融合网络,融合网络最后一层全连接层与分类器相连;
D)将最后一层全连接层的输出聚合成全局特征,将全局特征输入到分类器中,获得音视频情感识别分类结果,验证融合网络的识别率。
2.根据权利要求1所述的一种基于多模深度学习的双模态情感识别方法,其特征在于,步骤A)中,获得音频数据样本包括步骤:
A1)采集一维的情感语音信号,采用N1个Mel滤波器和N2帧的文本窗大小,获得N1×N2的二维静态频谱片段特征;
A2)对二维静态频谱片段特征在时间轴上进行一阶求导,获得一阶求导系数;
A3)对二维静态频谱片段特征在时间轴上进行二阶求导,获得二阶求导系数;
A4)将语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为RGB图像的三通道,获得特征为N1×N2×3的音频RGB图像三通道输入矩阵;
A5)对特征为N1×N2×3的音频RGB图像三通道输入矩阵进行缩放处理,获得预设特征大小的音频RGB图像三通道输入矩阵;
A6)依次重复步骤A1)至A5),获得K个音频数据样本,记为{α1,α2,...,αK}。
3.根据权利要求2所述的一种基于多模深度学习的双模态情感识别方法,其特征在于,步骤A)中,获得视频数据样本包括步骤:
A11)选取与语音Mel频谱片段对应的视频片段最中心的一帧图像作为关键帧图像;
A22)对每一幅关键帧图像进行实时性人脸检测与定位;
A33)计算出人脸双眼瞳孔中心之间的距离,将双眼瞳孔中心之间的距离统一缩放到n个像素大小的距离;
A44)把图像裁切成包含嘴巴、鼻子、额头等关键表情部位的N3×N4×3大小区域图像;
A55)对N3×N4×3大小区域图像进行缩放处理,获得预设特征大小的视频RGB图像三通道输入矩阵;
A66)依次重复步骤A11)至A55),获得K个视频数据样本,记为{v1,v2,...,vK}。
4.根据权利要求3所述的一种基于多模深度学习的双模态情感识别方法,其特征在于,步骤A5)中,采用双线性内插法对特征为N1×N2×3的音频RGB图像三通道输入矩阵进行缩放处理;步骤A55)中,采用双线性内插法对N3×N4×3大小区域图像进行缩放处理。
5.根据权利要求1所述的一种基于多模深度学习的双模态情感识别方法,其特征在于,步骤B)中,对音频深度卷积神经网络和视频深度卷积神经网络进行初始化,所述卷积神经网络均包含5个卷积层、3个池化层和3个全连接层,所有池化层均采用平均池化,最后一层全连接层与分类器相连。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于台州学院,未经台州学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910951187.6/1.html,转载请声明来源钻瓜专利网。





