[发明专利]一种多模态情感识别方法及装置在审
| 申请号: | 202010251145.4 | 申请日: | 2020-04-01 |
| 公开(公告)号: | CN111564164A | 公开(公告)日: | 2020-08-21 |
| 发明(设计)人: | 潘明明;田世明;李德智;龚桃荣;陈宋宋;宫飞翔;石坤;董明宇 | 申请(专利权)人: | 中国电力科学研究院有限公司;国家电网有限公司 |
| 主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/18;G10L25/24;G10L25/30;G10L15/04;G10L15/02;G06F40/30;G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
| 地址: | 100192 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 多模态 情感 识别 方法 装置 | ||
1.一种多模态情感识别方法,其特征在于,包括:
将获取的原始音视频信号进行数据切分,得到多个待检测情感片段和每个待检测情感片段对应的多个设定长度的子片段,其中,每个子片段均包括多重模态;
将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型,获得每个子片段的情感类别;
基于每个待检测情感片段中所有子片段的情感类别,分别对每个待检测情感片段进行情感识别,确定各待检测情感片段对应的情感类别;
其中,所述多模态情感识别网络模型基于捕捉各模态之间的非线性关系,形成情感分类的联合判别特征表示后,再进行情感类别识别;所述多重模态包括:视频片段、音频片段和所属待检测情感片段中由音频片段识别得到的文本。
2.如权利要求1所述的多模态情感识别方法,其特征在于,所述将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型,获得每个子片段的情感类别,包括:
对子片段的文本进行分词和词嵌入处理,基于词嵌入后的文本获得语义情感特征;
基于子片段中的视频片段和音频片段提取视频情感特征和音频情感特征;
将所述音频情感特征、视频情感特征和语义情感特征分别拉伸为一维向量并拼接,将拼接得到的一维向量输入多模态情感识别网络模型中的深度置信网络得到融合情感特征;
将所述融合情感特征输入到分类器,获得所述子片段的情感类别。
3.如权利要求2所述的多模态情感识别方法,其特征在于,所述基于子片段中的视频片段和音频片段提取视频情感特征和音频情感特征,包括:
从子片段的视频片段中随机选取一帧图像进行人脸检测,裁剪出人脸区域的图像;
从子片段的音频片段中提取梅尔倒谱;
将裁剪出人脸区域的图像作为多模态情感识别网络模型中CNN的输入,并将全连接层的输出作为视频情感特征;
将所述梅尔倒谱作为多模态情感识别网络模型中CRNN网络的输入,并将CRNN网络的隐藏层作为音频情感特征。
4.如权利要求2所述的多模态情感识别方法,其特征在于,所述对子片段的文本进行分词和词嵌入处理,基于词嵌入后的文本获得语义情感特征,包括:
对子片段的文本进行分词和词嵌入处理,将词嵌入后的文本作为多模态情感识别网络模型中LSTM网络的输入,并将LSTM网络隐藏层的输出作为语义情感特征。
5.如权利要求1所述的多模态情感识别方法,其特征在于,所述基于每个待检测情感片段中所有子片段的情感类别,分别对每个待检测情感片段进行情感识别,确定各待检测情感片段对应的情感类别,包括:
基于每个待检测情感片段中所有子片段的情感类别组成的情感类别列表进行投票,选取出现概率最大的情感类别作为每个待检测情感片段的情绪识别结果;
基于训练好的支撑向量机分类模型对每个待检测情感片段的情绪识别结果进行时序分析,确定各待检测情感片段对应的情感类别。
6.如权利要求5所述的多模态情感识别方法,其特征在于,所述基于训练好的支撑向量机分类模型对每个待检测情感片段的情绪识别结果进行时序分析,确定各待检测情感片段对应的情感类别,包括:
将待检测情感片段之前的多个待检测情感片段以及其属于各情感类别的概率、所述待检测情感片段属于各情感类别的概率和所述待检测情感片段的情绪识别结果的概率带入训练好的支撑向量机分类模型;
基于所述支撑向量机分类模型的输出结果判断多模态情感识别算法识别出得情感类别是否合理,如果合理,则将当前情绪识别结果作为所述待检测情感片段的最终情感识别结果,如不合理,则从所述待检测情感片段属于的其它情感类别中选择概率最大的类别作为所述待检测情感片段对应的情感类别。
7.如权利要求1所述的多模态情感识别方法,其特征在于,所述将获取的原始音视频信号进行数据切分,得到多个待检测情感片段和每个待检测情感片段对应的多个设定长度的子片段,包括:
将原始音视频信号基于设置的第一时间长度依次进行截取,生成多个待检测情感片段;
将每个待检测情感片段基于设置的第二时间长度进行均等切分,获得各待检测情感片段对应的多个子片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电力科学研究院有限公司;国家电网有限公司,未经中国电力科学研究院有限公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010251145.4/1.html,转载请声明来源钻瓜专利网。





