[发明专利]一种多模态情绪识别方法、装置、电子设备及存储介质在审
申请号: | 202211636214.9 | 申请日: | 2022-12-20 |
公开(公告)号: | CN115620268A | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 李少君;汪骏;张富国 | 申请(专利权)人: | 深圳市徐港电子有限公司 |
主分类号: | G06V20/59 | 分类号: | G06V20/59;G06V20/40;G06V40/16;G06V10/26;G06V10/774;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 刘凤 |
地址: | 518100 广东省深圳市龙岗区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多模态 情绪 识别 方法 装置 电子设备 存储 介质 | ||
本申请涉及情绪识别技术领域,具体提供一种多模态情绪识别方法、装置、电子设备及存储介质,利用数据标注将要处理的语音和图像在时间维度上进行对齐,多模态情绪识别模型中利用resnet18网络和语音模型将两个模态数据在特征层进行融合,最后利用LSTM网络捕获数据中的上下文信息,输出情绪二维值,以根据情绪二维值得到驾驶人员你的当前情绪,本申请提供的一种多模态情绪识别方法,利用语音和图像两个模态进行情绪识别,并且进行两个模态数据融合时,参数量较小,利于在移动端部署该多模态情绪识别模型,符合汽车座舱系统车机主板的的计算能力,同时提升对驾驶人员情绪识别的准确率。
技术领域
本申请涉及情绪识别技术领域,具体而言,涉及一种多模态情绪识别方法、装置、电子设备及存储介质。
背景技术
智能车辆是一个集环境感知、规划决策、多等级辅助驾驶等功能于一体的综合系统,它集中运用了计算机、现代传感、信息融合、通讯、人工智能及自动控制等技术,是典型的高新技术综合体。目前智能汽车主要朝着智能座舱和智能驾驶两大方向发展,而智能座舱实现难度相对低且性价比更高,已经成为智能化主线上率先落地场景,其中,情绪识别是智能座舱系统的基础功能之一,通过情绪识别功能识别出的驾驶人员的情绪特征,进而自动调节智能座舱系统的音乐、灯光等场景,最为重要的是能够对“路怒症”加以预防,从而提升驾驶体验感以及安全性能。
现有技术中,智能座舱系统一般采用单一模态进行情绪识别,如通过摄像头仅仅采集驾驶人员面部特征来识别驾驶人员情绪的方式,导致情绪识别准确率不高;尽管,在其他应用领域,存在通过多模态进行情绪识别的方式,但是其为了解决多模态间的融合问题,计算量太大,并不适用于智能座舱的移动端。
发明内容
有鉴于此,本申请的目的在于提供一种多模态情绪识别方法、装置、电子设备及存储介质,通过参数量较小的多模态情绪识别模型识别驾驶人员的情绪,能够提高情绪识别的准确率,满足智能座舱的移动端应用。
本申请实施例提供的一种多模态情绪识别方法,应用于汽车座舱系统,所述方法包括以下步骤:
获取驾驶人员的视频数据;
对所述视频数据进行预处理,包括:从所述视频数据中提取包含驾驶人员人脸的图像数据,以及从所述视频数据中提取音频数据,并提取所述音频数据的梅尔倒谱系数特征;
基于训练好的多模态情绪识别模型,根据输入的所述图像数据和所述梅尔倒谱系数特征得到关于所述驾驶人员的情绪二维值,以根据所述情绪二维值得到驾驶人员的当前情绪,其中,所述情绪二维值包括情绪的强烈程度值和情绪的积极程度值。
在一些实施例中,所述从所述视频数据中提取包含驾驶人员人脸的图像数据,包括以下步骤:
对所述视频数据按照设定的时间间隔抽帧一张图片;
对获取的每张图片进行人脸检测并获取含驾驶人员人脸的图像数据,包括:获取每一张图片中驾驶人员人脸的坐标;基于获取的驾驶人员人脸的坐标对图片进行裁剪,得到驾驶人员人脸块图像;对得到的所述驾驶人员人脸块图像进行尺寸变换和归一化处理得到包含驾驶人员人脸的图像数据。
在一些实施例中,通过以下方式提取所述音频数据的梅尔倒谱系数特征:
按照设定的时间间隔对所述音频数据进行分割,并对分割的每个时间间隔段的音频数据进行傅里叶变换得到对应的信号频谱;
将得到的所述信号频谱通过Mel滤波器得到Mel频谱;
对得到的所述Mel频谱进行倒谱分析得到梅尔倒谱系数特征。
在一些实施例中,所述多模态情绪识别模型包括resnet18网络、卷积模块、LSTM网络,所述基于训练好的多模态情绪识别模型,根据输入的所述图像数据和所述梅尔倒谱系数特征得到关于所述驾驶人员的情绪二维值,包括以下步骤:
将提取的包含驾驶人员人脸的图像数据输入resnet18网络,得到图像特征图;
将提取的音频数据的梅尔倒谱系数特征输入四层卷积模块,得到语音特征图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市徐港电子有限公司,未经深圳市徐港电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211636214.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于电机轴承预紧力控制的方法
- 下一篇:液冷储能系统以及状态检测方法、装置