[发明专利]一种情感识别模型的训练方法、情感识别方法及装置有效
申请号: | 202110801470.8 | 申请日: | 2021-07-15 |
公开(公告)号: | CN113327631B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 曾志平;徐易楠;康世胤 | 申请(专利权)人: | 广州虎牙科技有限公司 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 王瑞云 |
地址: | 511400 广东省广州市番禺*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 情感 识别 模型 训练 方法 装置 | ||
本申请公开了一种情感识别模型的训练方法、情感识别方法及装置,该训练方法包括:获取针对直播场景的音频样本数据集合,所述音频样本数据集合中的各音频样本数据具有预先标注的情感标签以及行为标签;提取各音频样本数据中的音频特征,并对所述音频特征进行数据增强,获得音频特征集合;将所述音频特征集合输入至初始识别模型,采用预设损失函数进行训练,生成情感识别模型,其中,所述初始识别模型是包括隐藏层以及NetVLAD层的深度神经网络模型,丰富了输入至初始识别模型进行训练的特征数据的数量,从而提高了情感识别模型的识别准确率。
技术领域
本申请实施例涉及直播技术领域,尤其涉及一种情感识别模型的训练方法、情感识别方法及装置。
背景技术
随着神经网络技术的发展,人类的表情也可以通过机器进行识别。通过表情可以表达出人类的情感,在多个领域中都需要关注相应用户的情感,因此,情感的识别也被应用在各行各业中。人类的情感表达方式是多种多样的,主要有人脸表情、语音情感、上身姿态和语言文本等。其中,语音情感识别技术有着广泛的应用场景,但如何准确地识别语音情感仍然是一个有挑战性的任务。
在相关技术中,存在一些服务于VC(voice conversion声音转换)的情感识别方案,以及,基于SED(sound event detection声音事件检测)对一些音乐环境声音的识别方案。但在直播场景下,上述方案都不能满足对主播情感的识别,现有方案存在以下缺点:
1、准确率不够,尤其是在数据量不均衡的情况下;
2、VC只是识别特定说话人的情感,不能准确预测多个不同说话人的情感状态;
3、SED只是对环境音的识别,不适用于人的情感状态识别。
发明内容
本申请提供一种情感识别模型的训练方法、情感识别方法及装置,以解决现有技术在进行情感识别时准确率不高、不能预测多个人的情感状态等问题。
第一方面,本申请实施例提供了一种情感识别模型的训练方法,所述方法包括:
获取针对直播场景的音频样本数据集合,所述音频样本数据集合中的各音频样本数据具有预先标注的情感标签以及行为标签;
提取各音频样本数据中的音频特征,并对所述音频特征进行数据增强,获得音频特征集合;
将所述音频特征集合输入至初始识别模型,采用预设损失函数进行训练,生成情感识别模型,其中,所述初始识别模型是包括隐藏层以及NetVLAD层的深度神经网络模型。
第二方面,本申请实施例还提供了一种情感识别方法,所述方法包括:
获取直播场景中的任意长度的目标音频流;
对所述目标音频流进行加窗处理,并提取窗口内的目标音频数据对应的目标音频特征集合;
将所述目标音频特征集合输入至第一方面中生成的情感识别模型中,由所述情感识别模型对所述目标音频特征集合进行处理,输出对应的多个情感标签的第一概率以及多个行为标签的第二概率;
根据多个所述第一概率以及多个所述第二概率,确定所述目标音频数据对应的目标行为以及所述目标行为下的目标情感标签。
第三方面,本申请实施例还提供了一种情感识别模型的训练装置,所述装置包括:
样本数据获取模块,用于获取针对直播场景的音频样本数据集合,所述音频样本数据集合中的各音频样本数据具有预先标注的情感标签以及行为标签;
音频特征提取模块,用于提取各音频样本数据中的音频特征;
数据增强模块,用于对所述音频特征进行数据增强,获得音频特征集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州虎牙科技有限公司,未经广州虎牙科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110801470.8/2.html,转载请声明来源钻瓜专利网。