[发明专利]一种情感识别模型的训练方法、情感识别方法及装置有效

申请号：	202110801470.8	申请日：	2021-07-15
公开（公告）号：	CN113327631B	公开（公告）日：	2023-03-21
发明（设计）人：	曾志平;徐易楠;康世胤	申请（专利权）人：	广州虎牙科技有限公司
主分类号：	G10L25/63	分类号：	G10L25/63;G10L25/30
代理公司：	北京品源专利代理有限公司 11332	代理人：	王瑞云
地址：	511400 广东省广州市番禺***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种情感识别模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种情感识别模型的训练方法、情感识别方法及装置，该训练方法包括：获取针对直播场景的音频样本数据集合，所述音频样本数据集合中的各音频样本数据具有预先标注的情感标签以及行为标签；提取各音频样本数据中的音频特征，并对所述音频特征进行数据增强，获得音频特征集合；将所述音频特征集合输入至初始识别模型，采用预设损失函数进行训练，生成情感识别模型，其中，所述初始识别模型是包括隐藏层以及NetVLAD层的深度神经网络模型，丰富了输入至初始识别模型进行训练的特征数据的数量，从而提高了情感识别模型的识别准确率。

技术领域

本申请实施例涉及直播技术领域，尤其涉及一种情感识别模型的训练方法、情感识别方法及装置。

背景技术

随着神经网络技术的发展，人类的表情也可以通过机器进行识别。通过表情可以表达出人类的情感，在多个领域中都需要关注相应用户的情感，因此，情感的识别也被应用在各行各业中。人类的情感表达方式是多种多样的，主要有人脸表情、语音情感、上身姿态和语言文本等。其中，语音情感识别技术有着广泛的应用场景，但如何准确地识别语音情感仍然是一个有挑战性的任务。

在相关技术中，存在一些服务于VC(voice conversion声音转换)的情感识别方案，以及，基于SED(sound event detection声音事件检测)对一些音乐环境声音的识别方案。但在直播场景下，上述方案都不能满足对主播情感的识别，现有方案存在以下缺点：

1、准确率不够，尤其是在数据量不均衡的情况下；

2、VC只是识别特定说话人的情感，不能准确预测多个不同说话人的情感状态；

3、SED只是对环境音的识别，不适用于人的情感状态识别。

发明内容

本申请提供一种情感识别模型的训练方法、情感识别方法及装置，以解决现有技术在进行情感识别时准确率不高、不能预测多个人的情感状态等问题。

第一方面，本申请实施例提供了一种情感识别模型的训练方法，所述方法包括：

获取针对直播场景的音频样本数据集合，所述音频样本数据集合中的各音频样本数据具有预先标注的情感标签以及行为标签；

提取各音频样本数据中的音频特征，并对所述音频特征进行数据增强，获得音频特征集合；

将所述音频特征集合输入至初始识别模型，采用预设损失函数进行训练，生成情感识别模型，其中，所述初始识别模型是包括隐藏层以及NetVLAD层的深度神经网络模型。

第二方面，本申请实施例还提供了一种情感识别方法，所述方法包括：

获取直播场景中的任意长度的目标音频流；