首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种情感识别模型的训练方法、情感识别方法及装置有效

申请号：	202110801470.8	申请日：	2021-07-15
公开（公告）号：	CN113327631B	公开（公告）日：	2023-03-21
发明（设计）人：	曾志平;徐易楠;康世胤	申请（专利权）人：	广州虎牙科技有限公司
主分类号：	G10L25/63	分类号：	G10L25/63;G10L25/30
代理公司：	北京品源专利代理有限公司 11332	代理人：	王瑞云
地址：	511400 广东省广州市番禺***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种情感识别模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种情感识别模型的训练方法，其特征在于，所述方法包括：

获取针对直播场景的音频样本数据集合，所述音频样本数据集合中的各音频样本数据具有预先标注的情感标签以及行为标签；

提取各音频样本数据中的音频特征，并对所述音频特征进行数据增强，获得音频特征集合；

将所述音频特征集合输入至初始识别模型，采用预设损失函数进行训练，生成情感识别模型，其中，所述初始识别模型是包括隐藏层以及NetVLAD层的深度神经网络模型；

所述获取针对直播场景的音频样本数据集合，包括：

获取初始音频样本数据集合，所述初始音频样本数据集合中的各音频样本数据具有预先标注的情感标签以及行为标签；

汇总所述初始音频样本数据集合中的各情感标签对应的音频样本数据的第一数量以及各行为标签对应的音频样本数据的第二数量；

根据所述第一数量对各情感标签对应的音频样本数据进行均衡，以及，根据所述第二数量对各行为标签对应的音频样本数据进行均衡，生成音频样本数据集合。

2.根据权利要求1所述的方法，其特征在于，所述对所述音频特征进行数据增强，获得音频特征集合，包括：

根据各音频样本数据的时长以及对应的音频特征，按照指定次数，随机抽取任意时长的数据作为新样本数据，并从对应音频样本数据中获取该新样本数据对应的音频特征；

将原有的各音频样本数据的音频特征以及各新样本数据的音频特征组成音频特征集合。

3.根据权利要求2所述的方法，其特征在于，所述音频特征包括频谱数据，所述对所述音频特征进行数据增强，获得音频特征集合，还包括：

对所述频谱数据按照预设策略进行增强；

将增强后的频谱数据添加到所述音频特征集合中。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一数量对各情感标签对应的音频样本数据进行均衡，包括：

根据最大的第一数量以及最小的第一数量，确定均衡系数；

对各情感标签对应的音频样本数据按照所述均衡系数进行复制；

从各情感标签对应的音频样本数据中随机抽取相同数量的音频样本数据，作为用于训练的音频样本数据。

5.一种情感识别方法，其特征在于，所述方法包括：

获取直播场景中的任意长度的目标音频流；

对所述目标音频流进行加窗处理，并提取窗口内的目标音频数据对应的目标音频特征集合；

将所述目标音频特征集合输入至根据权利要求1-4任一项中生成的情感识别模型中，由所述情感识别模型对所述目标音频特征集合进行处理，输出对应的多个情感标签的第一概率以及多个行为标签的第二概率；

根据多个所述第一概率以及多个所述第二概率，确定所述目标音频数据对应的目标行为以及所述目标行为下的目标情感标签。

6.根据权利要求5所述的方法，其特征在于，所述情感识别模型包括隐藏层以及NetVLAD层；所述由所述情感识别模型对所述目标音频特征集合进行处理，包括：

在所述情感识别模型中，由所述隐藏层从所述目标音频特征集合中提取隐藏特征；

将所述隐藏特征输入至所述NetVLAD层，由所述NetVLAD层对所述隐藏特征进行汇总，输出多个情感标签的第一概率以及多个行为标签的第二概率。

7.根据权利要求5或6所述的方法，其特征在于，所述根据多个所述第一概率以及多个所述第二概率，确定所述目标音频数据对应的目标行为以及所述目标行为下的目标情感标签，包括：

确定最大的第二概率对应的行为标签作为目标行为；

确定最大的第一概率，若所述最大的第一概率大于或等于预设阈值，则将该对应的情感标签作为所述目标行为下的目标情感标签；若所述最大的第一概率小于预设阈值，则将预设情感标签作为所述目标行为下的目标情感标签。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州虎牙科技有限公司，未经广州虎牙科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110801470.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于数据压缩的空时联合测向方法
下一篇：一种基于深度学习的肺部CT图像识别方法

同类专利

专利分类

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top