[发明专利]一种视音频识别方法及装置有效
申请号: | 201710295336.9 | 申请日: | 2017-04-28 |
公开(公告)号: | CN108804453B | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 黄欢;赵刚 | 申请(专利权)人: | 深圳荆虹科技有限公司 |
主分类号: | G06F16/432 | 分类号: | G06F16/432;G06K9/62;G06N3/04;G06N3/08;G10L15/16;G10L15/26 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
地址: | 518109 广东省深圳市龙华区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 识别 方法 装置 | ||
1.一种视音频识别方法,其特征在于,包括:
将待识别视音频输入识别模型进行识别,获得识别结果;
其中,所述识别模型基于识别训练集的视频特征和音频特征融合后的结果更新有监督多模态特征融合网络和多层感知机而建立;
所述识别模型的建立方法,具体包括:
S1,获取所述训练集中视音频的视频特征、音频特征及视音频对应的标签;
S2,对所述视频特征和所述音频特征进行无监督多模态特征融合,并将获得的多模态融合特征输入有监督多模态特征融合网络进行有监督多模态特征融合;
S3,将融合后的深度多模态融合特征输入多层感知机与所述视音频对应的标签进行识别,并根据识别误差更新所述有监督多模态特征融合网络和所述多层感知机,以建立识别模型。
2.根据权利要求1所述的方法,其特征在于,所述S1进一步包括:
采用Viola-Jones算法提取所述训练集中视频数据的嘴部周围矩形区域,然后采用深度卷积神经网络获取初始视频特征;
采用海明窗对所述训练集中的音频数据进行分帧,然后使用快速傅里叶变换获取初始音频特征。
3.根据权利要求2所述的方法,其特征在于,所述S1还包括:通过主成分分析法分别对所述初始视频特征和所述初始音频特征进行降维处理,获得训练集的视频特征和音频特征,将所述训练集的视频特征与音频特征对应。
4.根据权利要求1所述的方法,其特征在于,所述S2进一步包括:将所述视频特征和音频特征输入深度多模态自动编码器进行无监督多模态特征融合,并将所述深度多模态自动编码器的共享层作为无监督多模态特征融合的结果。
5.根据权利要求1所述的方法,其特征在于,所述有监督多模态特征融合网络包括模态时态融合模型和时态融合模型,所述模态时态融合模型和所述时态融合模型均采用长短期记忆人工神经网络。
6.根据权利要求4或5所述的方法,其特征在于,所述深度多模态自动编码器采用交叉熵损失函数进行训练,所述有监督多模态特征融合网络和所述多层感知机均采用平方多标签转折点损失函数进行训练。
7.一种视音频识别装置,其特征在于,包括:
获取模块,用于获取所述训练集中视音频的视频特征、音频特征及视音频对应的标签;
融合模块,用于对所述视频特征和所述音频特征进行无监督多模态特征融合,并将获得的多模态融合特征输入有监督多模态特征融合网络进行有监督多模态特征融合;
模型建立模块,用于将融合后的深度多模态融合特征输入多层感知机与所述视音频对应的标签进行识别,并根据识别误差更新所述有监督多模态特征融合网络和所述多层感知机,以建立识别模型;
识别模块,用于将待识别视音频输入所述识别模型进行识别,获得识别结果。
8.一种视音频识别装置,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中,
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳荆虹科技有限公司,未经深圳荆虹科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710295336.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多媒体资源封面展示方法及装置
- 下一篇:一种群画像方法、群画像装置及服务器