[发明专利]一种视音频识别方法及装置有效
申请号: | 201710295336.9 | 申请日: | 2017-04-28 |
公开(公告)号: | CN108804453B | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 黄欢;赵刚 | 申请(专利权)人: | 深圳荆虹科技有限公司 |
主分类号: | G06F16/432 | 分类号: | G06F16/432;G06K9/62;G06N3/04;G06N3/08;G10L15/16;G10L15/26 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
地址: | 518109 广东省深圳市龙华区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 识别 方法 装置 | ||
本发明提供一种视音频识别方法及装置,该方法包括:将待识别视音频输入识别模型进行识别,获得识别结果;其中,所述识别模型基于识别训练集的视频特征和音频特征融合后的结果更新有监督多模态特征融合网络和多层感知机而建立。由于训练集视频特征和音频特征的融合是基于模型层次的融合,整个过程是端对端的过程,提高了视频特征和音频特征融合的正确率,从而使识别模型达到准确识别视音频的目的,同时增强了应用的可扩展性,可应用于公共安全管理、影视创作和体育健身等领域。
技术领域
本发明涉及多媒体技术领域,更具体地,涉及一种视音频识别方法及装置。
背景技术
随着人类与计算机间交互方式和交互内容的变化,传统的交互方式(例如,键盘,鼠标和画面显示等)已难以满足人们的需求。这要求计算机能够获取多模式信息,包括图像、语音、文字等,进而完成一定的任务,获得期望输出。在主动获取多模式信息后,对其分别进行的处理以及信息融合处理是多模式处理的核心。
视音频信息融合是多模式信息融合的一种,它建立在获取特定任务的图像信息和声音信息的基础上,主要目的是获取统一的“感官体验”。现有的视音频融合方法主要为三类,已在文献“S T.Shivappa, M M.Trivedi,B D.Rao.Audiovisual information fusionin human–computer interfaces and intelligent environments:A survey[J].Proceedings of the IEEE,2010,98(10):1692-1715”中有较详细的叙述,分别是特征层次融合、模型层次融合和决策层次融合。
特征层次融合方法是将获取的图像特征和声音特征在最低层次进行整合,进而组成一个较大的特征向量用以表示具体时刻的视音频融合信息。模型层次融合方法是将图像信息和声音信息融合视作一个整体,在特定的模型内部进行融合,此种方法在自动语音识别和情感识别中应用较多,其中应用较为普遍的模型是隐马尔科夫模型和动态贝叶斯模型。决策层次融合方法是一种基于声音和图像各自分类结果的融合方法,它针对于将视音频主要的分类结果进行融合,而不注重内部交互。
但是基于特征层次的融合没有具体的理论支撑,图像特征和声音特征来自不同空间,不宜直接进行整合,并且此层次的融合很难让两个通道的特征保持同步,同时当训练集和测试集的状况发生变化的时候,实验效果不是很好。基于模型层次的融合是一次真正意义上有实际理论依据的多通道信息融合,虽然它与其他融合方法相比有时表现并不好,但它所达到的理论意义是值得肯定的,但此种方法存在模型局限性,只能用上述两类模型进行识别任务,不能进行扩展。决策层次的融合虽然有效的避免了类似于特征层次融合中特征向量过大的问题,但它对融合的假设建立在图像信息和声音信息是独立的基础上,这与事实相反,并且由于其不包含视音频内部的交互,因此并不是真正意义上的“整体大于局部之和”的实现。
不同的融合层次需要一定的理论背景和任务需求。当前计算机视音频信息融合已经在一些领域中的得到了应用,例如自动语音识别,目标定位及跟踪和情感识别等。
发明内容
针对上述的技术问题,本发明提供一种视音频识别方法及装置。
第一方面,本发明提供的一种视音频识别方法,包括:将待识别视音频输入识别模型进行识别,获得识别结果;其中,所述识别模型基于识别训练集的视频特征和音频特征融合后的结果更新有监督多模态特征融合网络和多层感知机而建立。
其中,所述方法进一步包括:S1,获取所述训练集中视音频的视频特征、音频特征及视音频对应的标签;S2,对所述视频特征和所述音频特征进行无监督多模态特征融合,并将获得的多模态融合特征输入有监督多模态特征融合网络进行有监督多模态特征融合;S3,将融合后的深度多模态融合特征输入多层感知机与所述视音频对应的标签进行识别,并根据识别误差更新所述有监督多模态特征融合网络和所述多层感知机,以建立识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳荆虹科技有限公司,未经深圳荆虹科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710295336.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多媒体资源封面展示方法及装置
- 下一篇:一种群画像方法、群画像装置及服务器