[发明专利]一种基于卷积神经网络和多核学习SVM的关键音频检测方法有效
申请号: | 201910319987.6 | 申请日: | 2019-04-19 |
公开(公告)号: | CN110047506B | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 朱宸都;应娜;李怡菲;蔡哲栋;刘兆森;杨鹏 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L25/03;G10L25/48;G06K9/62;G06N3/04 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
地址: | 310018 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 多核 学习 svm 关键 音频 检测 方法 | ||
本发明提出一种基于卷积神经网络和多核学习SVM的关键音频检测方法,包括步骤:S1:处理音频数据集,得到音频原始波形序列数据集和音频声谱图数据集;S2:建立提取音频原始波形序列特征的一维卷积神经网络和提取音频声谱图特征的二维卷积神经网络;S3:使用音频的原始波形序列数据集和声谱图数据集分别训练一维和二维卷积神经网络,得到对应的两个特征提取的网络模型;S4:输入音频的原始波形序列和声谱图分别至对应的两个网络模型,提取对应的特征;S5:输入两类特征至多核支持向量机,构建基于特征融合模型的核函数,进行音频分类。本发明所述检测方法将卷积神经网络从音频语谱图和音频原始波形中提取的特征进行融合,提高了检测识别准确率。
技术领域
本发明属于音频监控技术领域,主要涉及安防领域,具体来说,即安防领域下音频监控中的关键音频检测方法。
背景技术
随着多媒体技术发展,越来越多公共场所安装了音频监控以保障公共安全。声音信息中包含了不亚于图像信息的信息量,通过监控识别公共场合声音信息,可以迅速发现所关注的事件,从而做出应对。声音信息具有良好的实时性,对视频监控具有良好的辅助作用。
卷积神经网络本质上是多层感知机模型的简单扩展,然而对于他们系统架构的更改带来更多的不同,使得他们更加适合用于图片分类,典型的卷积神经网络包含众多的网络层堆叠在一起:输入层、一群卷基层和池化层,有限数量的全连接层和输出层。
多核学习是一种特征融合方法,可以处理异质或不规则数据,巨大的样本量,样本的不均匀分布以及其他问题,在多核学习中,多种特征被组织成组,并且每个组拥有自己的核函数。这些不同的核函数被组合成一个新的核函数,该核函数用于分类器中。
发明内容
本发明提出一种基于卷积神经网络和多核学习SVM的音频事件检测方法,利用多核学习方法将卷积神经网络从音频语谱图和音频原始波形中提取的特征进行融合的方法,以达到两种特征互补来提高音频事件检测识别准确率的目的。
为达到上述技术目的,本发明采取如下技术方案:
一种基于卷积神经网络和多核学习SVM的关键音频检测方法,包括步骤:
S1:处理音频数据集,得到音频原始波形序列数据集和音频声谱图数据集;
S2:分别建立提取音频原始波形序列特征的一维卷积神经网络和提取音频声谱图特征的二维卷积神经网络;
S3:使用音频的原始波形序列数据集和声谱图数据集分别训练一维卷积神经网络和二维卷积神经网络,得到对应的两个特征提取的网络模型;
S4:输入音频的原始波形序列和声谱图分别至对应的两个网络模型,提取得到对应的特征;
S5:输入两类特征至多核支持向量机,构建基于特征融合模型的核函数,进行音频分类。
进一步地,所述步骤S3具体实施步骤如下:
S3.1:音频原始波形序列输入至一维卷积神经网络中,输出该波形对应于各个音频类别的可能性,随着网络输入端和输出端的数据不断更新,更新网络参数,直到训练结束;
S3.2:音频声谱图输入至二维卷积神经网络中,输出该声谱图对应于各个音频类别的可能性,随着网络输入端和输出端的数据不断更新,更新网络参数,直到训练结束。
进一步地,所述数据集中含有多种类别音频事件,各个类音频数量大约相同,都是安全监控中的关键音频事件;
进一步地,所述一维和二维卷积神经网络结构中均包含卷基层,池化层和BatchNormalization层;
进一步地,所述多核支持向量机,采用不同的特征向量来得到不同的核函数,并将其线性加权获得新的核函数。
本发明与现有技术相比,具有如下优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910319987.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于神经网络的全语通的实现方法及相关产品
- 下一篇:一种声源识别方法及装置