[发明专利]一种基于卷积神经网络和多核学习SVM的关键音频检测方法有效

申请号：	201910319987.6	申请日：	2019-04-19
公开（公告）号：	CN110047506B	公开（公告）日：	2021-08-20
发明（设计）人：	朱宸都;应娜;李怡菲;蔡哲栋;刘兆森;杨鹏	申请（专利权）人：	杭州电子科技大学
主分类号：	G10L25/30	分类号：	G10L25/30;G10L25/03;G10L25/48;G06K9/62;G06N3/04
代理公司：	浙江千克知识产权代理有限公司 33246	代理人：	周希良
地址：	310018 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于卷积神经网络多核学习 svm 关键音频检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种基于卷积神经网络和多核学习SVM的关键音频检测方法，包括步骤：S1：处理音频数据集，得到音频原始波形序列数据集和音频声谱图数据集；S2：建立提取音频原始波形序列特征的一维卷积神经网络和提取音频声谱图特征的二维卷积神经网络；S3：使用音频的原始波形序列数据集和声谱图数据集分别训练一维和二维卷积神经网络，得到对应的两个特征提取的网络模型；S4：输入音频的原始波形序列和声谱图分别至对应的两个网络模型，提取对应的特征；S5：输入两类特征至多核支持向量机，构建基于特征融合模型的核函数，进行音频分类。本发明所述检测方法将卷积神经网络从音频语谱图和音频原始波形中提取的特征进行融合，提高了检测识别准确率。

技术领域

本发明属于音频监控技术领域，主要涉及安防领域，具体来说，即安防领域下音频监控中的关键音频检测方法。

背景技术

随着多媒体技术发展，越来越多公共场所安装了音频监控以保障公共安全。声音信息中包含了不亚于图像信息的信息量，通过监控识别公共场合声音信息，可以迅速发现所关注的事件，从而做出应对。声音信息具有良好的实时性，对视频监控具有良好的辅助作用。

卷积神经网络本质上是多层感知机模型的简单扩展，然而对于他们系统架构的更改带来更多的不同，使得他们更加适合用于图片分类，典型的卷积神经网络包含众多的网络层堆叠在一起：输入层、一群卷基层和池化层，有限数量的全连接层和输出层。

多核学习是一种特征融合方法，可以处理异质或不规则数据，巨大的样本量，样本的不均匀分布以及其他问题，在多核学习中，多种特征被组织成组，并且每个组拥有自己的核函数。这些不同的核函数被组合成一个新的核函数，该核函数用于分类器中。

发明内容

本发明提出一种基于卷积神经网络和多核学习SVM的音频事件检测方法，利用多核学习方法将卷积神经网络从音频语谱图和音频原始波形中提取的特征进行融合的方法，以达到两种特征互补来提高音频事件检测识别准确率的目的。

为达到上述技术目的，本发明采取如下技术方案：

一种基于卷积神经网络和多核学习SVM的关键音频检测方法，包括步骤：

S1：处理音频数据集，得到音频原始波形序列数据集和音频声谱图数据集；

S2：分别建立提取音频原始波形序列特征的一维卷积神经网络和提取音频声谱图特征的二维卷积神经网络；