[发明专利]一种基于语谱图纹理特征的音频场景识别方法在审
| 申请号: | 202010091722.8 | 申请日: | 2020-01-22 |
| 公开(公告)号: | CN111276158A | 公开(公告)日: | 2020-06-12 |
| 发明(设计)人: | 徐翘楚;汪斌;陈淑聪;姜飞龙;朱海滨;李兴隆;张奥;毛凌航 | 申请(专利权)人: | 嘉兴学院 |
| 主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/51 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 314000 浙江省嘉兴市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 语谱图 纹理 特征 音频 场景 识别 方法 | ||
本发明涉及一种基于语谱图纹理特征的音频场景识别方法;本发明的具体步骤是:步骤(1)、将输入音频集随机划分成训练音频和测试音频;步骤(2)、将输入训练音频和测试音频提取出语谱图;步骤(3)、采用二维Gabor滤波器对训练音频和测试音频的语谱图进行变换;步骤(4)、对变换的语谱图求取不同像素距离和不同方向的灰度共生矩阵;步骤(5)、对四个方向的灰度共生矩阵计算二阶矩、熵、对比度和均匀度并组合成特征向量;步骤(6)、将训练音频提取特征向量合并音频场景类别输入到支持向量机进行训练,得到训练好的支持向量机;步骤(7)、将测试音频提取特征向量,送到训练好的支持向量机测试得到音频场景类别。
(一).技术领域
本发明属于音频处理领域,涉及一种音频场景识别方法,尤其涉及一种基于语谱图纹理特征的音频场景识别方法。
(二).背景技术
音频场景识别是即根据录制的环境音频信号判定当前所处的场景类别,它广泛应用于监控、智能手机和可穿戴设备领域,从音频监控设备、智能手机和可穿戴设备中录制的音频信号中监测到音频场景能帮助感知外部环境,与视频相比,音频信号有易于存储、便于分析、监控设备成本低廉和隐私保护更好等优点。传统的音频场景识别方法常提取音频信号的功率谱密度、梅尔倒谱系数(MFCC)等特征,并使用K近邻分类、隐马尔可夫模型等分类方法进行分类,Aucounturier从音频帧中提取MFCC作为特征,采用高斯混合模型(GMM)建模特征分布,并采用KL(Kullback-Leibler)距离进行音频场景识别;Chit[Chit.K.M,LinK.Z,et al,Audio-Based Action Scene Classification Using HMM-SVM Algorithm,International Journal of Advanced Research in Computing Engineering andTechnology,2013,2(4):]采用隐马尔可夫模型和支持向量机进行音频场景识别;Valenti[Valenti.M,Squartini.S,et al,A Convolutional Neural Network Approach forAcoustic Scene Classfication,International Joint Conference on NeuralNetworks,IEEE,2017.]将深度学习应用于音频场景识别中,采用卷积神经网络进行音频场景识别;Wang[Wang.Y,Neves.L,Audio-based Multimedia Event Detection using DeepRecurrent Neural Networks,IEEE International Conference on Acoustics,Speechand Signal Processing, IEEE,2016:2742-2746.]采用循环神经网络进行音频场景识别;但这些方法主要针对音频帧直接提取特征,并采用音频特征进行场景识别,忽略了音频数据的语谱图和变换域特征;针对该缺点,本发明提出一种新的音频场景识别方法,该方法先从音频数据中提取出语谱图,再将语谱图进行Gabor变换,并提取出Gabor变换的灰度共生矩阵二阶矩、熵、对比度和均匀度作为场景识别特征,充分考虑了语谱图的变换域特征,提高了音频场景识别精度。
(三).发明内容
本发明的目的是提供一种新的音频场景识别方法,本发明采用的具体步骤是:
步骤(1):将输入音频集随机划分成训练音频和测试音频;
步骤(2):将输入训练音频和测试音频提取出语谱图,并进行规范化处理,具体步骤如下:
步骤(2.1):对输入训练音频和测试音频进行分帧、加窗并进行离散傅里叶变换;采用公式如下:
其中,x为输入练音频和测试音频帧的帧号,z(x,m)为分帧后的输入训练音频和测试音频第x帧的数据,η(m)为汉明窗函数,M为一个音频帧的样本个数;Y(k)为第x帧音频的频谱;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于嘉兴学院,未经嘉兴学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010091722.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于视觉的产品缺陷检测装置
- 下一篇:一种显示屏及其制备方法和显示装置





