[发明专利]低信噪比声场景下声音事件的识别方法有效
| 申请号: | 201510141907.4 | 申请日: | 2015-03-30 |
| 公开(公告)号: | CN104795064B | 公开(公告)日: | 2018-04-13 |
| 发明(设计)人: | 李应;林巍 | 申请(专利权)人: | 福州大学 |
| 主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L15/06;G10L15/20 |
| 代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 薛金才 |
| 地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 低信噪 声场 声音 事件 识别 方法 | ||
技术领域
本发明涉及一种能够在各种声场景下、有效提高低信噪比下识别率的低信噪比声场景下声音事件的识别方法。
背景技术
近来,声音事件检测(识别)引起广泛关注。声音事件检测对于音频取证[1]、环境声音识别[2]、生物声音监控[3]、声场景分析[4]、环境安全监控[5],实时军事关注点的检测[6]、定位跟踪和声源分类[7],病人监护[8-12]、非正常事件监测[13-18]及故障诊断、递交早期维护的关键信息[21,22]等都具有重要意义。声场景中检测(识别)声音事件,试图在音频数据中识别出隐藏在它们中的真实事件。
由于环境不同,与声音事件同时存在的声场景也不同,且常以非稳定的形式出现。因此,在各种声场景中,尤其低信噪比下有效地识别声音事件,还是一个挑战性的任务。相关工作目前已有一定的研究[23-40]。这些研究主要包括声音信号特征的提取与对这些特征的分类及识别。对于特征的抽取,其中常见的有效方法有两类,即1)时间与频率相结合的特征,2)声谱图及其相关的特征。关于时间与频率相结合的特征,主要有时间、频率特征、小波域特征[23],Gabor字典匹配追踪算法提取的特征[24,25],基于小波包(Wavelet Packets)的过滤[26],高通滤波和MFCC的扩展特征[27],分解成多个交叉的超级帧,提出基于随机回归森林[28]。关于声谱图极其相关的特征,主要有子带功率分布(subband power distribution, SPD), 局部频谱特征(Local Spectrogram Feature, LSF),Gabor变换,余弦对数散射(Cosine Log Scattering, CLS)等[29-40]。对于声音事件及场景声音的分类,常见的有效方法有支持向量机(Support Vector Machine, SVM)[24,29,32,37,40],高斯混合模型(Gaussian Mixture Model,GMM)[23,31,39],k-最近邻(k-nearest neighbor, k-NN)[30, 34],核费舍尔判别分析(Kernel Fisher Discriminant Analysis, KFDA)[29,38],广义霍夫变换(Generalised Hough Transform, GHT)的投票[19],GMM与隐马尔科夫模型(Hidden Markov Model, HMM)相结合[35],极大似然(Maximum Likelihood, ML)[36]。
这些方法对于声音事件的识别都取得一定的效果。然而,特征提取过程都有不同程度地对声音事件的特征即待测声音信号的特征本身的结构造成影响。虽然用于特征缺失的谱掩饰估算算法能有效去除被场景声音干扰的声音事件的特征[34],但也屏蔽了声音事件的部分特征。而在白噪音的情况下,短时估计特征掩盖范围的方法[41],容易滤除大部分声音事件特征,识别效果很差。谱减法[42]对所有频段的信号都进行了处理,不可避免地破坏了声音事件中的特征。虽然多频带谱减法[43]对谱减法做出了改进,但还存在破坏了声音事件特征的情况。
为了避免在抑制场景声音的同时,对声音事件的信号结构的影响,从而在低信噪比下得到了更高的识别率,本文提出用场景声音与声音事件混合的声音来训练分类器。在分类器模型的训练过程中,场景声音按不同信噪比与声音事件进行叠加,得到声音事件在各种声场景下的声音数据,对分类器进行训练。在检测处理中,通过希尔伯特-黄变换(Hilbert-Huang transform, HHT)变换中的经验模态分解(Empirical Mode Decomposition, EMD)[44]检测声音事件和场景声音的边界点。根据检测出的声音事件和场景声音的边界点,估计声音事件的信噪比和场景声音种类。从而,用信噪比区间和场景声音种类,选择分类器对声音数据中的声音事件进行识别。
对于各种声音事件及其场景声音的信号特征,本文总结相关文献[45-48]和已有工作[49],采用声谱图的灰度共生矩阵(Gray Level Co-occurrence Matrix,GLCM)与高阶奇异值分解(Higher-Order Singular Value Decomposition,HOSVD)提取声音信号的特征。对于声音事件及场景声音的分类与识别,我们采用随机森林矩阵(Random forests Matrix, RFM)、随机森林[50](Random forests,RF)和多随机森林(Multi Random forests,M-RF)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510141907.4/2.html,转载请声明来源钻瓜专利网。





