[发明专利]低信噪比声场景下声音事件的识别方法有效

申请号：	201510141907.4	申请日：	2015-03-30
公开（公告）号：	CN104795064B	公开（公告）日：	2018-04-13
发明（设计）人：	李应;林巍	申请（专利权）人：	福州大学
主分类号：	G10L15/14	分类号：	G10L15/14;G10L15/06;G10L15/20
代理公司：	福州元创专利商标代理有限公司35100	代理人：	薛金才
地址：	350108 福建省福州市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	低信噪声场声音事件识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种低信噪比声场景下声音事件的识别方法，其特征在于：包括如下步骤，

步骤S1：随机森林矩阵的训练与生成：将声音事件样本集中的已知声音事件样本和场景声音样本集中的已知场景声音样本进行声音混合，得到混合声音信号集，并存放于训练声音集中，将所述训练声音集中的声音信号通过GLCM-HOSVD生成训练声音集的特征集，对该训练声音集的特征集进行训练，生成随机森林矩阵；

步骤S2：场景声音类型判别随机森林的训练与生成：对场景声音样本集中的已知场景声音样本进行GLCM-HOSVD，生成场景声音样本集的特征集，并对该场景声音样本集的特征集进行训练，生成场景声音类型判别随机森林；

步骤S3：对待测声音事件进行识别：

第一步，将待测声音信号通过EMD分解出场景声音和声音事件，并计算出该待测声音事件的信噪比；

第二步，计算待测场景声音和待测声音事件的特征值，并将所述待测场景声音的特征值输入所述步骤S2生成的场景声音类型判别随机森林，检测出待测场景声音类型；

第三步，通过所述待测场景声音类型和待测声音事件的信噪比，从所述步骤S1生成的随机森林矩阵中选择进行声音事件识别的随机森林；

第四步，将所述待测声音事件的特征值通过第三步所选择的随机森林进行识别得到声音类型。

2.根据权利要求1所述的低信噪比声场景下声音事件的识别方法，其特征在于：所述步骤S3中的第一步的具体实现过程如下，

将待测声音信号y(t)通过EMD，EMD能依据信号自身的特性将待测声音信号y(t)自适应地分为n级固有模态函数的线性叠加，即

y(t)=Σi=1nLi(t)+ri(t)---(1)]]>

其中，r_i(t)为残余函数，L_i(t)为n级固有模态函数；

在n级固有模态函数L_i(t)中，1级固有模态函数L₁(t)主要包含噪音成分，有效声音成分极少，所述噪音成分即场景声音部分，有效声音成分即声音事件部分；因此，我们仅选取2-6级固有模态函数，即取i＝2,3,…,6，用于对待测声音端点的检测；用第i级固有模态函数L_i(t)进行待测声音端点检测的过程具体如下，

S311：对第i级固有模态函数L_i(t)做预处理

e_i(t)＝|H{L_i(t)}|+L_i(t)(2)

其中，H{L_i(t)}表示对固有模态函数做希尔伯特变换；

S312：对e_i(t)进行平滑

Ei(t)=1σΣj=t-σ2j=t+σ2ei(j)---(3)]]>

其中，σ为平滑窗口，取采样率的0.05倍；

S313：对E_i(t)归一化

Fi(t)=Ei(t)-mean(E(t))max[Ei(t)-mean(E(t))]---(4)]]>

S314：计算声音事件等级S_level、场景声音等级N_level和初始化场景声音等级阀值T

S_level＝mean[F_i(t)](5)

N_level＝β∑F_i(t)(6)

T＝αS_level(7)

其中，α，β为门限值参数，取α＝4，β＝0.25；

S315：计算F_i(t)在第k个窗口的平均值

F&OverBar;i(k)=Σt=k·Wd(k+1)·WdFi(t)Wd---(8)]]>

其中，k为窗口索引，W_d为窗长，取信号采样率0.02倍；

S316：对是否存在声音事件进行判断

若声音事件存在，跳转至步骤S318；

S317：对场景声音进行动态估计，更新场景声音等级

Nlevel(n)=F&OverBar;i(k)F&OverBar;i(k)≤TΣn=1kNlevel(n)kF&OverBar;i(k)>T---(10)]]>

其中，N_level(n)为第n个窗口的场景声音等级，在更新场景声音等级N_level(n)后跳转至步骤S319；

S318：更新场景声音等级阀值

T=θWdF&OverBar;i(k)---(11)]]>

其中，θ为常数，取θ＝0.2；

S319：若场景声音等级阀值在之前的循环中被更新过，则更新声音事件等级S_level

S_level＝N_level+λ|T-N_level|(12)

其中，λ＝0.5，作为声音事件等级更新的权值；

S3110：k＝k+1，移动窗口，若窗口没有结束跳转至步骤S315，否则循环结束；

选取的2-6级固有模态函数L_i(t)经上述步骤S311至S3110的处理，得到5种不同的端点检测结果，再经投票确定最终端点检测结果；

将声音信号y(t)分离为声音事件段s(t)与场景声音段n(t)之后，为了能够更准确地估计信噪比，我们对信号能量进行平滑，首先计算场景声音能量：

P_n(t)＝n²(t)(13)

其次，对场景声音能量进行调整

P_n(t)＝mean(P_n) if P_n(t)＞γmean(P_n)(14)

其中，系数γ＝3，该过程的目的是将场景声音段中错分的声音事件段做调整；

最后计算信噪比

b=10log10Σs2(t)-lΣPn(t)Pn(t)---(15)]]>

其中，l表示声音事件段与场景声音段长度的比值，由于分离后的声音事件段中含有场景声音成分，对声音事件段的能量值产生影响，因此，使用l∑P_n(t)作为该影响的估计，剔除了场景声音对能量值的影响。

3.根据权利要求1所述的低信噪比声场景下声音事件的识别方法，其特征在于：所述步骤S1至S3中，待测场景声音的特征、待测声音事件的特征、训练声音事件的特征、已知场景声音的特征的计算方法如下：

GLCM可表示为：

P(i，j|d，θ)＝#{(x，y)，(x+Δx，y+Δy)|f(x，y)＝i，f(x+Δx，y+Δy)＝j}(16)

其中，x，y表示声谱图中的像素坐标，且x+Δx≤M，y+Δy≤N，M×N表示图像的大小；i，j＝0，1，…，L-1，L为图像的灰度级数，#{S}表示集合S中元素的数量；

截取声音事件的声谱图中大小为M×N，灰度级为L的图像区域，根据公式(16)及d、θ的取值，计算获得GLCM，并将各个GLCM组合成高阶矩阵A，对该高阶矩阵A进行张量展开，得到A(n)，其中，将A的元素放置在大小为I_n×(I_n+1×…×I_N×I₁×…I_n-1)二维矩阵的i_n行、j列，这里，当k>n时，当k<n时，

对A_(n)进行奇异值分解，得到

A(n)=U(n)Σ(n)V(n)H---(17)]]>