[发明专利]基于声谱图双特征的动物声音识别方法有效

申请号：	201510226082.6	申请日：	2015-05-06
公开（公告）号：	CN104882144B	公开（公告）日：	2018-10-30
发明（设计）人：	李应;吴志彬	申请（专利权）人：	福州大学
主分类号：	G10L17/26	分类号：	G10L17/26
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	蔡学俊
地址：	350108 福建省福州市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于声谱特征动物声音识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于声谱图双特征的动物声音识别方法，其特征在于包括以下步骤：

步骤S1：建立一声音样本库，用以预存声音样本；

步骤S2：采集待识别的声音信号；

步骤S3：分别将所述预存声音样本及待识别的声音信号转化成声谱图；

步骤S4：将所述声谱图进行规范化，并对所述规范化后的声谱图进行特征值分解和投影，将其转化得到一投影特征X_K；

步骤S5：将所述声谱图转化成等价LBP值矩阵u，统计每一个等价LBP值对应的像素与周围像素灰度值的方差，形成一特征向量LBPV；

步骤S6：将所述投影特征X_K和特征向量LBPV结合，形成双层特征X_K+LBPV；

步骤S7：以所述声音样本库中预存声音样本对应的双层特征集为训练样本集，以待识别的声音信号对应的双层特征为输入样本，通过随机森林的训练，得出待识别的声音信号于声音样本库中对应的类别并输出结果。

2.根据权利要求1所述的基于声谱图双特征的动物声音识别方法，其特征在于：所述步骤S3转化过程具体内容如下：对所述预存的声音样本或采集的声音信号进行STFT，得到其幅度谱S(t,f)，其中，t为帧索引，f为频率索引，对应的幅度谱S(t,f)的值转化为灰度级所构成的二维图像即为所述声谱图。

3.根据权利要求2所述的基于声谱图双特征的动物声音识别方法，其特征在于：所述步骤S4的具体内容如下：

将所述幅度谱S(t,f)第t帧的数据视为一个向量所述向量包含N个频率数据，进一步，将所述向量转化为规范化的log尺度向量S_t：

所述规范化的log尺度向量S_t表示规范化的log尺度的第t个帧的数据；

假设所述幅度谱S(t,f)共有M个帧，将所述M个帧的向量表示为一声谱图矩阵X＝[S₁,…,S_t,…S_M]^T，X∈R^M×N，由于特征分解的对象为方阵，因此，计算C＝X^TX得到矩阵X的协方差矩阵C∈R^N×N，按以下公式利用特征值分解对所述协方差矩阵C降维：

C＝UΛU^T (3)

C＝λ₁u₁u′₁+λ₂u₂u′₂+…+λ_Nu_Nu′_N (5)

C≈λ₁u₁u₁′+λ₂u₂u₂′+…+λ_Ku_Ku_K′,K＜＜N (6)

其中，矩阵U∈R^N×N包含矩阵C的所有特征向量μ₁,…,μ_N，Λ是对角矩阵，其对角线上的元素是特征值λ₁,…,λ_N，所述特征值λ₁,…,λ_N代表对应特征向量的权重，而且λ₁≥λ₂≥…≥λ_N，再通过以下公式计算前K个特征值的贡献比重η_K来衡量前K个特征向量在表示声音中的重要性：

矩阵U携带了声音的主要信息，选取前K个特征向量组成基本向量矩阵U_K∈R^N×K，所述投影特征X_K是对所述声谱图矩阵X在所述基本向量矩阵U_K∈R^N×K上进行投影：

X_K＝XU_K (8)

其中X_K∈R^M×K。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于福州大学，未经福州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510226082.6/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载