[发明专利]一种基于局部频谱图像描述子的鲁棒音频识别方法有效

专利信息
申请号: 201210389035.X 申请日: 2012-10-13
公开(公告)号: CN103729368A 公开(公告)日: 2014-04-16
发明(设计)人: 李伟;朱碧磊;董旭炯 申请(专利权)人: 复旦大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海元一成知识产权代理事务所(普通合伙) 31268 代理人: 吴桂琴
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明属基于内容的音乐检索技术领域,涉及一种基于局部频谱图像描述子的鲁棒音频识别方法,本发明方法中,将一维音频信号转化为二维听觉图像,提取图像特征作为音频指纹,使其对时间缩放和变调等主要的音频失真类型具有鲁棒性;其包括指纹提取步骤和指纹匹配步骤)两部分。本发明不同于现有技术的单纯基于频谱特征或节奏特征的方法,而是将一维音频信号转换为二维的图像信号,基于计算机视觉技术提取强鲁棒性的局部图像特征作为音频指纹,同时将时间缩放攻击和变调等失真行为视作对相应图像的伸缩和平移处理。本发明从全新思路提供了一种新的强鲁棒性音频指纹,从而实现在各种信号失真以及时-频伸缩的情况下,仍能准确地进行音频识别。
搜索关键词: 一种 基于 局部 频谱 图像 描述 音频 识别 方法
【主权项】:
1.一种基于局部频谱图像描述子的鲁棒音频识别方法,其特征在于,将一维音频信号转化为二维听觉图像,提取图像特征作为音频指纹,使其对时间缩放和变调主要的音频失真类型具有鲁棒性;其包括指纹提取步骤(1),(2)和指纹匹配步骤(3):步骤1,使用短时傅里叶变换(STFT)将1维音频信号转换为2维时-频表示;其中,(1)使用长度为185.76ms、重叠率为75%的汉宁窗对音频信号进行时域上的重叠分段;(2)利用短时傅里叶变换得到时-频平面语谱图,再依照公式(1)将其量化成对数空间上的64个子频带,fi=318*2i-112,]]>i=1,2,...,64          (1)其中fi是第i个子频带的中心频率;步骤2,在语谱图上计算SIFT局部描述子,并将每一个描述子作为音频信号的一个子指纹;其中,SIFT特征提取的过程如下:(1)尺度空间极值检测,以初步确定关键点位置和所在尺度;(2)通过函数拟合精确确定关键点的位置与尺度,除去对噪声敏感的低对比度的关键点以及不稳定的边缘响应点;(3)利用关键点邻域的局部像素梯度方向,为每个关键点指定方向参数,使算子具备旋转不变性;(4)生成SIFT特征描述符,对每个关键点采用4*4共16个邻域像素计算8个方向的梯度直方图,形成一个128维的描述子;步骤3,将检索音频片段的每个子指纹与数据库中原始音频的子指纹进行匹配,返回和检索音频片段具有最多匹配子指纹的原始音频作为识别结果;其中的指纹匹配过程包括基于LSH方法的指纹检索步骤和相似性计算步骤:(1)基于LSH方法的指纹检索采用LSH方法加速子指纹的检索,给定一个点集{p},一个哈希函数定义为,g(p)=(h1(p),...,hk(p))                               (2)其中k是宽度函数,{hj(p),j=1,…,k}是LSH函数,这些LSH函数满足如下不等式,Pr(h(q)=h(v))≥p1,当||q-r||≤r1Pr(h(q)=h(v))≤p2,当||q-r||≥r2                                 (3)p1,p2,r1,r2是相应阈值,满足p1>p2,r1<r2;而q和v是任意两点,且||q-r||为两点间距离;公式(3)表明距离小于r1的两点比距离大于r2的两点在概率上更有可能被映射到同一个桶中;(2)指纹相似性计算利用LSH将相似指纹映射到相同的桶中后,为检索音频片段的每个子指纹做相似搜索,设置额外的指纹匹配过滤LSH的最近邻检索结果:设a是待测子指纹,b是LSH检索到的数据库中与a距离最近的指纹,b’是除b外与a的距离最近的指纹,若如下不等式成立,D(a,b)<Th*D(a,b′)                                           (4)则表明a与b是匹配的;式中D(x,y)表示变量x与y之间的欧氏距离,Th是设定的阈值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210389035.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top