[发明专利]一种基于局部频谱图像描述子的鲁棒音频识别方法有效
| 申请号: | 201210389035.X | 申请日: | 2012-10-13 |
| 公开(公告)号: | CN103729368A | 公开(公告)日: | 2014-04-16 |
| 发明(设计)人: | 李伟;朱碧磊;董旭炯 | 申请(专利权)人: | 复旦大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 上海元一成知识产权代理事务所(普通合伙) 31268 | 代理人: | 吴桂琴 |
| 地址: | 200433 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明属基于内容的音乐检索技术领域,涉及一种基于局部频谱图像描述子的鲁棒音频识别方法,本发明方法中,将一维音频信号转化为二维听觉图像,提取图像特征作为音频指纹,使其对时间缩放和变调等主要的音频失真类型具有鲁棒性;其包括指纹提取步骤和指纹匹配步骤)两部分。本发明不同于现有技术的单纯基于频谱特征或节奏特征的方法,而是将一维音频信号转换为二维的图像信号,基于计算机视觉技术提取强鲁棒性的局部图像特征作为音频指纹,同时将时间缩放攻击和变调等失真行为视作对相应图像的伸缩和平移处理。本发明从全新思路提供了一种新的强鲁棒性音频指纹,从而实现在各种信号失真以及时-频伸缩的情况下,仍能准确地进行音频识别。 | ||
| 搜索关键词: | 一种 基于 局部 频谱 图像 描述 音频 识别 方法 | ||
【主权项】:
1.一种基于局部频谱图像描述子的鲁棒音频识别方法,其特征在于,将一维音频信号转化为二维听觉图像,提取图像特征作为音频指纹,使其对时间缩放和变调主要的音频失真类型具有鲁棒性;其包括指纹提取步骤(1),(2)和指纹匹配步骤(3):步骤1,使用短时傅里叶变换(STFT)将1维音频信号转换为2维时-频表示;其中,(1)使用长度为185.76ms、重叠率为75%的汉宁窗对音频信号进行时域上的重叠分段;(2)利用短时傅里叶变换得到时-频平面语谱图,再依照公式(1)将其量化成对数空间上的64个子频带,f i = 318 * 2 i - 1 12 , ]]> i=1,2,...,64 (1)其中fi是第i个子频带的中心频率;步骤2,在语谱图上计算SIFT局部描述子,并将每一个描述子作为音频信号的一个子指纹;其中,SIFT特征提取的过程如下:(1)尺度空间极值检测,以初步确定关键点位置和所在尺度;(2)通过函数拟合精确确定关键点的位置与尺度,除去对噪声敏感的低对比度的关键点以及不稳定的边缘响应点;(3)利用关键点邻域的局部像素梯度方向,为每个关键点指定方向参数,使算子具备旋转不变性;(4)生成SIFT特征描述符,对每个关键点采用4*4共16个邻域像素计算8个方向的梯度直方图,形成一个128维的描述子;步骤3,将检索音频片段的每个子指纹与数据库中原始音频的子指纹进行匹配,返回和检索音频片段具有最多匹配子指纹的原始音频作为识别结果;其中的指纹匹配过程包括基于LSH方法的指纹检索步骤和相似性计算步骤:(1)基于LSH方法的指纹检索采用LSH方法加速子指纹的检索,给定一个点集{p},一个哈希函数定义为,g(p)=(h1(p),...,hk(p)) (2)其中k是宽度函数,{hj(p),j=1,…,k}是LSH函数,这些LSH函数满足如下不等式,Pr(h(q)=h(v))≥p1,当||q-r||≤r1Pr(h(q)=h(v))≤p2,当||q-r||≥r2 (3)p1,p2,r1,r2是相应阈值,满足p1>p2,r1<r2;而q和v是任意两点,且||q-r||为两点间距离;公式(3)表明距离小于r1的两点比距离大于r2的两点在概率上更有可能被映射到同一个桶中;(2)指纹相似性计算利用LSH将相似指纹映射到相同的桶中后,为检索音频片段的每个子指纹做相似搜索,设置额外的指纹匹配过滤LSH的最近邻检索结果:设a是待测子指纹,b是LSH检索到的数据库中与a距离最近的指纹,b’是除b外与a的距离最近的指纹,若如下不等式成立,D(a,b)<Th*D(a,b′) (4)则表明a与b是匹配的;式中D(x,y)表示变量x与y之间的欧氏距离,Th是设定的阈值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210389035.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种温控型金属铸造装置
- 下一篇:一种全自动成型次精度模具及使用方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





