[发明专利]一种基于局部频谱图像描述子的鲁棒音频识别方法有效

专利信息
申请号: 201210389035.X 申请日: 2012-10-13
公开(公告)号: CN103729368A 公开(公告)日: 2014-04-16
发明(设计)人: 李伟;朱碧磊;董旭炯 申请(专利权)人: 复旦大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海元一成知识产权代理事务所(普通合伙) 31268 代理人: 吴桂琴
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 局部 频谱 图像 描述 音频 识别 方法
【说明书】:

技术领域

发明属于基于内容的音乐检索技术领域,涉及一种基于局部频谱图像描述子的鲁棒音频识别方法,具体涉及一种基于计算机视觉技术的音频指纹提取和匹配方法。

背景技术

音频指纹是指能够代表一段音乐重要音频特征的紧致数字签名,其主要目的是建立一种有效的机制来比较两个音频数据感知听觉质量的相似程度,使人们可以仅仅通过一个没有任何文本标记的音频片段,便可以得到和该音频相关的元数据。这里不是直接比较通常很大的音频数据本身,而是比较其相应通常较小的数字指纹。典型的音频指纹方法一般遵循以下步骤:首先计算原始音频的指纹并将其与相应的元数据一同存入数据库中;当给定未知音频片段时,从该片段中提取指纹并将之与数据库中存储的指纹进行比对。如果在比对过程中发现匹配,则未知音频片段被确认,而相应的元数据(比如歌曲名称、词曲作者、歌词等)则被返回。

音频指纹主要有以下三点好处:首先,因为指纹本身数据量较小,因此可以节省很多的计算和内存要求;其次,指纹来源于音频数据中听觉最为重要的部分,往往保留了音频在听觉感知上的一些不变特性,因此能够在音频遭受攻击和破坏,但感知特性又变化较小时,依然可以进行有效比对;最后,保持指纹的数据库(指纹库)往往远小于媒体数据库,因此可以进行高效搜索。

目前音频指纹的研究已有很大发展,商业应用前景也非常明朗,大致有如下几类:第一,指纹用于音频的识别,如乐曲的识别和索引。当用户希望了解所听到的某未知乐曲片断的名字及其相关信息时,可以用手机收集5~10s的声音片断并向服务器传送,就会接收到关于该乐曲的完整信息反馈;第二,音频指纹可以用来对音频的内容进行控制和跟踪,例如通过音频指纹音乐电台可以确定自己是否拥有某个音频的播放权;版权所有者可以监视电台是否已支付版权费,并进行播放统计;广告商则可以监视电台是否按协议播放自己的广告;第三,音频识别可以用于增值服务。在音频指纹的帮助下,不同用户将得到自己感兴趣的元信息,例如,普通用户可能对一般信息如歌词、歌曲名称、词曲作者、专辑年份、演唱者等感兴趣;音乐家可能想知道乐器如何演奏以及节奏、旋律、和声;而录音师可能对录音过程感兴趣。元信息可以按照不同目的组织存储,使用指纹技术进行正确的检索来得到用户感兴趣的信息。

当前,与本发明相关的已提出的主要音频指纹方法有:

文献[1]是著名的Philips音频指纹系统,作者将一个音频信号分割成0.37秒长、98%重叠的帧,从每帧的33个非重叠频带部分提取出32比特的子指纹,由于相邻子指纹之间具有很大的相似性并且随时间缓慢变化,因此对信号处理失真非常鲁棒,并且可以识别在时域上缩放96%到104%的音频文件,但是该系统对变调失真的抵抗能力较差。

文献[2]对上述方法提出了两个直观的改进方案:(1)在数据库中增加原始音频文件的各种变调版本;(2)对每个查询片段进行各种变调处理后再到数据库里进行识别。前一种方法增加了对存储空间的消耗,后一种方法则增加了计算量。

文献[3]提出的音频指纹方法着重于抵抗音频的线性速度变化,其主要思路是提取频谱特征的局部最大值作为边界对音频信号进行非固定分段,该方法能够识别缩放因子介于85%~115%之间的音频信号,然而这个系统对于诸如噪声和压缩等信号失真的抵抗性较差。

传统的音频识别方法多使用频谱特征,与此不同,文献[4]提出了一种新颖的方法,提取一组时间相关的特征用于捕获音乐信号的速度、节奏和小节特性,通过把速度估计值量化分入各个速度类中,提取一种称之为循环节拍谱(Cyclic Beat Spectrum,CBS)的有效特征,从而使查询片段在缩放因子为79%~126%之间时仍能正确地识别出原始歌曲。

与本发明相关的参考资料有:

[1]J.Haitsma and T.Kalker.A highly robust audio fingerprinting system.In International Symposium on Music Information Retrieval,pp.107–115,2002.

[2]S.Baluja and M.Covell.Waveprint:efficient wavelet-based audio fingerprinting.Pattern Recognition,41(11):3467–3480,2008.

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210389035.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top