[发明专利]从音频视频流中高精度检测模板的两阶段方法无效
申请号: | 200910059824.5 | 申请日: | 2009-06-30 |
公开(公告)号: | CN101594527A | 公开(公告)日: | 2009-12-02 |
发明(设计)人: | 戴兵;周后林;姚太平 | 申请(专利权)人: | 成都艾索语音技术有限公司 |
主分类号: | H04N7/24 | 分类号: | H04N7/24;H04N7/52;G10L11/00 |
代理公司: | 成都惠迪专利事务所 | 代理人: | 梁 田 |
地址: | 610000四川省成都市高新区天府大*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频视频 中高 精度 检测 模板 阶段 方法 | ||
技术领域
本发明涉及一种信号检测方法,具体地说,是涉及一种检测音频视频流中是否存在预设模板的两阶段方法。
背景技术
在一些应用中,需要根据事先指定的音频视频片断(也称为模板)在大量的音频视频流中检测该模板。例如,在电视监控中要检测某个广告是否在节目中出现;在版权保护中,检测某个正在播放的音乐或电视节目是否是事先指定的保护节目。由于即使相同的音频经过不同的信道传输、信源编解码后,其数字形态也可能发生很大变化,因此直接将待测的音频数字信号与预设模板进行比较没有任何作用。
音频指纹是从音频片断中抽取的反映其独特性的数字串。这里的独特性指同样的音频经过反复的录音、数字化后,仍然能够抽取出相同的指纹。由于音频指纹具有受外界因素影响较小的特性,而且不同的音频所抽取的音频指纹不同,因此,通过音频指纹来实现在待测音频中检测预设模板便成了一种可行的方案。
Jaap Haitsma等人在论文“A Highly Robust AudioFingerprinting System”中提出了一种音频指纹提取方法和相应的检测算法。在该论文中,作者通过比较预设模板和待测音频的音频指纹是否相同来判断待测音频中是否含有预设模板。通过试验,我们发现采用该方法进行判断的查全率较低,分析发现该方法提取的音频指纹抗噪性能较差。若待测音频经过一定的变换(压缩、传输)后,音频的音质将发生变化,采用该方法获得的音频指纹也将会发生较大的变化,从而使得查全率较低。在这个基础上,Jerome Lebosse等人在“A Robust Audio Fingerprint Extraction Algorithm”中提出了累加能量的差分方法。与Jaap Haitsma等人的方法相比,Lebosse等人的方法的音频指纹的鲁棒性得到了增强,使得检测时音频指纹的击中率增加,提高了查全率,但是相应地又带来了一定的虚警。
通过试验发现,相邻帧往往存在相同的指纹特征。Jaap Haitsma等在“A Highly Robust Audio Fingerprinting System”中对音频模板的所有帧的指纹特征做倒排索引,采用散列表的形式存放。但这些方法并没有利用帧间的相关性,匹配速度较低。
Akisato Kimura等人在论文“Very Quck Audio Searching:Introducing Global Pruning to the Time-Series Active Search”中提出了一种根据特征直方图的相似性检测音频模板的方法。实验发现,上述方法仍然存在虚警较高的问题,而且与Jaap Haitsma等人的方法相比,匹配速度较慢。
以上各种方法都只是根据音频段某一种指纹进行检测,并没有对音频的多种指纹进行综合利用。
发明内容
本发明的目的在于提供一种从音频视频流中高精度检测模板的两阶段方法,将音频信号中累积能量的差分特征与量化的感知线性预测参数特征优势互补,从而降低检测的虚警率,保证较高的查全率,提高匹配速度。
为了实现上述目的,本发明采用的技术方案如下:
从音频视频流中高精度检测模板的两阶段方法,包括第一阶段:采用累加能量的差分特征进行粗匹配,还包括第二阶段:采用量化的感知线性预测参数特征对粗匹配成功的音频进行确认。
所述采用量化的感知线性预测参数特征进行确认包括以下步骤:(1)对待测音频流通过哈明窗来进行分帧,并对每一帧进行FFT;(2)计算每一帧音频信号的临界带听觉谱;(3)获取等响度曲线;(4)进行离散傅立叶反变换;(5)通过Durbin算法获得全极点模型的系数,并计算其倒谱系数,得到感知线性预测参数;(6)对每一帧的感知线性预测参数进行矢量化,得到每一帧量化的感知线性预测参数特征;(7)比较待测音频流量化的感知线性预测参数特征与预设模板量化的感知线性预测参数特征是否相同,若相同,则表明待测音频流中含有预设模板,反之,则不含预设模板。
所述第一阶段中,对相邻帧中累加能量差分特征相同的帧只进行一次索引。所述临界带听觉谱的计算方法如下:
一个临界带宽单位用Bark来表示。临界带宽编号Z(Bark)与频率f(Hz)之间的关系式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都艾索语音技术有限公司,未经成都艾索语音技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910059824.5/2.html,转载请声明来源钻瓜专利网。