[发明专利]一种基于最长匹配子序列算法的哼唱计算机音乐检索方法有效

专利信息
申请号: 201110382159.0 申请日: 2011-11-25
公开(公告)号: CN102521281A 公开(公告)日: 2012-06-27
发明(设计)人: 王醒策;陈卓然;周明全;武仲科 申请(专利权)人: 北京师范大学
主分类号: G06F17/30 分类号: G06F17/30;G10L15/08;G10L15/02
代理公司: 北京中海智圣知识产权代理有限公司 11282 代理人: 曾永珠
地址: 100875 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 最长 配子 序列 算法 哼唱 计算机 音乐 检索 方法
【说明书】:

技术领域

发明涉及一种基于最长匹配子序列算法的哼唱计算机音乐检索方法,属于基于音乐信息内容检索的计算机应用技术领域。

背景技术

近年随着Internet的发展,音频数据呈几何级数增长。传统的基于文字标注的检索方法已经不能满足海量多媒体数据的检索需要,因此基于内容的音乐信息检索(Music Information Retrieval,MIR)技术已经成为信号处理、模式识别和数据挖掘等领域的热点技术之一。基于内容的多媒体信息检索技术的研究主要集中在图像和视频方面,目前,国内外应用在音频检索上的技术还不多见。随着用户对网络分类和检索的兴趣提升,使得建立音频web数据检索机制至关重要。制约基于内容音乐检索技术发展的关键技术问题是如何提取音频特征实现音乐内容表征并描述音乐特征以及用何种方法进行特征匹配。旋律特征的提取和表达是基于内容的音乐检索中的基础环节,从音乐片段中提取的旋律特征的能否客观、准确的表达音乐的语义信息,决定着音乐特征的正确传递,直接关系到后续的匹配和检索是否切实有效;音乐片段的相似度计算算法以及相应的匹配机制能否符合普遍的听觉、心理感受,是决定检索结果是否准确的关键因素。因此旋律特征的提取表达与相似度的计算评估是影响一个哼唱检索或内容的音乐检索系统性能的最重要环节。

对于声学信号而言,其听觉上的音高是由其基音频率序列(Fundamental Frequency)所决定的。音高提取的目是把用户的输入的声学信号转化成基音频率序列。目前,在特征提取方面的常见算法如:自相关函数算法(Autocorrelation)、倒谱分析法(Cepstral Analysis)、交叉相关函数算法(CCF)、平均幅度差函数算法(AMDF)、标准化交叉相关函数算法(NCCF)、整合音高提取算法(Integrated Pitch Tracker),但随着相关技术的发展在很多应用场景中,这些算法的处理效果已经达不到应用的要求,极易造成特征表达与真实音乐语义内容的偏差和模糊。

目前在特征表达方面的常见方法及缺点如下所示:

1、音高轮廓表达法无法对音高变化进行量化,易造成特征表达与真实音乐语义内容模糊,随着歌曲样本扩张,极易出现音高轮廓相同但实际旋律相差很大的情况。

2、MIDI音符近似表达法将用户哼唱的自然音高近似归一到离散的MIDI音符的整数值,会产生旋律表达不准确的问题。如图1所示,展示的是同一段旋律在C大调和A大调中的表达,两段旋律片段所有对应音的MIDI音高值完全不同,但给人的听觉和音乐认知上感受却是几乎完全一致。在合理的特征表达方法中,应视这两段旋律具有相同的旋律特征;基于这一点就体现出MIDI音符近似表达法显得不够恰当与全面。

3、绝对音高表达法虽然解决了近似化产生的表达错误的问题,但配合串比较类和一些动态规划的相关算法时所产生的音高纵向整体偏移(Pitch Shiftiness)会带来严重的匹配误差,所以这种特征表达方法并不适合一般的相似度计算机制。

4、调内音级表达法虽然避免了音高整体偏移和不同调式哼唱所带来的影响。但该方法需要加入调式主音和调式属性作为附加信息,而在哼唱应用的使用场景中,绝大多数情况下主音和调式的属性无法直接获得,在哼唱片段较短、包含信息不够丰富的情况下,该方法可能出现很大偏差。如图2所示,这是一段C大调的旋律片段,但同时也符合G大调的调式属性。这是由于G大调的音节相对于C大调只存在一个变化音#F。所以,当旋律片段中未出现这个变化音时或其还原音时,由其他音符组成的旋律片段符合C大调和G大调两个调式的属性。这会导致利用调式内每个音符到主音的度数(Degrees of the Scale from the Tonic)定音方法的失效。且许多音乐风格在创作的过程中频繁采用包含转调、调外音等打破单一调式属性的音乐创作技巧,在这些情况下,采用该方法进行哼唱检索会产生很大误差。

5在传统的三重旋律表达法中,音程这一属性表达的是相邻音符之间的频率变化幅度,以赫兹为单位。音乐体系中所使用的音高单位是半音,尽管半音与赫兹成正相关但并非是线性相关,半音与赫兹呈现对数关系,因此在不同的音高区域,相差相等单位的半音的两个音之间对应的频率之差不同。如果采用频率之差作为相邻两个音之间音程衡量标准,这将导致同一旋律在不同音高区域产生不同的音程序列,进而出现严重音乐特征扭曲,例如图4所示:旋律1和旋律2包含相同的旋律特征,但在不同的调式下哼唱,其各个自然音在频率维度上分布的差别鲜明,使得三重旋律表达法无法客观表示旋律特征。

目前在相似度计算方面的现有方法如下:

1、编辑距离算法

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学,未经北京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110382159.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top