[发明专利]基于听觉特性的音乐适用场景自动分类方法在审
| 申请号: | 201810279067.1 | 申请日: | 2018-03-31 |
| 公开(公告)号: | CN108520757A | 公开(公告)日: | 2018-09-11 |
| 发明(设计)人: | 韦岗;李增;马碧云;梁舒 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/24;G10L25/30;G10L25/45 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 听觉特性 音乐 等长 窗口系数 倒谱系数 滤波系数 适用场景 自动分类 数字音频信号处理 滤波器 卷积神经网络 音频信号特征 非线性响应 动态可变 感知响度 机器学习 滤波处理 人耳听觉 提取特征 小波变换 窗处理 分类 准确率 切片 学习 | ||
本发明提供了基于听觉特性的音乐适用场景自动分类方法。该方法将人耳听觉特性、数字音频信号处理、机器学习结合在一起,其特征在于如下方法:首先,将音乐进行切片操作,把音乐切成等长时间音乐,得到等长时间音乐,以便后面的操作;然后,利用基于小波变换的听觉特性滤波器对等长时间音乐进行滤波处理,提取特征得到滤波系数;接着,再把滤波系数经过动态可变长度窗处理得到窗口系数;然后把窗口系数再经过非线性响应变换,换成感知响度系数便能得到听觉特性倒谱系数;最后,对上述听觉特性倒谱系数用基于听觉特性的卷积神经网络学习分类。本发明具有性能稳定、准确率更高、实时性能好等优点,可以适用于音频信号特征提取和分类等领域。
技术领域
本发明涉及音频数字信号处理、卷积神经网络、机器学习等技术领域,具体涉及基于听觉特性的音乐适用场景自动分类方法。
背景技术
随着现代社会经济快速发展,人们的娱乐生活悄然的改变,人们越来越多的通过音乐使自己的生活变得多姿多彩。人们对音乐的依赖性较高,音乐已经成为人们生活中不可缺少的一部分。
随着音乐数量日益增大,音乐的风格也日益多种多样,这使得人们从中挑出自己当前想听或者有益的音乐的难度增大。常用的音乐分类都是针对音乐的流派、音乐的感情、音乐适用场景进行分类。音乐流派分类是根据音乐风格,编曲上运用了哪些音乐元素(节奏,律动,和声,调音音节,配器等)而呈现出不同的音乐特色来划分的。音乐感情分类是根据音乐的节奏、歌词、情感来针对感情进行划分。音乐适用场景分类是根据音乐的节奏、律动、乐器来针对适用场景来进行分类。本专利直接对音乐适用的场景进行分类,用户不需要过多的思考,只需要结合自己的场景就可以得到最合适的音乐,从而提升人们音乐体验,改善人们生活,让人们更好的得到自己想要的音乐。良好的音乐自动分类可以减少人们听到不喜欢的音乐几率,让人们更容易听到合适喜欢的音乐,使人们的精神生活日益丰富,更好的走向小康社会。
目前主流音乐分类方法是人工手动标记分类方法,人工智能自动分类方法。
人工手动标记分类方法是最常见、历史最悠久的音乐分类方法。其中有音乐专家的音乐标记分类,大众人们对音乐的标签评价分类等等。人工手动标记分类方法执行简单,准确率相对不错,分类效果也稳定优秀。但是人工手动标记分类方法需要有音乐修养或者专业音乐人士来进行分类,同时人工手动标记分类方法过多依赖于工作人员的水平和爱好,工作人员的差异性导致分类标准不一致,而且人工手动标记分类方法工作量大,重复性高,对人力来说是一种浪费,即耗时还耗人力,所以随着科技信息技术的进步,人工智能自动分类方法慢慢被用于音乐分类上。
人工智能自动分类方法被用于音乐分类上主要有两个关键步骤:①音频信号特征提取工程,②根据特征进行分类识别过程。
首先,音频信号特征提取工程目前主流方法有:
1)根据音频特征(例如:声强、响度等)选择相对应的计算公式直接计算相对应的特征值,其优点是:计算方便,特征值代表的音频信息特征清晰可解释性好。缺点是:提取的特征单一,需要音乐专家和信息专家人为的设计特征的计算方式,特征表达能力不够强,特征不够全面。
2)根据音频信号生成声谱图或者梅尔频谱图等时频特征系数,其主要用到的技术是短时傅里叶变换。首先对音频信号进行分帧操作,使音频信号被切割成一帧一帧的信号,便于后面处理;接着对每一帧的音频信号进行加窗处理,完成对每一帧的音频信号进行预处理;然后对加窗预处理后的音频信号进行傅里叶变换,得到频率特性;最后把每一帧的傅里叶变换系数拼接起来便得到了时频图。短时傅里叶变换是为克服傅里叶变换无法处理非稳定信号提出来的,但是短时傅里叶变换是一种基于窗函数的变换,一般来说,短窗能够提供较好的时域解析度,长窗能够提供较好的频域解析度。这导致其实在研究过程中,还是只能侧重一种研究角度,无法同时在时间域和频域上得到很好的解析。
然后,根据特征进行分类识别过程常用的方法有:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810279067.1/2.html,转载请声明来源钻瓜专利网。





