[发明专利]一种基于神经网络的乐曲主旋律音轨识别方法在审
| 申请号: | 202110408504.7 | 申请日: | 2021-04-16 |
| 公开(公告)号: | CN113192471A | 公开(公告)日: | 2021-07-30 |
| 发明(设计)人: | 张静宣;梁嘉慧;刘思远;骆君鹏 | 申请(专利权)人: | 南京航空航天大学 |
| 主分类号: | G10H1/00 | 分类号: | G10H1/00;G06N3/04;G06N3/08 |
| 代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 施昊 |
| 地址: | 211106 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 神经网络 乐曲 主旋律 音轨 识别 方法 | ||
1.一种基于神经网络的乐曲主旋律音轨识别方法,其特征在于,利用MID文件提取多个特征来度量和刻画乐曲中的每个音轨,通过构建神经网络模型,根据音乐的基本特征自动识别判断出音乐的主旋律音轨,包括步骤如下:
(1)提取乐曲中音符的信息并计算各个音轨的特征值;
(2)将音轨特征值变换成二维的神经网络输入矩阵;
(3)训练基于神经网络的主旋律音轨识别模型;
(4)使用训练完成的主旋律音轨识别模型,进行乐曲主旋律音轨识别。
2.根据权利要求1所述的基于神经网络的乐曲主旋律音轨识别方法,其特征在于,所述步骤(1)提取乐曲中音符中的特征并计算各个音轨,包括以下步骤:
(11)遍历每首乐曲中每段音轨的音符,利用MIDI文件获取音符信息中的速度、时值、时值类型和音高;
(12)计算乐曲中每段音轨音符平均速度;
(13)计算乐曲中每段音轨音符总时值;
(14)设置乐曲中每段音轨音符时值类型集合;
(15)计算乐曲中每段音轨音符最高音与最低音的音程;
(16)计算乐曲中每段音轨音符第二高音和第二低音的音程。
3.根据权利要求1所述的基于神经网络的乐曲主旋律音轨识别方法,其特征在于,所述步骤(2)的实现步骤如下:
(21)将任一乐曲每个音轨的特征值顺序装入一维数组作为其特征集合;
(22)连接数据集中多首乐曲的特征集合得到二维的神经网络输入矩阵;
(23)按照Tensorflow框架的输入标准,得到最终的输入矩阵。
4.根据权利要求1所述的基于神经网络的乐曲主旋律音轨识别方法,其特征在于,所述步骤(3)中的主旋律音轨识别模型,实现步骤如下:
(31)定义三层神经网络:设置25个神经元为输入层,定义偏置参数为b1;设置12个神经元为隐藏层,定义偏置参数为b2;设置输出层,定义偏置参数为b3,音轨的独热向量作为输出;
(32)令k为第k层神经网络,定义c在前向传播过程中为第k层网络的输入维度,在反向传播过程中为输出维度,则第k层的权重参数初始化为范围内的均匀分布;
(33)定义前向传播过程中的激活函数σ为ReLU函数,ReLU函数如下:
max(0,WTx+b)
其中,定义b为偏置集合,W为权重集合,表示相应输入对输出的重要性。
则正向传播计算过程如下:
Zi=σ(WiTx+bi),i=1,2,3
其中,定义Wi表示第i层的权重集合,x表示输入集合,bi表示第i层的偏置集合;
(34)定义基于Softmax函数的输出层,其中,定义xk、xj为输出属于某一类的概率,x1表示识别为主音轨,x2表示识别为非主音轨,Softmax函数如下:
网络最后一层的输出Z3为自变量,则计算神经网络输出向量如下:
(35)根据Softmax层的输出向量和样本的实际标签y计算交叉熵:
其中,y=0或1;
(36)设置m为训练样本个数,根据交叉熵计算损失函数:
(37)反向传播过程中,记录使得损失函数最小的参数集合W={W1,W2,W3}和偏置集合b={b1,b2,b3}作为模型参数。
5.根据权利要求1所述的基于神经网络的乐曲主旋律音轨识别方法,其特征在于,所述步骤(4)中使用步骤(3)得到的模型参数建立主旋律音轨识别模型,所述主旋律音轨识别模型对输入乐曲的所有音轨计算,得到输出向量所述输出向量分量中的最大值的下标则为主旋律音轨的编号,同时识别该音轨为主旋律音轨。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110408504.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种蜜柚种植用开沟设备
- 下一篇:一种智能高效的时空大数据分析方法





