[发明专利]基于多模态的音乐标签自动分类方法、装置及介质有效

申请号：	202110799809.5	申请日：	2021-07-15
公开（公告）号：	CN113673561B	公开（公告）日：	2023-08-25
发明（设计）人：	王振宇;李理	申请（专利权）人：	华南理工大学
主分类号：	G06F18/214	分类号：	G06F18/214;G06F18/241;G06F16/68;G06F16/65
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	郑宏谋
地址：	510641 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于多模态音乐标签自动分类方法装置介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多模态的音乐标签自动分类方法，其特征在于，包括以下步骤：

获取待分类乐曲的音频数据和MIDI文件数据；

根据音频数据获取梅尔声谱图；

将MIDI文件数据分成多个音乐片段，并获取音乐片段的表示向量；

对音频数据和MIDI文件数据进行切分，获得带有梅尔声谱图的音频数据切片和带有表示向量的MIDI数据切片；

将音频数据切片和MIDI数据切片输入基于多模态的分类模型进行音乐标签预测，获得所有切片的分类结果；

根据分类结果对待分类乐曲进行标签分类；

所述音乐标签自动分类方法还包括构建分类模型的步骤，包括：

构建基于卷积循环神经网络的音频模态分类模型，用于对音频数据切片进行音频模态特征抽取；

构建基于双向门控循环单元的MIDI音乐模态分类模型，用于对MIDI数据切片进行MIDI数据模态特征抽取；

将音频模态特征和MIDI模态抽象特征进行多模态融合，获得分类模型；

采用预设标注数据集对分类模型进行训练；

所述将MIDI文件数据分成多个音乐片段，并获取音乐片段的表示向量，包括：

将MIDI文件数据按节拍划分成多个等长的音乐片段；

基于word2vec中的跳字模型，设计音乐片段的表征学习模型；

将音乐片段输入表征学习模型，获得音乐片段的表示向量；

所述表征学习模型的训练目标函数定义为：

其中，p表示以c为中心词的时候d出现的概率，c表示选定的中心词，d为关联的上下文。

2.根据权利要求1所述的一种基于多模态的音乐标签自动分类方法，其特征在于，所述根据音频数据获取梅尔声谱图，包括：

对音频数据中的声音信号进行分帧与加窗；

对分帧得到的每一帧做傅里叶变换，并将变换结果进行堆叠，获得声谱图；

将声谱图通过梅尔标度滤波器组，变换为梅尔声谱图。

3.根据权利要求1所述的一种基于多模态的音乐标签自动分类方法，其特征在于，所述音频模态分类模型通过以下方式抽取音频模态特征：

将音频数据切片的梅尔声谱图输入到堆叠的结合通道注意力机制的一维残差门控卷积块中进行学习，得到声谱卷积特征图；

采用一维最大池化层对声谱卷积特征图进行池化，进行特征降维；

将降维后的特征图输入到全连接层，对音频模态特征信息进行整合和筛选，获得音频模态特征。

4.根据权利要求1所述的一种基于多模态的音乐标签自动分类方法，其特征在于，所述MIDI音乐模态分类模型通过以下方式抽取MIDI数据模态特征：将MIDI数据切片中所有音乐片段的表示向量进行叠加，得到输入矩阵；

将输入矩阵输入到双向门控循环单元中进行特征学习，结合上下文语义信息获得特征表示向量；

将特征表示向量输入到全连接层，对特征表示进行信息整合和筛选，获得MIDI数据模态特征。

5.根据权利要求1所述的一种基于多模态的音乐标签自动分类方法，其特征在于，通过以下方式将音频模态特征和MIDI模态抽象特征进行多模态融合：抽取到的音频模态特征和MIDI数据模态特征进行向量的上下拼接，形成一个二维的特征矩阵；

将特征矩阵作为输入，使用全连接层对特征进行提取和非线性变换；

采用softmax层对提取和非线性变换的结果进行分类，以获取预测切片的音乐标签；

其中，特征矩阵的表达式为：

F_i为音频模态特征向量中的第i个元素，D_i为MIDI数据模态特征向量中的第i个元素，n为特征向量维度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学，未经华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110799809.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载