[发明专利]歌手识别模型的训练及歌手识别方法、装置和相关设备有效
申请号: | 202110608301.2 | 申请日: | 2021-06-01 |
公开(公告)号: | CN113220934B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 张旭龙;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/683 | 分类号: | G06F16/683;G06F16/68;G06F16/65;G06N3/045;G06N3/0442;G06N3/0464 |
代理公司: | 深圳国新南方知识产权代理有限公司 44374 | 代理人: | 代文成 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 歌手 识别 模型 训练 方法 装置 相关 设备 | ||
1.一种歌手识别模型的训练方法,其特征在于,待训练的歌手识别模型包括特征提取器、歌手分类器和域分类器,所述方法包括:
获取样本歌曲,所述样本歌曲携带有歌手标签和域标签;
将所述样本歌曲转换为携带有所述歌手标签和所述域标签的样本梅尔频谱;
通过所述特征提取器对所述样本梅尔频谱进行特征提取,得到中间样本特征;
将携带有所述歌手标签的所述中间样本特征输入至所述歌手分类器,得到所述歌手分类器的损失;
将携带有所述域标签的所述中间样本特征输入至所述域分类器,得到所述域分类器的损失;
根据所述歌手分类器的损失、所述域分类器的损失以及所述歌手识别模型的损失函数计算所述待训练的歌手识别模型的损失,所述歌手识别模型的损失函数为:
其中,E表示损失,θf表示所述特征提取器的网络参数,θy表示所述歌手分类器的网络参数,θd表示所述域分类器的网络参数,Ly表示歌手分类器的损失函数,Ld表示域分类器的损失函数,i表示第i个所述样本歌曲,N表示所述样本歌曲的总数,λ表示超参数;
当所述损失中所述歌手分类器的损失最小且所述域分类器的损失最大时,得到训练好的歌手识别模型,通过以下方式确定所述损失中所述歌手分类器的损失最小且所述域分类器的损失最大:
其中,表示在已知域分类器的网络参数θd的情况下求所述损失最小时特征提取器的网络参数θf和歌手分类器的网络参数θy,表示在已知特征提取器的网络参数θf和歌手分类器的网络参数λy的情况下求所述损失最大时域分类器的网络参数θd,当和同时成立时,得到训练好的所述歌手识别模型。
2.根据权利要求1所述的歌手识别模型的训练方法,其特征在于,所述特征提取器包括四层卷积层和两层GRU神经网络,所述四层卷积层依次顺序连接,两层所述GRU神经网络顺序连接,最后一层所述卷积层的输出连接第一层所述GRU神经网络的输入。
3.根据权利要求1所述的歌手识别模型的训练方法,其特征在于,所述根据所述歌手分类器的损失、所述域分类器的损失以及所述歌手识别模型的损失函数计算所述待训练的歌手识别模型的损失的步骤具体包括:
将携带有所述域标签的所述中间样本特征输入至所述域分类器,得到所述样本歌曲的预测域;
根据所述域标签和所述预测域计算域分类器的梯度;
在反向传播时将所述域分类器的梯度取负或取倒数回传至所述特征提取器。
4.一种训练歌手识别模型进行歌手识别的方法,根据权利要求1至3任一项所述方法训练歌手识别模型,其特征在于,所述方法包括:
获取待识别的歌曲;
将所述待识别的歌曲转换为对应的梅尔频谱;
将所述梅尔频谱输入至训练好的歌手识别模型的特征提取器,得到中间特征;
将所述中间特征输入至所述训练好的歌手识别模型的歌手分类器,得到对应的歌手。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110608301.2/1.html,转载请声明来源钻瓜专利网。