[发明专利]一种音频分离网络的训练方法、装置、电子设备及存储介质在审
申请号: | 202111566754.X | 申请日: | 2021-12-20 |
公开(公告)号: | CN114283842A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 毛俊伟;刘雪松 | 申请(专利权)人: | OPPO广东移动通信有限公司 |
主分类号: | G10L25/27 | 分类号: | G10L25/27;G10L25/48 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张静;王黎延 |
地址: | 523860 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 分离 网络 训练 方法 装置 电子设备 存储 介质 | ||
1.一种音频分离网络的训练方法,其特征在于,所述方法包括:
获取音频数据集;
基于第一音频分离网络对所述音频数据集中的第一混合音频数据进行分离,输出目标音轨数据;
基于预设混合策略对所述目标音轨数据进行混合,得到第二混合音频数据;
基于所述目标音轨数据和所述第二混合音频数据对第二音频分离网络进行训练,计算损失函数;
损失函数不满足收敛条件,更新所述第二音频分离网络的网络参数,并将更新后的第二音频分离网络作为第一音频分离网络;
损失函数满足收敛条件,得到训练好的第二音频分离网络。
2.根据权利要求1所述的方法,其特征在于,所述基于第一音频分离网络对所述音频数据集中的第一混合音频数据进行分离,输出目标音轨数据,包括:
将所述第一混合音频数据中的其他音轨数据移除,得到所述第一混合数据中目标音轨的第一音轨数据;
将所述第一音轨数据输入到所述第一音频分离网络进行分离,输出所述目标音轨的第二音轨数据;
将所述第二音轨数据作为所述目标音轨数据。
3.根据权利要求2所述的方法,其特征在于,所述目标音轨数据为人声音轨数据,所述其他音轨数据为乐器音轨数据。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述目标音轨数据中目标音轨的能量和其他音轨的能量;
所述目标音轨的能量大于等于第一能量阈值,所述其他音轨的能量小于第二能量阈值时,保留所述目标音轨数据;
所述目标音轨的能量小于所述第一能量阈值,所述其他音轨的能量大于等于所述第二能量阈值时,丢弃所述第二音轨数据;
其中,所述第一能量阈值大于所述第二能量阈值。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
所述目标音轨的能量大于等于第一能量阈值,所述其他音轨的能量小于第二能量阈值时,保留时长大于时长阈值的目标音轨数据。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
将保留的至少两段目标音轨数据进行拼接,得到最终的目标音轨数据。
7.根据权利要求1所述的方法,其特征在于,所述基于预设混合策略对所述目标音轨数据进行混合之前,所述方法还包括:
基于预设变换策略,对所述目标音轨数据进行变换;
其中,所述预设变换策略包括以下至少一项:左声道和右声道平移,左声道和右声道互换,调整音量,调整频率,调整幅度,高通滤波,低通滤波,混响。
8.一种音频分离网络的训练装置,其特征在于,所述装置包括:
获取单元,获取音频数据集;
第一处理单元,用于基于第一音频分离网络对所述音频数据集中的第一混合音频数据进行分离,输出目标音轨数据;
混合单元,用于基于预设混合策略对所述目标音轨数据进行混合,得到第二混合音频数据;
第二处理单元,用于基于所述目标音轨数据和所述第二混合音频数据对第二音频分离网络进行训练,计算损失函数;损失函数不满足收敛条件,更新所述第二音频分离网络的网络参数,并将更新后的第二音频分离网络作为第一音频分离网络;损失函数满足收敛条件,得到训练好的第二音频分离网络。
9.一种电子设备,其特征在于,所述电子设备包括:处理器和配置为存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器配置为运行所述计算机程序时,执行权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于OPPO广东移动通信有限公司,未经OPPO广东移动通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111566754.X/1.html,转载请声明来源钻瓜专利网。