[发明专利]音频分离方法、装置、电子设备及计算机可读存储介质有效
| 申请号: | 202010780016.4 | 申请日: | 2020-08-05 |
| 公开(公告)号: | CN111724807B | 公开(公告)日: | 2023-08-11 |
| 发明(设计)人: | 孔秋强;宋旭晨;王雨轩 | 申请(专利权)人: | 字节跳动有限公司 |
| 主分类号: | G10L21/028 | 分类号: | G10L21/028;G10L25/30;G10L25/48;G06N3/0464;G06N3/0455;G06N3/048;G06N3/08 |
| 代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 郑颖颖 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 音频 分离 方法 装置 电子设备 计算机 可读 存储 介质 | ||
1.一种音频分离方法,其特征在于,包括:
获取待分离的音频;所述待分离的音频包含至少两种类型的音轨;
将所述音频输入训练后的音频分离模型,以使得所述分离模型中的第一分支基于频谱图对所述音频进行分离,得到第一分离结果,以及使得所述分离模型中的第二分支基于时域对所述音频进行分离,得到第二分离结果,并基于所述第一分离结果和所述第二分离结果得到分离后的目标音轨;所述目标音轨的类型为所述至少两种类型中的任一种,且与所述训练后的音频分离模型的分离类型相同;
输出所述目标音轨;
其中,所述基于所述第一分离结果和所述第二分离结果得到分离后的目标音轨,包括:
将第一音轨与第二音轨进行整合,得到目标音轨。
2.根据权利要求1所述的音频分离方法,其特征在于,所述音频分离模型通过如下方式生成:
基于预设的原始音频集生成新的目标音频集;所述目标音频集包含至少一个目标音频样本,每个目标音频样本包含至少两种类型的目标音轨样本;
将所述目标音频集中的任一目标音频样本输入预设的音频分离模型,以使得所述分离模型中的第一分支基于频谱图对所述音频样本进行分离,得到第三分离结果,以及使得所述分离模型中的第二分支基于时域对所述音频样本进行分离,得到第四分离结果,并基于所述第三分离结果和所述第四分离结果得到预测音轨;
基于所述预测音轨与所述任一目标音频样本中相同类型的目标音轨样本计算得到损失函数,并基于所述损失函数对所述预设的音频分离模型的各个预设参数进行更新;
重复执行将所述目标音频集中的任一目标音频样本输入预设的音频分离模型,以使得所述分离模型中的第一分支基于频谱图对所述音频样本进行分离,得到第三分离结果,以及使得所述分离模型中的第二分支基于时域对所述音频样本进行分离,得到第四分离结果,并基于所述第三分离结果和所述第四分离结果得到预测音轨,以及,基于所述预测音轨与所述任一目标音频样本中相同类型的目标音轨样本计算得到损失函数,并基于所述损失函数对所述预设的音频分离模型的各个预设参数进行更新的步骤,直至所述损失函数最小值收敛,得到训练后的音频分离模型。
3.根据权利要求1所述的音频分离方法,其特征在于,所述音频分离模型中的第一分支基于频谱图对所述音频进行分离,得到第一分离结果,包括:
对所述音频进行傅里叶变换,得到所述音频的频谱图;
计算得到所述频谱图的相位;
基于所述相位确定出待分离类型的第一音轨的频谱图;
对所述第一音轨的频谱图进行反傅里叶变换,得到第一音轨。
4.根据权利要求1所述的音频分离方法,其特征在于,所述音频分离模型中的第二分支基于时域对所述音频进行分离,得到第二分离结果,包括:
基于预设的时域回归函数对所述音频进行分离,得到待分离类型的第二音轨。
5.根据权利要求2所述的音频分离方法,其特征在于,所述原始音频集包含至少一个类型的音轨,每个类型的音轨包含至少一条原始音轨;
所述基于预设的原始音频集生成新的目标音频集,包括:
从各个类型的各个原始音轨中各自随机提取出两段预设时长的音轨片段;
将两段音轨片段进行混合,得到具有所述预设时长的、混合后的各个第一音轨片段;
将不同类型的任意两个第一音轨片段进行混合,得到具有所述预设时长的、混合后的各个第二音轨片段,并将各个第二音轨片段作为各个目标音频样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于字节跳动有限公司,未经字节跳动有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010780016.4/1.html,转载请声明来源钻瓜专利网。





