[发明专利]一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法有效
申请号: | 201710992311.4 | 申请日: | 2017-10-23 |
公开(公告)号: | CN107945811B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 曲天书;吴玺宏;黄庆博 | 申请(专利权)人: | 北京大学 |
主分类号: | G10L19/02 | 分类号: | G10L19/02;G10L19/24;G10L21/038 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 频带 扩展 生成 对抗 网络 训练 方法 音频 编码 解码 | ||
1.一种面向频带扩展的生成式对抗网络训练方法,其步骤包括:
对音频信号进行瞬态信号检测;
a)如果检测结果为稳态信号,则对其进行MDCT变换,将得到的频谱作为真数据;对得到的频谱进行分带,并根据得到的高频频谱、低频频谱计算高低频频谱能量包络比,然后对该高低频频谱能量包络比进行量化、反量化;将分带得到的低频频谱输入稳态GAN网络,生成高频频谱;利用反量化的高频能量包络修稳态GAN网络生成的高频频谱,得到最终生成的高频频谱;将最终生成的高频频谱和分带得到的低频频谱合成为全带的生成频谱,将该全带的生成频谱作为假数据;将得到真数据、假数据作为判别网络D的输入,训练生成式对抗网络;
b)如果检测结果为瞬态信号,则对其进行MDCT变换,将得到的频谱作为真数据;对得到的频谱进行分带,并根据得到的高频频谱、低频频谱计算高低频频谱能量包络比,然后对该高低频频谱能量包络比进行量化、反量化;将分带得到的低频频谱输入瞬态GAN网络,生成高频频谱;利用反量化的高频能量包络修正瞬态GAN网生成的高频频谱,得到最终生成的高频频谱;将最终生成的高频频谱和分带得到的低频频谱合成为全带的生成频谱,将该全带的生成频谱作为假数据;将得到真数据、假数据作为判别网络D的输入,训练生成式对抗网络;
其中稳态GAN网络与瞬态GAN网络均为生成式网络GAN,且所述步骤a)中的稳态GAN网络的网络隐层节点系数与所述步骤b)中的瞬态GAN网络的网络隐层节点系数不同。
2.如权利要求1所述的生成式对抗网络训练方法,其特征在于,所述利用反量化的高频能量包络修正生成网络GAN生成的高频频谱,得到最终生成的高频频谱的方法为:利用反量化的高频能量包络作为校正模块使用的先验信息,修正生成网络GAN生成的高频频谱,得到最终生成的高频频谱。
3.如权利要求1所述的生成式对抗网络训练方法,其特征在于,所述计算高低频频谱能量包络比为其中,低频频谱能量包络高频频谱能量包络为MDCTcoef(k)表示MDCT谱系数,cutf_low表示低频截止频率,slen表示选取的融合带的带宽,n表示融合带下标,k表示MDCT谱线的下标。
4.一种音频编码方法,其步骤包括:
利用权利要求1所述方法得到的生成式对抗网络对音频信号进行瞬态信号检测,并根据检测结果标记帧类型;
如果检测结果为稳态信号,则对其进行MDCT变换并采用长帧进行编码,将MDCT变换得到的频谱作为真数据;对得到的频谱进行分带,并根据得到的高频频谱、低频频谱计算高低频频谱能量包络比,然后对该高低频频谱能量包络比进行量化;
如果检测结果为瞬态信号,则对其进行MDCT变换并采用短帧进行编码,将MDCT变换得到的频谱作为真数据;对得到的频谱进行分带,并根据得到的高频频谱、低频频谱计算高低频频谱能量包络比,然后对该高低频频谱能量包络比进行量化;
码流合成,即将量化后的高低频频谱能量包络比、帧类型标记与单通道核心编码器的编码结果一起写入码流。
5.一种音频解码方法,其步骤包括:
从码流中分离出单通道码流、量化后的高低频频谱能量包络比和帧类型标记;
对分离出的单通道码流解码得到时域低频信号;将量化后的高低频频谱能量包络比解码为编码码书中的量化值;
根据帧类型标记对所述时域低频信号进行分帧;根据分帧结果做相应长度的MDCT变换,得到的频谱作为真实数据;并对MDCT变换得到的频谱进行分带,得到高频频谱、低频频谱;
分别计算低频频谱能量包络、高频频谱能量包络;并将得到的低频频谱能量包络经过生成式对抗网络中的生成网络GAN输出高频频谱,将低频频谱能量包络经过生成式对抗网络中的生成网络GAN输出高频频谱;然后用高频频谱能量包络修正输出的高频频谱,得到修正后的高频频谱;
将修正后的高频频谱经IMDCT变换得到高频时域信号;
将所述时域低频信号、高频时域信号进行融合得到最终的时域信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710992311.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于编码和解码HOA或多声道数据的方法和装置
- 下一篇:一种语音处理方法