[发明专利]使用卷积生成对抗网络进行波形合成的谱图有效
| 申请号: | 201910419461.5 | 申请日: | 2019-05-20 |
| 公开(公告)号: | CN110503128B | 公开(公告)日: | 2023-01-13 |
| 发明(设计)人: | 塞尔坎·安瑞克;俊熙雄;埃里克·昂德桑德;格雷戈里·迪莫斯 | 申请(专利权)人: | 百度(美国)有限责任公司 |
| 主分类号: | G06F18/25 | 分类号: | G06F18/25;G06N3/04;G06N3/08 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 马晓亚;王艳春 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 对于从谱图合成波形的问题,本文中提出了基于转置卷积来实现高计算强度和快速推导的高效神经网络架构的实施方式。在一个或多个实施方式中,为了对卷积声码器架构进行训练,利用识别不切实际的波形的评价者并使用与感知音频质量相关的损失以及GAN框架来进行引导。该模型的实施方式可以在产生高质量音频的同时达到实时音频合成速度的500倍以上。还公开了从谱图进行波形合成的多头卷积神经网络(MCNN)实施方式。与常用的诸如Griffin‑Lim的迭代算法相比,MCNN实施方式能够显著更好地利用现代多核处理器,并且MCNN实施方式能够产生非常快速(比实时快超过300倍)的波形合成。本文中的实施方式产生高质量的语音合成,而无需在计算中进行任何迭代算法或自回归。 | ||
| 搜索关键词: | 使用 卷积 生成 对抗 网络 进行 波形 合成 | ||
【主权项】:
1.训练用于谱图反演的神经网络模型的计算机实施方法,包括:/n将包括多个频率信道的输入谱图输入至包括至少一个头的卷积神经网络中,其中,头包括转置卷积层的集合,在所述转置卷积层的集合中,每个转置卷积层通过非线性操作分离,并且所述转置卷积层的集合在所述转置卷积层的集合中的最后一个转置卷积层之后将所述输入谱图的频率信道的数量减小至一个信道;/n从所述卷积神经网络输出针对所述输入谱图的合成波形,所述输入谱图具有相应的真值波形;/n使用所述相应的真值波形、所述合成波形和损失函数来获取所述卷积神经网络的损失,其中,所述损失函数包括选自频谱收敛损失和对数标度短时傅立叶变换幅度损失中的至少一项;以及/n使用所述损失来更新所述卷积神经网络。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度(美国)有限责任公司,未经百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910419461.5/,转载请声明来源钻瓜专利网。





