[发明专利]神经网络声码器语音合成的方法、装置、设备以及介质在审
申请号: | 202110545405.3 | 申请日: | 2021-05-19 |
公开(公告)号: | CN113345406A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 王飞;张李;王欢良;唐浩元;王佳珺;代大明 | 申请(专利权)人: | 苏州奇梦者网络科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L19/04;G10L19/16;G10L19/26;G10L25/24;G10L25/30 |
代理公司: | 苏州铭浩知识产权代理事务所(普通合伙) 32246 | 代理人: | 朱斌兵 |
地址: | 215000 江苏省苏州市中国(江苏)自由*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 声码 语音 合成 方法 装置 设备 以及 介质 | ||
本发明公开了神经网络声码器语音合成的方法、装置、设备以及介质,其将音频低频由线性预测滤波器建模生成,将高频细节部分用自回归残差网络补全,同时将自回归残差网络进行补充完善,然后将低频细节和高频细节叠加,最后输出语音,合成的稳定性高,其中的多通道以及一步多点技术增加推理运算效率,另外对RNN结构的块稀疏化、减小自回归的运算量的同时提升矩阵运算计算效率,从而实现了让语音合成提供最佳质量的同时保证高效实,具有参数量低、合成速度快和合成音质高特点,符合实际的使用需求。
技术领域
本发明涉及语音信号处理领域,尤其涉及一种神经网络声码器语音合成的方法、装置、设备以及介质。
背景技术
语音合成,也就是人类声音的人工产品,被广泛应用于从助手到游戏、娱乐等各种领域,目前,语音合成已经成为语音助手不可或缺的一部分;语音合成的一般流程为:先将文本转为声学特征,随后将声学特征转为音频,声码器作为语音合成的重要组成部分,负责的就是将声学特征转换为音频。
目前声码器有两条技术路线:源-滤波器声码器以及神经网络声码器,源-滤波器声码器能够提供高度可理解的、流畅的语音,但整体质量略低。
近期,深度学习对语音领域冲击巨大,神经网络声码器极大的超越了传统的源-滤波器声码器,以WaveGLow以及MelGan为代表的生成型神经网络声码器具有合成速度高的特点,但其生成过程不可控的特性造成了其合成音不稳定,而以WaveRNN、LPCNet为代表的自回归型神经网络声码器极有潜力,能够提供高质量且稳定的合成音,然而高保真音频的采样率都在16KHz以上,自回归使得声码器合成的计算量高、速度不理想、时间延迟高。
发明内容
本发明目的是为了克服现有技术的不足而提供一种为能让语音合成提供最佳质量的同时保证高效实,具有参数量低、合成速度快和合成音质高特点的神经网络声码器语音合成的方法、装置、设备以及介质。
为达到上述目的,本发明一实施例提供了神经网络声码器语音合成的方法,包括如下步骤:
输入音频各帧的声学特征;
将声学特征转换为线性频谱,线性频谱通过多通道抗混叠滤波后输出频谱,输出的频谱进行频域降采样并获取降采样之后各通道的自相关函数;随后,各通道的自相关函数通过迭代算法生成各个通道的线性预测滤波器系数,再通过线性预测滤波器获取合成音频的低频;
声学特征通过上下文抽取网络获取声学特征的上下文信息,并将上下文信息的帧级特征扩增复制;帧级特征扩增复制后的上下文信息通过自回归残差网络补全残差输出,残差输出通过投影网络后采样生成各个通道的残差信号,随后,对各个通道的残差信号进行抗镜像滤波后得到合成音频的高频;
将帧级特征扩增复制后的上下文信息、各个通道的线性预测系数以及各个通道的残差信号作为参考输入自回归残差网络中对残差信号进行完善补充;
将合成音频的低频和合成音频的高频相加,获得各个通道的音频,再将各个通道的音频进行升采样,随后将各个通道的音频叠加,最终得到输出语音。
进一步的,对线性频谱进行多通道抗混叠滤波时采用伪正交镜像滤波器组作为带通滤波器,过滤出由低频到高频的带通频率信息;其中,伪正交镜像滤波器组的脉冲响应为:
其中,N为冲击响应的抽头数量,M为滤波器组的数量。
进一步的,所述自回归残差网络采用RNN结构,并对所述对RNN的权重矩阵进行块稀疏化,其步骤如下:
S101 对RNN的权重矩阵进行分块;
S102 计算各个分块的1范数;
S103 对各个分块的范数排序,并将范数较小的分块置零;
S104 经过反复多次迭代,直到稀程度达到要求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州奇梦者网络科技有限公司,未经苏州奇梦者网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110545405.3/2.html,转载请声明来源钻瓜专利网。