[发明专利]神经网络声码器语音合成的方法、装置、设备以及介质在审
| 申请号: | 202110545405.3 | 申请日: | 2021-05-19 |
| 公开(公告)号: | CN113345406A | 公开(公告)日: | 2021-09-03 |
| 发明(设计)人: | 王飞;张李;王欢良;唐浩元;王佳珺;代大明 | 申请(专利权)人: | 苏州奇梦者网络科技有限公司 |
| 主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L19/04;G10L19/16;G10L19/26;G10L25/24;G10L25/30 |
| 代理公司: | 苏州铭浩知识产权代理事务所(普通合伙) 32246 | 代理人: | 朱斌兵 |
| 地址: | 215000 江苏省苏州市中国(江苏)自由*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 神经网络 声码 语音 合成 方法 装置 设备 以及 介质 | ||
1.神经网络声码器语音合成的方法,其特征在于,包括如下步骤:
输入音频各帧的声学特征;
将声学特征转换为线性频谱,线性频谱通过多通道抗混叠滤波后输出频谱,输出的频谱进行频域降采样并获取降采样之后各通道的自相关函数;随后,各通道的自相关函数通过迭代算法生成各个通道的线性预测滤波器系数,再通过线性预测滤波器获取合成音频的低频;
声学特征通过上下文抽取网络获取声学特征的上下文信息,并将上下文信息的帧级特征扩增复制;帧级特征扩增复制后的上下文信息通过自回归残差网络补全残差输出,残差输出通过投影网络后采样生成各个通道的残差信号,随后,对各个通道的残差信号进行抗镜像滤波后得到合成音频的高频;
将帧级特征扩增复制后的上下文信息、各个通道的线性预测系数以及各个通道的残差信号作为参考输入自回归残差网络中对残差信号进行完善补充;
将合成音频的低频和合成音频的高频相加,获得各个通道的音频,再将各个通道的音频进行升采样,随后将各个通道的音频叠加,最终得到输出语音。
2.如权利要求1所述的神经网络声码器语音合成的方法,其特征在于:对线性频谱进行多通道抗混叠滤波时采用伪正交镜像滤波器组作为带通滤波器,过滤出由低频到高频的带通频率信息;其中,伪正交镜像滤波器组的脉冲响应为:
其中,N为冲击响应的抽头数量,M为滤波器组的数量。
3.如权利要求1所述的神经网络声码器语音合成的方法,其特征在于:所述自回归残差网络采用RNN结构,并对所述对RNN的权重矩阵进行块稀疏化,其步骤如下:
S101 对RNN的权重矩阵进行分块;
S102 计算各个分块的1范数;
S103 对各个分块的范数排序,并将范数较小的分块置零;
S104 经过反复多次迭代,直到稀程度达到要求。
4.如权利要求1所述的神经网络声码器语音合成的方法,其特征在于:所述投影网络采用全连接层将残差输出投影网络至多项分布,对该概率分布进行采样获取残差信号,其分布的项数为;其中N为音频的量化比特数,投影网络的输出节点数变为,M表示一步生成M点。
5.如权利要求1所述的神经网络声码器语音合成的方法,其特征在于:对各个通道的残差信号进行抗镜像滤波时,抗镜像滤波器组的脉冲响应为:
;
其中,N为冲击响应的抽头数量,M为滤波器组的通道数,原型滤波器的脉冲响应为:
其中,为截至频率比率。
6.如权利要求1所述的神经网络声码器语音合成的方法,其特征在于:对线性频谱进行多通道抗混叠滤波后的输出为:
其中,为线性预测滤波器的输入序列,K为线性预测滤波器的阶数,为线性预测滤波器系数。
7.如权利要求1所述的神经网络声码器语音合成的方法,其特征在于,对自回归残差网络件进行完善补充的方法如下:
每隔若干点各个通道的残差信号输出以及线性预测滤波器的输出输入自回归残差网络中;
自回归网络结合帧级特征扩增复制后的上下文信息、线性预测滤波器的输出以及各个通道的残差信号输出作为参考输入,逐点完善残差输出,使得残差能够对合成语音的细节进行补全。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州奇梦者网络科技有限公司,未经苏州奇梦者网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110545405.3/1.html,转载请声明来源钻瓜专利网。





