[发明专利]基于ghost和iLPCnet的蒙古语语音合成方法在审
申请号: | 202210252979.6 | 申请日: | 2022-03-15 |
公开(公告)号: | CN114822487A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 仁庆道尔吉;张文静;萨和雅;代钦;锡林格日勒 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ghost ilpcnet 蒙古语 语音 合成 方法 | ||
1.一种基于ghost和iLPCnet的蒙古语语音合成方法,其特征在于,包括如下步骤:
步骤1,提取蒙古文的文本特征,并将文本特征编码转换为音素序列,所述音素序列输入至Bang预训练模型;
步骤2,利用Bang预训练模型训练蒙古文音素信息,将音素信息对齐;
步骤3,基于加轻量级ghost模块的deepvoice3声学模型,通过音素信息生成声学特征;
步骤4,以融入蒙古语语音特征的iLPCnet模型为声码器,将声学特征转换为语音波形,进而实现蒙古语语音合成。
2.根据权利要求1所述基于ghost和iLPCnet的蒙古语语音合成方法,其特征在于,所述步骤1,编码器为ghost模块编码器。
3.根据权利要求1所述基于ghost和iLPCnet的蒙古语语音合成方法,其特征在于,所述Bang预训练模型由多层堆叠的Transformer编码器和多层堆叠的Transformer解码器组成;所述Transformer编码器使用自注意力机制,所述Transformer解码器使用跨流可见多流自注意力机制;
所述跨流可见多流自注意力机制,在第一个预测流中,每个输入的蒙古语音素信息均是有依赖关系的,每个音素均以自回归进行预测;在剩余预测流中,第一个音素以非自回归进行预测,其他音素则以介于自回归和非自回归之间的方式进行预测;目标序列长度|Y|=n,则Bang预训练模型设置n个预测流,此时每个音素的前i个信息被掩码替换的情形,均能够在同一个时间步中被并行预测。
4.根据权利要求1所述基于ghost和iLPCnet的蒙古语语音合成方法,其特征在于,所述deepvoice3声学模型采用全卷积的编码器和解码器,并且以串行的方式组成,即以自回归的方式生成声学特征。
5.根据权利要求4所述基于ghost和iLPCnet的蒙古语语音合成方法,其特征在于,所述步骤3,在deepvoice3声学模型的编码器和解码器中,均采用多层堆叠的ghost模块替代全卷积模块,所述ghost模块包含卷积部分和线性变换部分,所述卷积部分使用一维卷积,通过减少输出通道数的方式,减少参数量和计算量;所述线性变换部分使用多个线性映射,将少通道特征变为多通道特征,即通过动态调整通道数,保证输出与声学特征维度一致。
6.根据权利要求1所述基于ghost和iLPCnet的蒙古语语音合成方法,其特征在于,所述声码器由上采样网络和语音生成网络组成,所述上采样网络将输入的蒙古语声学特征的时间分辨率与原有蒙古语语音库中的语音信号的采样率相匹配,所述语音生成网络用于根据声学特征自动回归生成蒙古语语音。
7.根据权利要求6所述基于ghost和iLPCnet的蒙古语语音合成方法,其特征在于,所述上采样网络使用两个1*3的CNN卷积层提取声学特征的局部上下文,构造上下文向量,连接输入的声学特征,使上下文向量对当前帧信息更具支配性;所述语音生成网络使用完全连接层,将上采样网络构造的上下文向量的维度映射到上下文的输入维度,再经过滤波器过滤噪音,最后,通过在上采样网络中的结果确定上下文的输出维度,输出蒙古语语音。
8.根据权利要求1至7任一权利要求所述基于ghost和iLPCnet的蒙古语语音合成方法,其特征在于,所述声学特征为mel频谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210252979.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:测试系统、测试方法
- 下一篇:晶棒静置完成确定方法、晶棒粘胶系统和计算机设备