[发明专利]一种面向低资源条件下的多风格个性化藏语语音合成模型在审

申请号：	202211129389.0	申请日：	2022-09-16
公开（公告）号：	CN116092471A	公开（公告）日：	2023-05-09
发明（设计）人：	张维昭;杨鸿武;李锦珑;甘振业	申请（专利权）人：	西北师范大学
主分类号：	G10L13/027	分类号：	G10L13/027;G10L13/10;G10L17/04;G10L17/14;G10L17/18;G10L19/00;G10L19/16
代理公司：	兰州智和专利代理事务所(普通合伙) 62201	代理人：	周立新
地址：	730070 甘肃***	国省代码：	甘肃;62
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向资源条件下风格个性化藏语语音合成模型
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向低资源条件下的多风格个性化藏语语音合成模型，其特征在于，包括说话人风格编码器以及依次相连的字音转换模块、文本编码器、方差适配器、梅尔谱解码器和HifiGAN声码器；

说话人风格编码器包括说话人向量仿射层以及依次相连接的韵律向量提取器、梯度翻转层和说话人分类器，韵律向量提取器还与韵律向量仿射层相连；韵律向量提取器由依次设置的全连接层A、一维卷积层A、多头注意力机制层A、全连接层B和时间信息池化层构成；时间信息池化层分别与梯度翻转层和韵律向量仿射层相连；

文本编码器由依次设置的多头注意力机制层B、说话人风格自适应归一化层A、一维卷积层B和说话人风格自适应归一化层B组成；多头注意力机制层B与字音转换模块相连接；说话人风格自适应归一化层B与方差适配器相连；

梅尔谱解码器由依次设置的多头注意力机制层C、说话人风格自适应归一化层C、一维卷积层C、说话人风格自适应归一化层D和全连接层C构成；

全连接层C与HifiGAN声码器相连接；多头注意力机制层C与方差适配器相连接；

说话人风格编码器分别与文本编码器和梅尔谱解码器相连；

该合成模型采用“预训练+元学习”的模型算法进行训练；将深度学习模型可学习的模型参数θ分为与韵律相关的参数θ^p、与说话人相关的参数θ^s和其他剩余参数构成，即；θ^p和θ^s包括说话人风格编码器的可学习模型参数，包括文本编码器、梅尔谱解码器和方差适配器的可学习模型参数。

2.根据权利要求1所述的面向低资源条件下的多风格个性化藏语语音合成模型，其特征在于，所述基于“预训练+元学习”的模型训练算法包括预训练阶段、元学习阶段1、元学习阶段2和自适应阶段；在预训练阶段，利用大规模多说话人普通话语料预训练一个多说话人普通话声学模型，θ₀表示初始化的声学模型参数，θ_M1表示经预训练完成后的普通话声学模型参数集；预训练阶段，将所有的可学习模型参数由更新至；在元学习阶段1，在预训练的多说话人普通话声学模型的基础上，利用小规模的多风格多说话人普通话语料库，采用元学习算法训练得到多风格个性化普通话声学模型，θ_M2表示经元学习阶段1得到的多风格个性化普通话声学模型；在元学习阶段1，冻结参数集θ_M1中的参数，只更新说话人相关参数和说话人风格相关参数，使可学习模型参数由更新至；在元学习阶段2，在多风格个性化普通话声学模型的基础上，利用小规模的藏语普语料库，采用元学习算法训练得到多风格个性化藏语声学模型，θ_T表示经元学习阶段2得到的多风格个性化藏语声学模型；在元学习阶段2，冻结参数集θ_M2中的说话人风格相关参数，只更新说话人相关参数和其他参数，使可学习模型参数由更新至；在自适应阶段，冻结参数集θ_T中的韵律相关参数和模型其他参数，使用K个目标说话人的样本，只更新说话人相关参数，使可学习模型参数由更新至。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北师范大学，未经西北师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211129389.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向低资源条件下的多风格个性化藏语语音合成模型在审

专利文献下载