[发明专利]一种多说话人、多语言的语音合成方法及系统有效

专利信息
申请号: 202011256113.X 申请日: 2020-11-11
公开(公告)号: CN112435650B 公开(公告)日: 2022-04-15
发明(设计)人: 朱海;王昆;周琳珉;刘书君 申请(专利权)人: 四川长虹电器股份有限公司
主分类号: G10L13/047 分类号: G10L13/047;G10L13/04;G10L13/08;G10L25/24
代理公司: 四川省成都市天策商标专利事务所(有限合伙) 51213 代理人: 张秀敏
地址: 621000 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 说话 语言 语音 合成 方法 系统
【权利要求书】:

1.一种多说话人、多语言的语音合成方法,其特征在于,包括:

步骤S100:训练语音合成模型,具体包括:

步骤S110:获取多说话人、单语言的语音训练数据库,提取语音声学特征;

步骤S120:将语音训练数据库不同语言的文本处理为统一的表征方式,并将音频和文本进行对齐,获取文本对应的时长信息;

步骤S130:构建说话人空间和语言空间,生成对齐后的文本对应的说话人id以及对齐后的文本中每个字符对应的语言id,并从说话人空间提取说话人id对应的说话人向量,从语言空间提取语言id对应的语言向量;

步骤S140:将说话人向量和语言向量加入到初始语音合成模型的各个部分,采用所述对齐后的文本、时长信息和语音声学特征对说话人空间、语言空间和初始语音合成模型进行训练,得到训练好的语音合成模型;

步骤S200:将待合成文本转换为音频,具体包括:

步骤S210:对待合成文本进行规范化处理,并按文本语言分类;

步骤S220:将分类后的文本处理成统一的表征方式,并将音频和文本进行对齐,由预测器预测文本对应的时长信息,生成对齐后的文本对应的说话人id以及对齐后的文本中每个字符对应的语言id;

步骤S230:指定说话人id,将说话人id、经S220处理后的文本以及对应字符的语言id,输入到训练好的语音合成模型,输出语音声学特征;

步骤S240:将语音声学特征转换为音频。

2.根据权利要求1所述的一种多说话人、多语言的语音合成方法,其特征在于,所述语音声学特征包括梅尔频谱特征、频谱能量特征和基频特征。

3.根据权利要求2所述的一种多说话人、多语言的语音合成方法,其特征在于,所述步骤S120具体包括:

将语音训练数据库不同语言的文本处理为统一的音素表达方式,或将不同语言的文本处理为统一的Unicode编码表达方式;

采用MFA算法将不同语言的文本及音频进行对齐,获得对齐后的文本及文本对应的时长;

将时长转化为帧数,时长帧数的总和与梅尔频谱特征的帧数之和相等。

4.根据权利要求3所述的一种多说话人、多语言的语音合成方法,其特征在于,所述步骤S130具体为:

设置每一条语音训练数据的语言id的长度与对齐后的文本的时长相等;设置每一条语音训练数据的说话人id的长度为1,对不同的说话人、不同的语言分别取不同的id值;

根据语音训练数据中的说话人数量、语言数量构建说话人空间与语言空间,并进行初始化,将说话人id、语言id转换为one-hot向量,并提取说话人向量和语言向量。

5.根据权利要求3所述的一种多说话人、多语言的语音合成方法,其特征在于,所述步骤S240采用Multi-band MelGAN声码器将语音声学特征转换为音频。

6.一种多说话人、多语言的语音合成系统,其特征在于,包括文本处理模块、信息标记模块、信息编码模块、声学特征输出模块和声码器模块,其中:

文本处理模块,用于对文本进行规范化处理,将文本按对语言分类并且将不同语言的文本处理为统一的表达方式,并将音频和文本进行对齐,获取文本对应的时长信息;

信息标记模块,用于对文本的每个字符生成对应的语言id,同时根据用户需要,生成说话人id;

信息编码模块,用于构建说话人空间和语言空间,根据语言id、说话人id在语言空间、说话人空间中提取对应的语言向量、说话人向量;

声学特征输出模块,用于训练阶段将输入经过处理的文本、语言向量、说话人向量,输入到语音合成模型进行模型训练得到训练好的语音合成模型;并在推理阶段将经过处理的文本、语言向量、说话人向量输入训练好的语音合成模型,转换成语音的声学特征并输出;

声码器模块,用于根据输入语音的声学特征输出音频。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011256113.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top