[发明专利]一种多说话人、多语言的语音合成方法及系统有效
申请号: | 202011256113.X | 申请日: | 2020-11-11 |
公开(公告)号: | CN112435650B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 朱海;王昆;周琳珉;刘书君 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L13/04;G10L13/08;G10L25/24 |
代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 张秀敏 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 说话 语言 语音 合成 方法 系统 | ||
1.一种多说话人、多语言的语音合成方法,其特征在于,包括:
步骤S100:训练语音合成模型,具体包括:
步骤S110:获取多说话人、单语言的语音训练数据库,提取语音声学特征;
步骤S120:将语音训练数据库不同语言的文本处理为统一的表征方式,并将音频和文本进行对齐,获取文本对应的时长信息;
步骤S130:构建说话人空间和语言空间,生成对齐后的文本对应的说话人id以及对齐后的文本中每个字符对应的语言id,并从说话人空间提取说话人id对应的说话人向量,从语言空间提取语言id对应的语言向量;
步骤S140:将说话人向量和语言向量加入到初始语音合成模型的各个部分,采用所述对齐后的文本、时长信息和语音声学特征对说话人空间、语言空间和初始语音合成模型进行训练,得到训练好的语音合成模型;
步骤S200:将待合成文本转换为音频,具体包括:
步骤S210:对待合成文本进行规范化处理,并按文本语言分类;
步骤S220:将分类后的文本处理成统一的表征方式,并将音频和文本进行对齐,由预测器预测文本对应的时长信息,生成对齐后的文本对应的说话人id以及对齐后的文本中每个字符对应的语言id;
步骤S230:指定说话人id,将说话人id、经S220处理后的文本以及对应字符的语言id,输入到训练好的语音合成模型,输出语音声学特征;
步骤S240:将语音声学特征转换为音频。
2.根据权利要求1所述的一种多说话人、多语言的语音合成方法,其特征在于,所述语音声学特征包括梅尔频谱特征、频谱能量特征和基频特征。
3.根据权利要求2所述的一种多说话人、多语言的语音合成方法,其特征在于,所述步骤S120具体包括:
将语音训练数据库不同语言的文本处理为统一的音素表达方式,或将不同语言的文本处理为统一的Unicode编码表达方式;
采用MFA算法将不同语言的文本及音频进行对齐,获得对齐后的文本及文本对应的时长;
将时长转化为帧数,时长帧数的总和与梅尔频谱特征的帧数之和相等。
4.根据权利要求3所述的一种多说话人、多语言的语音合成方法,其特征在于,所述步骤S130具体为:
设置每一条语音训练数据的语言id的长度与对齐后的文本的时长相等;设置每一条语音训练数据的说话人id的长度为1,对不同的说话人、不同的语言分别取不同的id值;
根据语音训练数据中的说话人数量、语言数量构建说话人空间与语言空间,并进行初始化,将说话人id、语言id转换为one-hot向量,并提取说话人向量和语言向量。
5.根据权利要求3所述的一种多说话人、多语言的语音合成方法,其特征在于,所述步骤S240采用Multi-band MelGAN声码器将语音声学特征转换为音频。
6.一种多说话人、多语言的语音合成系统,其特征在于,包括文本处理模块、信息标记模块、信息编码模块、声学特征输出模块和声码器模块,其中:
文本处理模块,用于对文本进行规范化处理,将文本按对语言分类并且将不同语言的文本处理为统一的表达方式,并将音频和文本进行对齐,获取文本对应的时长信息;
信息标记模块,用于对文本的每个字符生成对应的语言id,同时根据用户需要,生成说话人id;
信息编码模块,用于构建说话人空间和语言空间,根据语言id、说话人id在语言空间、说话人空间中提取对应的语言向量、说话人向量;
声学特征输出模块,用于训练阶段将输入经过处理的文本、语言向量、说话人向量,输入到语音合成模型进行模型训练得到训练好的语音合成模型;并在推理阶段将经过处理的文本、语言向量、说话人向量输入训练好的语音合成模型,转换成语音的声学特征并输出;
声码器模块,用于根据输入语音的声学特征输出音频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011256113.X/1.html,转载请声明来源钻瓜专利网。