[发明专利]一种多说话人、多语言的语音合成方法及系统有效
申请号: | 202011256113.X | 申请日: | 2020-11-11 |
公开(公告)号: | CN112435650B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 朱海;王昆;周琳珉;刘书君 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L13/04;G10L13/08;G10L25/24 |
代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 张秀敏 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 说话 语言 语音 合成 方法 系统 | ||
本发明公开了一种多说话人、多语言的语音合成方法,包括提取语音声学特征;将不同语言的文本处理为统一的表征方式,并将音频和文本对齐,获取时长信息;构建说话人空间和语言空间,生成说话人id和语言id,提取说话人向量和语言向量加入到初始语音合成模型,采用对齐后的文本、时长信息和语音声学特征对初始语音合成模型进行训练,得到语音合成模型;对待合成文本处理后生成说话人id和语言id;将说话人id、文本以及语言id,输入到语音合成模型,输出语音声学特征并转换为音频。还公开了一种系统。本发明实现了对说话人的特征以及语言特征的“解纠缠”,并且只需要变换id就可以实现说话人或语言的转换。
技术领域
本发明涉及语音合成技术领域,具体的说,是一种多说话人、多语言的语音合成方法及系统。
背景技术
语音合成是一种将文本信息转换为语音信息的技术,即将文字信息转换为任意的可听的语音,涉及到声学、语言学和计算机科学等多门学科。然而如何在保持说话人一致性的条件下,用单语语音数据库建立多说话人、多语言的语音合成系统一直是个难题。传统的多语言语音合成系统依赖多语语音数据库,然而多语数据库在实际中难以得到(很难找到精通多国语言的说话人来录制语音数据),并且不能随意对说话人音色、语言发音等进行转换。
发明内容
本发明的目的在于提供一种多说话人、多语言的语音合成方法及系统,用于解决现有技术中尚不能满足在说话人一致的条件下,用单语语音数据库实现多说话人、多语言的语音合成的问题。
本发明通过下述技术方案解决上述问题:
一种多说话人、多语言的语音合成方法,包括:
步骤S100:训练语音合成模型,具体包括:
步骤S110:获取多说话人、单语言的语音训练数据库,提取语音声学特征;
步骤S120:将语音训练数据库不同语言的文本处理为统一的表征方式,并将音频和文本进行对齐,获取文本对应的时长信息;
步骤S130:构建说话人空间和语言空间,生成对齐后的文本对应的说话人id以及对齐后的文本中每个字符对应的语言id,并从说话人空间提取说话人id对应的说话人向量,从语言空间提取语言id对应的语言向量;
步骤S140:将说话人向量和语言向量加入到初始语音合成模型的各个部分,采用所述对齐后的文本、时长信息和语音声学特征对说话人空间、语言空间和初始语音合成模型进行训练,得到训练好的语音合成模型;
步骤S200:将待合成文本转换为音频,具体包括:
步骤S210:对待合成文本进行规范化处理,并按文本语言分类;
步骤S220:将分类后的文本处理成统一的表征方式,并将音频和文本进行对齐,由预测器预测文本对应的时长信息,生成对齐后的文本对应的说话人id以及对齐后的文本中每个字符对应的语言id;
步骤S230:指定说话人id,将说话人id、经S220处理后的文本以及对应字符的语言id,输入到训练好的语音合成模型,输出语音声学特征;
步骤S240:将语音声学特征转换为音频。
所述语音声学特征包括梅尔频谱特征、频谱能量特征和基频特征。
所述步骤S120具体包括:
将语音训练数据库不同语言的文本处理为统一的音素表达方式,可以是拼音音素或CMU音素,或将不同语言的文本处理为统一的Unicode编码表达方式;
采用MFA算法将不同语言的文本及音频进行对齐,获得对齐后的文本及文本对应的时长;
将时长转化为帧数,时长帧数的总和与梅尔频谱特征的帧数之和相等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011256113.X/2.html,转载请声明来源钻瓜专利网。