[发明专利]一种多说话人、多语言的语音合成方法及系统有效

申请号：	202011256113.X	申请日：	2020-11-11
公开（公告）号：	CN112435650B	公开（公告）日：	2022-04-15
发明（设计）人：	朱海;王昆;周琳珉;刘书君	申请（专利权）人：	四川长虹电器股份有限公司
主分类号：	G10L13/047	分类号：	G10L13/047;G10L13/04;G10L13/08;G10L25/24
代理公司：	四川省成都市天策商标专利事务所(有限合伙) 51213	代理人：	张秀敏
地址：	621000 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种说话语言语音合成方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种多说话人、多语言的语音合成方法，包括提取语音声学特征；将不同语言的文本处理为统一的表征方式，并将音频和文本对齐，获取时长信息；构建说话人空间和语言空间，生成说话人id和语言id，提取说话人向量和语言向量加入到初始语音合成模型，采用对齐后的文本、时长信息和语音声学特征对初始语音合成模型进行训练，得到语音合成模型；对待合成文本处理后生成说话人id和语言id；将说话人id、文本以及语言id，输入到语音合成模型，输出语音声学特征并转换为音频。还公开了一种系统。本发明实现了对说话人的特征以及语言特征的“解纠缠”，并且只需要变换id就可以实现说话人或语言的转换。

技术领域

本发明涉及语音合成技术领域，具体的说，是一种多说话人、多语言的语音合成方法及系统。

背景技术

语音合成是一种将文本信息转换为语音信息的技术，即将文字信息转换为任意的可听的语音，涉及到声学、语言学和计算机科学等多门学科。然而如何在保持说话人一致性的条件下，用单语语音数据库建立多说话人、多语言的语音合成系统一直是个难题。传统的多语言语音合成系统依赖多语语音数据库，然而多语数据库在实际中难以得到(很难找到精通多国语言的说话人来录制语音数据)，并且不能随意对说话人音色、语言发音等进行转换。

发明内容

本发明的目的在于提供一种多说话人、多语言的语音合成方法及系统，用于解决现有技术中尚不能满足在说话人一致的条件下，用单语语音数据库实现多说话人、多语言的语音合成的问题。

本发明通过下述技术方案解决上述问题：

一种多说话人、多语言的语音合成方法，包括：

步骤S100：训练语音合成模型，具体包括：

步骤S110：获取多说话人、单语言的语音训练数据库，提取语音声学特征；

步骤S120：将语音训练数据库不同语言的文本处理为统一的表征方式，并将音频和文本进行对齐，获取文本对应的时长信息；

步骤S130：构建说话人空间和语言空间，生成对齐后的文本对应的说话人id以及对齐后的文本中每个字符对应的语言id，并从说话人空间提取说话人id对应的说话人向量，从语言空间提取语言id对应的语言向量；

步骤S140：将说话人向量和语言向量加入到初始语音合成模型的各个部分，采用所述对齐后的文本、时长信息和语音声学特征对说话人空间、语言空间和初始语音合成模型进行训练，得到训练好的语音合成模型；

步骤S200：将待合成文本转换为音频，具体包括：

步骤S210：对待合成文本进行规范化处理，并按文本语言分类；

步骤S220：将分类后的文本处理成统一的表征方式，并将音频和文本进行对齐，由预测器预测文本对应的时长信息，生成对齐后的文本对应的说话人id以及对齐后的文本中每个字符对应的语言id；