[发明专利]一种语音合成方法、装置、设备及存储介质在审

申请号：	202211630632.7	申请日：	2022-12-19
公开（公告）号：	CN115762471A	公开（公告）日：	2023-03-07
发明（设计）人：	沈旭晖	申请（专利权）人：	思必驰科技股份有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10L13/10;G10L25/30
代理公司：	苏州谨和知识产权代理事务所(特殊普通合伙) 32295	代理人：	叶栋
地址：	215000 江苏省苏州市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音合成方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种语音合成方法、装置、设备及存储介质，所述方法包括：接收目标文本；将所述目标文本转换为拼音序列；基于选定的目标语言标签，利用声学模型将所述拼音序列转换为声学特征，所述声学特征为所述目标语言标签对应的特征；其中，所述声学模型中包括语言标签结构；采用神经声码器将所述声学特征合成音频数据，所述音频数据为所述目标语言标签对应的语言；所述声学模型和所述神经声码器基于多种语言的语音样本训练获得。本发明能够实现了多种不同语言的语音合成，从而实现只会说一种话的人也可以合成不同语言的音频数据，进一步实现了不同地区的人们之间顺畅沟通交流，方便了人们的交流，提升了语音合成的准确性和效率。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音合成方法、装置、设备及存储介质。

背景技术

随着科技的进步，智能语音技术也在不断发展，如：智能语音设备、语音合成技术等。通过智能语音设备可以实现人机智能对话，语音合成技术是指计算机通过分析将任意文本转化为流畅语音的技术，但一般的语音合成均是合成一种语言，尤其是主流语言如：中文普通话。对于一些小语种或方言的合成，需要寻找目标小语种方言的发音人录音，发音人需要有特定的口音、合适的音色，且需要专业的配音技术，这样导致小语种或方言的语音合成难度高，准确度也不能保证。并且，一般的语音合成只能合成一种语种，若要合成多种语种则需要训练多个智能模型，过程繁琐。

因此，本领域亟需一种能够适用于多种语言的语音合成方案。

发明内容

鉴于此，本发明实施例提供了一种语音合成方法、装置、设备及存储介质，以消除或改善现有技术中存在的一个或更多个缺陷。

本发明的一个方面提供了一种语音合成方法，该方法包括以下步骤：

接收目标文本；

将所述目标文本转换为拼音序列；

基于选定的目标语言标签，利用声学模型将所述拼音序列转换为声学特征，所述声学特征为所述目标语言标签对应的特征；其中，所述声学模型中包括语言标签结构；

采用神经声码器将所述声学特征合成音频数据，所述音频数据为所述目标语言标签对应的语言，所述声学模型和所述神经声码器基于多种语言的语音样本训练获得。

在本发明的一些实施例中，所述声学模型中还包括音色标签结构；

所述基于选定的目标语言标签，利用声学模型将所述拼音序列转换为声学特征，还包括：

基于选定的目标语言标签和目标音色标签，利用所述声学模型将所述拼音序列转换为声学特征，所述声学特征为所述目标语言标签以及所述目标音色标签对对应的特征；

合成的所述音频数据的发音为所述目标音色标签对应的音色。