[发明专利]一种语音合成方法、装置、设备及存储介质在审
| 申请号: | 202211630632.7 | 申请日: | 2022-12-19 |
| 公开(公告)号: | CN115762471A | 公开(公告)日: | 2023-03-07 |
| 发明(设计)人: | 沈旭晖 | 申请(专利权)人: | 思必驰科技股份有限公司 |
| 主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/10;G10L25/30 |
| 代理公司: | 苏州谨和知识产权代理事务所(特殊普通合伙) 32295 | 代理人: | 叶栋 |
| 地址: | 215000 江苏省苏州市*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 合成 方法 装置 设备 存储 介质 | ||
本发明提供一种语音合成方法、装置、设备及存储介质,所述方法包括:接收目标文本;将所述目标文本转换为拼音序列;基于选定的目标语言标签,利用声学模型将所述拼音序列转换为声学特征,所述声学特征为所述目标语言标签对应的特征;其中,所述声学模型中包括语言标签结构;采用神经声码器将所述声学特征合成音频数据,所述音频数据为所述目标语言标签对应的语言;所述声学模型和所述神经声码器基于多种语言的语音样本训练获得。本发明能够实现了多种不同语言的语音合成,从而实现只会说一种话的人也可以合成不同语言的音频数据,进一步实现了不同地区的人们之间顺畅沟通交流,方便了人们的交流,提升了语音合成的准确性和效率。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语音合成方法、装置、设备及存储介质。
背景技术
随着科技的进步,智能语音技术也在不断发展,如:智能语音设备、语音合成技术等。通过智能语音设备可以实现人机智能对话,语音合成技术是指计算机通过分析将任意文本转化为流畅语音的技术,但一般的语音合成均是合成一种语言,尤其是主流语言如:中文普通话。对于一些小语种或方言的合成,需要寻找目标小语种方言的发音人录音,发音人需要有特定的口音、合适的音色,且需要专业的配音技术,这样导致小语种或方言的语音合成难度高,准确度也不能保证。并且,一般的语音合成只能合成一种语种,若要合成多种语种则需要训练多个智能模型,过程繁琐。
因此,本领域亟需一种能够适用于多种语言的语音合成方案。
发明内容
鉴于此,本发明实施例提供了一种语音合成方法、装置、设备及存储介质,以消除或改善现有技术中存在的一个或更多个缺陷。
本发明的一个方面提供了一种语音合成方法,该方法包括以下步骤:
接收目标文本;
将所述目标文本转换为拼音序列;
基于选定的目标语言标签,利用声学模型将所述拼音序列转换为声学特征,所述声学特征为所述目标语言标签对应的特征;其中,所述声学模型中包括语言标签结构;
采用神经声码器将所述声学特征合成音频数据,所述音频数据为所述目标语言标签对应的语言,所述声学模型和所述神经声码器基于多种语言的语音样本训练获得。
在本发明的一些实施例中,所述声学模型中还包括音色标签结构;
所述基于选定的目标语言标签,利用声学模型将所述拼音序列转换为声学特征,还包括:
基于选定的目标语言标签和目标音色标签,利用所述声学模型将所述拼音序列转换为声学特征,所述声学特征为所述目标语言标签以及所述目标音色标签对对应的特征;
合成的所述音频数据的发音为所述目标音色标签对应的音色。
在本发明的一些实施例中,所述方法还包括:基于国际音标将多种语言的拼音序列统一为国际音标拼音方案;
所述将所述目标文本转换为拼音序列包括:
基于所述国际音标拼音方案将所述目标文本转换为对应的拼音序列。
在本发明的一些实施例中,所述声学模型采用非自回归语音合成模型,所述声学模型中还包括参考编码器结构和文本编码器结构,并在所述文本编码器结构中增加对抗损失。
在本发明的一些实施例中,在训练所述声学模型时,所述方法包括:
多种语言的语音样本的数据量相同,基于所述多种语言的语音样本训练获得初始声学模型;
采集重要语言的附加语音样本,基于所述附加语音样本对所述初始声学模型进行模型优化训练,获得所述声学模型;其中所述重要语言为所述多种语言中的至少一种。
在本发明的一些实施例中,所述声学模型的训练方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211630632.7/2.html,转载请声明来源钻瓜专利网。





