[发明专利]语音合成方法、装置、电子设备及存储介质在审

申请号：	202110835125.6	申请日：	2021-07-23
公开（公告）号：	CN113555003A	公开（公告）日：	2021-10-26
发明（设计）人：	孙奥兰;王健宗	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10L17/02;G10L25/24
代理公司：	深圳市沃德知识产权代理事务所(普通合伙) 44347	代理人：	高杰;于志光
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及语音语义领域，揭露了一种语音合成方法，包括：利用语音合成模型对待合成文本进行语音合成，得到待合成文本的文本语音；获取用户语音，对用户语音进行特征提取，得到特征用户语音；利用语音转换模型中的编码器提取文本语音的语义特征，及特征用户语音的声纹特征，并利用语音转换模型中的解码器对语义特征和声纹特征进行特征融合，得到融合特征；利用声码器对融合特征进行音频合成，得到音频合成结果。另外，本发明还提出一种语音合成装置、电子设备以及计算机可读存储介质。此外，本发明还涉及区块链技术，所述音频合成结果可存储于区块链中。本发明可以实现任意用户语音与文本语音的合成，满足用户个性化的文本语音音色定制需求。

技术领域

本发明涉及语音语义领域，尤其涉及一种语音合成方法、装置、电子设备及计算机可读存储介质。

背景技术

语音合成(Text-To-Speech，TTS)是指通过文字人工生成人类的声音，也就是让设备根据相应的输入文本发出语音，近年来，神经语音合成(Text-to-Speech,TTS)系统高速发展，摆脱了传统pipline冗杂的合成流程，不再依赖高度专业的文法、词法特征提取，而是将原始文本经过神经网络转成梅尔谱，再将梅尔谱转成声音波形，实现了端到端的语音合成系统，所合成的语音质量近似人声，其在人工智能行业有着非常重要的应用，比如语音助手和各种场景的翻译、有声读物、新闻播报、AI电话和AI主播等。

目前在生产生活中，虽然语音合成技术已经有各种形式的产品的落地，但是传统的语音合成技术只能针对单一的或者有限的说话人音色进行合成，而无法合成从未参与过训练的说话人音色的语音，从而带来仅能合成有限说话人的音色语音的局限性。

发明内容

本发明提供一种语音合成方法、装置、电子设备及计算机可读存储介质，其主要目的在于实现任意用户语音与文本语音的合成，满足用户个性化的文本语音音色定制需求。

为实现上述目的，本发明提供的一种语音合成方法，包括：

利用语音合成模型对待合成文本进行语音合成，得到所述待合成文本的文本语音；

获取用户语音，对所述用户语音进行特征提取，得到特征用户语音；

利用语音转换模型中的编码器提取所述文本语音的语义特征，及所述特征用户语音的声纹特征，并利用所述语音转换模型中的解码器对所述语义特征和所述声纹特征进行特征融合，得到融合特征；

利用声码器对所述融合特征进行音频合成，得到音频合成结果。

可选地，所述利用语音合成模型对待合成文本进行语音合成，得到所述待合成文本的文本语音，包括：

利用所述语音合成模型中的编码层对所述待合成文本进行向量编码，得到文本向量；

利用所述语音合成模型中的注意力机制提取所述文本向量的声音频谱；

利用所述语音合成模型中的全连接层输出所述声音频谱，得到所述待合成文本的文本语音。