[发明专利]语音合成方法、装置、电子设备及存储介质在审
| 申请号: | 202110835125.6 | 申请日: | 2021-07-23 |
| 公开(公告)号: | CN113555003A | 公开(公告)日: | 2021-10-26 |
| 发明(设计)人: | 孙奥兰;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L17/02;G10L25/24 |
| 代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 合成 方法 装置 电子设备 存储 介质 | ||
本发明涉及语音语义领域,揭露了一种语音合成方法,包括:利用语音合成模型对待合成文本进行语音合成,得到待合成文本的文本语音;获取用户语音,对用户语音进行特征提取,得到特征用户语音;利用语音转换模型中的编码器提取文本语音的语义特征,及特征用户语音的声纹特征,并利用语音转换模型中的解码器对语义特征和声纹特征进行特征融合,得到融合特征;利用声码器对融合特征进行音频合成,得到音频合成结果。另外,本发明还提出一种语音合成装置、电子设备以及计算机可读存储介质。此外,本发明还涉及区块链技术,所述音频合成结果可存储于区块链中。本发明可以实现任意用户语音与文本语音的合成,满足用户个性化的文本语音音色定制需求。
技术领域
本发明涉及语音语义领域,尤其涉及一种语音合成方法、装置、电子设备及计算机可读存储介质。
背景技术
语音合成(Text-To-Speech,TTS)是指通过文字人工生成人类的声音,也就是让设备根据相应的输入文本发出语音,近年来,神经语音合成(Text-to-Speech,TTS)系统高速发展,摆脱了传统pipline冗杂的合成流程,不再依赖高度专业的文法、词法特征提取,而是将原始文本经过神经网络转成梅尔谱,再将梅尔谱转成声音波形,实现了端到端的语音合成系统,所合成的语音质量近似人声,其在人工智能行业有着非常重要的应用,比如语音助手和各种场景的翻译、有声读物、新闻播报、AI电话和AI主播等。
目前在生产生活中,虽然语音合成技术已经有各种形式的产品的落地,但是传统的语音合成技术只能针对单一的或者有限的说话人音色进行合成,而无法合成从未参与过训练的说话人音色的语音,从而带来仅能合成有限说话人的音色语音的局限性。
发明内容
本发明提供一种语音合成方法、装置、电子设备及计算机可读存储介质,其主要目的在于实现任意用户语音与文本语音的合成,满足用户个性化的文本语音音色定制需求。
为实现上述目的,本发明提供的一种语音合成方法,包括:
利用语音合成模型对待合成文本进行语音合成,得到所述待合成文本的文本语音;
获取用户语音,对所述用户语音进行特征提取,得到特征用户语音;
利用语音转换模型中的编码器提取所述文本语音的语义特征,及所述特征用户语音的声纹特征,并利用所述语音转换模型中的解码器对所述语义特征和所述声纹特征进行特征融合,得到融合特征;
利用声码器对所述融合特征进行音频合成,得到音频合成结果。
可选地,所述利用语音合成模型对待合成文本进行语音合成,得到所述待合成文本的文本语音,包括:
利用所述语音合成模型中的编码层对所述待合成文本进行向量编码,得到文本向量;
利用所述语音合成模型中的注意力机制提取所述文本向量的声音频谱;
利用所述语音合成模型中的全连接层输出所述声音频谱,得到所述待合成文本的文本语音。
可选地,所述利用所述语音合成模型中的编码层对所述待合成文本进行向量编码,得到文本向量,包括:
利用所述编码层中词嵌入模块对所述待合成文本中的词语进行向量转换,得到所述待合成文本的词向量;
利用所述编码层中的索引编码模块对所述词向量构建索引矩阵,得到词向量矩阵;
利用所述编码层中的激活函数激活所述词向量矩阵,得到所述待合成文本的文本向量。
可选地,所述所述语音合成模型中的注意力机制提取所述文本向量的声音频谱包括:
利用所述注意力机制中的卷积模块对所述文本向量进行特征提取,得到特征文本向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110835125.6/2.html,转载请声明来源钻瓜专利网。





