[发明专利]基于人工智能的语音合成方法、装置、计算机设备及介质在审

申请号：	202210816256.4	申请日：	2022-07-12
公开（公告）号：	CN115019769A	公开（公告）日：	2022-09-06
发明（设计）人：	张旭龙;王健宗;程宁	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L13/04	分类号：	G10L13/04;G10L13/06
代理公司：	深圳众鼎专利商标代理事务所(普通合伙) 44325	代理人：	姚章国
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于人工智能语音合成方法装置计算机设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明适用于语音合成技术领域，尤其涉及基于人工智能的语音合成方法、装置、计算机设备及介质。本发明通过将参考语音频谱输入至频谱编码器，得到参考音色内容特征，将目标语音音素输入至音素编码器，得到目标内容特征，将参考音色内容特征和目标内容特征输入至识别编码器，得到目标音色内容特征后进行采样，将采样结果输入至用户表征预测器，得到用户身份内容特征后和目标音色内容特征进行特征融合，将融合特征输入至频谱解码器，得到目标用户的语音合成结果，通过一一对应的目标音色内容特征和用户身份内容特征融合得到的融合特征，来表征目标用户音色和目标内容，降低了合成语音的音色与用户本身音色的差异，优化了语音合成效果。

技术领域

本发明适用于语音合成技术领域，尤其涉及基于人工智能的语音合成方法、装置、计算机设备及介质。

背景技术

语音合成是一种将文本信息转换为语音信息的技术，即将文字信息转换为任意的可听的语音，涉及到声学、语言学和计算机科学等多门学科。

随着深度学习技术的发展，目前主流的端到端语音合成系统大都采用注意力机制来隐式地学习文本到语音的对齐关系，同时采用自回归的语音生成模式，要求后一语音帧的生成以前一语音帧作为输入，对语音帧有较强的前后依赖关系和时序性，因此，对语音样本的数据量和质量要求很高，基于零语音样本或轻量级语音样本进行语音合成时，合成语音的音色与用户本身音色差异较大，导致语音合成效果较差。

因此，在语音合成技术领域，如何在零语音样本或轻量级语音样本下，降低合成语音的音色与目标用户音色之间的差异，提升语音合成效果成为亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供了基于人工智能的语音合成方法、装置、计算机设备及介质，以解决现有技术在零语音样本或轻量级语音样本下，合成语音的音色与目标用户音色的差异较大的问题。

第一方面，本发明实施例提供一种语音合成方法，所述语音合成方法包括：

获取目标用户的参考语音频谱和目标语音音素，基于训练好的语音合成模型对所述参考语音频谱和所述目标语音音素进行处理，所述语音合成模型包括训练好的频谱编码器、训练好的音素编码器、训练好的识别编码器、训练好的用户表征预测器以及训练好的频谱解码器；所述处理包括：

将所述参考语音频谱输入至所述训练好的频谱编码器，得到参考音色内容特征，将所述目标语音音素输入至所述训练好的音素编码器，得到目标内容特征；

将所述参考音色内容特征和所述目标内容特征输入至所述训练好的识别编码器，得到目标音色内容特征；

对所述目标音色内容特征进行采样，将采样结果输入至所述训练好的用户表征预测器，得到用户身份内容特征；

将所述目标音色内容特征和所述用户身份内容特征进行特征融合，将得到的融合特征输入至所述训练好的频谱解码器，得到目标用户的语音合成结果。

第二方面，本发明实施例提供一种语音合成装置，所述语音合成装置包括：

数据获取模块：用于获取目标用户的参考语音频谱和目标语音音素；

频谱编码器，用于输入所述参考语音频谱，输出参考音色内容特征；