[发明专利]语音合成方法以及相关装置、设备在审
| 申请号: | 202111280665.9 | 申请日: | 2021-10-29 |
| 公开(公告)号: | CN114220414A | 公开(公告)日: | 2022-03-22 |
| 发明(设计)人: | 周阳 | 申请(专利权)人: | 广州虎牙科技有限公司 |
| 主分类号: | G10L13/033 | 分类号: | G10L13/033;G10L25/03;G10L25/30 |
| 代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 李莉 |
| 地址: | 511400 广东省广州市番禺*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 合成 方法 以及 相关 装置 设备 | ||
1.一种语音合成方法,其特征在于,所述语音合成方法包括:
获取到目标对象的音素、音高以及音素时长;以及
获取到待合成对象,确定所述待合成对象的梅尔谱,基于所述梅尔谱提取所述待合成对象的音色特征矩阵;
通过语音合成模型对所述目标对象的音素、音高以及音素时长进行编码,得到编码数据;
通过所述语音合成模型对所述音色特征矩阵以及所述编码数据进行解码,得到所述待合成对象的合成语音。
2.根据权利要求1所述的语音合成方法,其特征在于,所述获取到待合成对象,确定所述待合成对象的梅尔谱的步骤包括:
获取到所述待合成对象,对所述待合成对象进行分帧加窗以及傅里叶变换,得到所述待合成对象的线性谱;
将所述线性谱输入到梅尔滤波器组中进行滤波处理,得到所述梅尔谱。
3.根据权利要求1或2所述的语音合成方法,其特征在于,所述基于所述梅尔谱提取所述待合成对象的音色特征矩阵的步骤包括:
将所述梅尔谱输入到深度学习网络中,利用所述深度学习网络提取出所述待合成对象的音色特征矩阵。
4.根据权利要求1所述的语音合成方法,其特征在于,所述语音合成模型包括相互级联的编码器、注意力网络以及解码器;
所述通过语音合成模型对所述目标对象的音素、音高以及音素时长进行编码,得到编码数据的步骤包括:
通过所述语音合成模型中的编码器对所述目标对象的音素、音高以及音素时长进行编码,得到编码数据;
所述通过所述语音合成模型对所述音色特征矩阵以及所述编码数据进行解码,得到所述待合成对象的合成语音的步骤包括:
通过所述语音合成模型中的注意力网络以及解码器依次对所述音色特征矩阵以及所述编码数据进行解码,得到所述合成语音。
5.根据权利要求4所述的语音合成方法,其特征在于,
所述注意力网络包括基于位置的注意力机制。
6.根据权利要求4所述的语音合成方法,其特征在于,所述语音合成模型还包括断句子模型;
所述通过所述语音合成模型中的解码器对所述音色特征矩阵以及所述编码数据进行解码,得到所述合成语音的步骤还包括:
通过所述语音合成模型中的断句子模型对解码后的数据进行断句,得到所述合成语音。
7.根据权利要求4-6任一项所述的语音合成方法,其特征在于,所述获取到目标对象的音素、音高以及音素时长的步骤之前包括:
获取到样本音频,并提取出所述样本音频的音素、音高以及音素时长,其中,所述样本音频的音素、音高以及音素时长分别涵盖预设音素范围、预设音高范围以及预设音素时长范围;
将所述样本音频的音素、音高以及音素时长输入到初始模型中的编码器中进行编码,得到样本编码数据;
确定所述样本音频的样本梅尔谱,基于所述样本梅尔谱提取所述样本音频的音色特征矩阵;
将所述样本音频的音色特征矩阵以及所述样本编码数据依次输入到初始模型中的注意力网络以及解码器进行解码,得到样本合成语音;
响应于所述样本合成语音与所述样本音频之间的相似度满足预设要求,则获取到所述语音合成模型。
8.根据权利要求1所述的语音合成方法,其特征在于,所述获取到目标对象的音素、音高以及音素时长的步骤包括:
获取到目标音频,并从所述目标音频中提取出对应的音素、音高以及音素时长;或
获取到目标文本,并基于所述目标文本确定对应的音素、音高以及音素时长。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州虎牙科技有限公司,未经广州虎牙科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111280665.9/1.html,转载请声明来源钻瓜专利网。





