[发明专利]语音合成方法、装置、设备及存储介质在审

申请号：	202110593375.3	申请日：	2021-05-28
公开（公告）号：	CN113327573A	公开（公告）日：	2021-08-31
发明（设计）人：	张旭龙;王健宗	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L13/047	分类号：	G10L13/047;G10L25/24
代理公司：	深圳市力道知识产权代理事务所(普通合伙) 44507	代理人：	张传义
地址：	518057 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及数据处理技术领域，并公开了一种语音合成方法、装置、设备及存储介质，所述方法通过空间快速含糊网络模型对高采样的音频信号进行分析，得到第一梅尔频谱后，将所述第一梅尔频谱的频段划分为若干个频段，分别确定划分之后各个频段的第二梅尔频谱；将各个所述第二梅尔频谱分别输入所述空间快速含糊网络模型中进行识别，生成第三梅尔频谱；将各个所述第三梅尔频谱分别输入语音生成模型中进行分析，得到第一音频波形；将所述第一音频波形划分为若干个不同长度的第二音频波形，将各个所述第二音频波形分别输入所述语音生成模型中进行识别，得到语音合成信号。能够解决语音合成结果失真问题，提高语音生成的音质效果。

技术领域

本申请涉及数据处理技术领域，尤其涉及一种语音合成方法、装置、设备及存储介质。

背景技术

在语音合成技术中，为了保证合成语音的高保真效果，需要以人耳所能听到音频的两倍频进行采样。而人耳所能听到音频的两倍频通常为40KHz以上，在如此高的采样率下采集的音频由于具有宽频段以及较长的波形点，使得合成的语音无法更好的传意和富含感情，影响语音的音质效果。

发明内容

本申请提供了一种语音合成方法、装置、设备及存储介质，能够解决由于高采样率所带来的语音合成结果失真问题，提高语音生成的音质效果。

第一方面，本申请提供了一种语音合成方法，所述方法包括：

利用空间快速含糊网络模型对高采样的音频信号进行分析，得到第一梅尔频谱；

将所述第一梅尔频谱的频段划分为若干个频段，分别确定划分之后各个频段的第二梅尔频谱；

将各个所述第二梅尔频谱分别输入所述空间快速含糊网络模型中进行识别，生成第三梅尔频谱；

将各个所述第三梅尔频谱分别输入语音生成模型中进行分析，得到第一音频波形；

将所述第一音频波形划分为若干个不同长度的第二音频波形，将各个所述第二音频波形分别输入所述语音生成模型中进行识别，得到语音合成信号。