[发明专利]语音合成方法、装置、计算机设备和存储介质在审
| 申请号: | 202210096027.X | 申请日: | 2022-01-26 |
| 公开(公告)号: | CN114360490A | 公开(公告)日: | 2022-04-15 |
| 发明(设计)人: | 张雄 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L19/06;G10L19/16;G10L21/049;G10L25/30 |
| 代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 黄晶晶 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 合成 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种语音合成方法、装置、计算机设备和存储介质,涉及到人工智能和语音合成等技术领域,包括:从音频帧特征序列中按序地确定当前音频帧特征,并将当前音频帧特征输入到已训练的语音合成模型中进行处理,得到当前音频帧特征对应的语音合成数据;在当前记录的累积合成数据的基础上添加当前音频帧特征对应的语音合成数据,得到更新后的累积合成数据;基于更新后的累积合成数据确定语音片段;将音频帧特征序列中的下一音频帧特征确定为新的当前音频帧特征,返回将当前音频帧特征输入到已训练的语音合成模型中进行处理的步骤,直至得到各个音频帧特征对应的语音片段。采用本方法能够提高合成语音的效率。
技术领域
本申请涉及语音合成技术领域,特别是涉及一种语音合成方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了语音合成技术,语音合成技术用于合成语音,例如可以合成文本对应的语音。语音合成技术应用在很多场景中,例如可以应用于语音助手、车载导航等场景中。
目前,用于合成语音的方法有很多,然而采用目前的语音合成方法所合成的语音所消耗的时间较多,导致合成的语音的效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高合成语音的效率的语音合成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
一方面,本申请提供了一种语音合成方法。所述方法包括:获取待进行语音合成的音频帧特征序列;从所述音频帧特征序列中按序地确定当前音频帧特征,并将所述当前音频帧特征输入到已训练的语音合成模型中进行处理,得到所述当前音频帧特征对应的语音合成数据;在当前记录的累积合成数据的基础上添加所述当前音频帧特征对应的语音合成数据,得到更新后的累积合成数据;所述当前记录的累积合成数据包括所述当前音频帧特征之前的至少部分音频帧特征对应的语音合成数据;基于所述更新后的累积合成数据,确定对应于所述当前音频帧特征的、且符合预设帧移长度的语音片段;将所述音频帧特征序列中的下一音频帧特征确定为新的当前音频帧特征,返回所述将所述当前音频帧特征输入到已训练的语音合成模型中进行处理以继续执行,直至得到所述音频帧特征序列中各个音频帧特征对应的语音片段;将所述音频帧特征序列中的每个音频帧特征对应的语音片段按序拼接,合成目标语音。
另一方面,本申请还提供了一种语音合成装置。所述装置包括:序列获取模块,用于获取待进行语音合成的音频帧特征序列;特征确定模块,用于从所述音频帧特征序列中按序地确定当前音频帧特征,并将所述当前音频帧特征输入到已训练的语音合成模型中进行处理,得到所述当前音频帧特征对应的语音合成数据;数据添加模块,用于在当前记录的累积合成数据的基础上添加所述当前音频帧特征对应的语音合成数据,得到更新后的累积合成数据;所述当前记录的累积合成数据包括所述当前音频帧特征之前的至少部分音频帧特征对应的语音合成数据;片段确定模块,用于基于所述更新后的累积合成数据,确定对应于所述当前音频帧特征的、且符合预设帧移长度的语音片段;返回模块,用于将所述音频帧特征序列中的下一音频帧特征确定为新的当前音频帧特征,返回所述将所述当前音频帧特征输入到已训练的语音合成模型中进行处理以继续执行,直至得到所述音频帧特征序列中各个音频帧特征对应的语音片段;拼接模块,用于将所述音频帧特征序列中的每个音频帧特征对应的语音片段按序拼接,合成目标语音。
在一些实施例中,所述序列获取模块还用于:获取待进行语音合成的目标文本对应的目标音频特征;对所述目标音频特征进行切分,得到待进行语音合成的多个音频帧特征序列;所述拼接模块还用于:对于每个所述音频帧特征序列,将所述音频帧特征序列中的每个音频帧特征对应的语音片段按序拼接,得到所述音频帧特征序列预测出的拼接片段;按照各个所述音频帧特征序列在所述目标音频特征中的排序,对各个所述音频帧特征序列预测出的拼接片段进行拼接,合成所述目标文本对应的目标语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210096027.X/2.html,转载请声明来源钻瓜专利网。





