[发明专利]用于生成语音合成模型的方法和装置有效

申请号：	201810478000.0	申请日：	2018-05-18
公开（公告）号：	CN108630190B	公开（公告）日：	2019-12-10
发明（设计）人：	康永国;顾宇	申请（专利权）人：	百度在线网络技术(北京)有限公司
主分类号：	G10L13/04	分类号：	G10L13/04;G10L13/047;G10L25/30;G06N3/08
代理公司：	11204 北京英赛嘉华知识产权代理有限责任公司	代理人：	王达佐;马晓亚
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成模型样本文本样本音频神经网络基频训练样本集合方法和装置信息对应训练样本机器学习文本信息音频数据输出申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于生成语音合成模型的方法，包括：

获取训练样本集合，训练样本包括样本文本信息、与样本文本信息对应的样本音频数据和样本音频数据的基频；

获取初始深度神经网络；

利用机器学习方法，将所述训练样本集合中的训练样本的样本文本信息作为输入，将与输入的样本文本信息对应的样本音频数据和样本音频数据的基频作为输出，对所述初始深度神经网络进行训练，将训练后且达到预设的优化目标的所述初始深度神经网络确定为语音合成模型；

其中，所述预设的优化目标用于确定所述初始深度神经网络是否训练完成；

其中，所述利用机器学习方法，将所述训练样本集合中的训练样本的样本文本信息作为输入，将与输入的样本文本信息对应的样本音频数据和样本音频数据的基频作为输出，对所述初始深度神经网络进行训练，将训练后且达到预设的优化目标的所述初始深度神经网络确定为语音合成模型，包括：

基于训练样本集合执行以下训练步骤：将训练样本集合中的至少一个训练样本的样本文本信息分别输入初始深度神经网络，得到所述至少一个样本文本信息中的每个样本文本信息对应的音频数据和音频数据的基频；将所述至少一个样本文本信息中的每个样本文本信息对应的音频数据和音频数据的基频与对应的样本音频数据和样本音频数据的基频进行比较；根据比较结果确定初始深度神经网络是否达到预设的优化目标；响应于确定初始深度神经网络达到优化目标，将初始深度神经网络确定为语音合成模型。

2.根据权利要求1所述的方法，其中，训练得到语音合成模型的步骤还包括：

响应于确定初始深度神经网络未达到优化目标，调整初始深度神经网络的参数，以及使用未用过的训练样本组成训练样本集合，使用调整后的初始深度神经网络作为初始深度神经网络，继续执行所述训练步骤。

3.一种语音合成方法，包括：

获取待处理文本信息；

将所述待处理文本信息输入至语音合成模型，生成所述待处理文本信息对应的音频数据，其中，所述语音合成模型是按照如权利要求1-2中任一所述的方法生成的。

4.一种用于生成语音合成模型的装置，包括：

训练样本集合获取单元，被配置成获取训练样本集合，训练样本包括样本文本信息、与样本文本信息对应的样本音频数据和样本音频数据的基频；

网络获取单元，被配置成获取初始深度神经网络；

训练单元，被配置成利用机器学习方法，将所述训练样本集合中的训练样本的样本文本信息作为输入，将与输入的样本文本信息对应的样本音频数据和样本音频数据的基频作为输出，对所述初始深度神经网络进行训练，将训练后且达到预设的优化目标的所述初始深度神经网络确定为语音合成模型；

其中，所述预设的优化目标用于确定所述初始深度神经网络是否训练完成；

其中，所述训练单元进一步被配置成：

5.根据权利要求4所述的装置，其中，所述训练单元进一步被配置成：