[发明专利]一种训练韵律预测模型方法、装置、设备及存储介质在审
申请号: | 202011054912.9 | 申请日: | 2020-09-28 |
公开(公告)号: | CN112349274A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 李睿端;李健;武卫东;陈明 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G10L13/10 | 分类号: | G10L13/10;G10L13/08;G10L13/047 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 训练 韵律 预测 模型 方法 装置 设备 存储 介质 | ||
1.一种训练韵律预测模型方法,其特征在于,所述方法包括:
获得与目标场景对应的声学模型;
将携带有初始停顿标记的第一文本样本输入所述声学模型,得到携带有所述初始停顿标记的第二文本样本,在所述第二文本样本中,所述初始停顿标记具有置信度;
根据所述第二文本样本中每个初始停顿标记具有的置信度,清除所述第二文本样本的部分初始停顿标记;
利用清除部分初始停顿标记后的所述第二文本样本训练韵律预测模型,得到所述目标场景的韵律预测模型。
2.根据权利要求1所述的方法,其特征在于,在将携带有初始停顿标记的第一文本样本输入所述声学模型前,所述方法还包括:
按照所述初始停顿标记在所述第一文本样本中的标注位置,将所述初始停顿标记插入所述第一文本样本,得到多个文本单元;
得到携带有所述初始停顿标记的第二文本样本,包括:
对每个文本单元分配延续时长;
按照每个文本单元对应的延续时长,依次将每个文本单元转换为音素后验概率向量;
根据所述音素后验概率向量,确定所述第一文本样本中初始停顿标记的置信度,得到所述第二文本样本。
3.根据权利要求1所述的方法,其特征在于,获得与目标场景对应的声学模型包括:
获取所述目标场景的音库数据;其中,所述音库数据包括第三文本样本,以及与所述第三文本样本对应的音频样本;
利用所述音库数据训练语音合成系统;
在所述语音合成系统输出的预测音频通过所述音频样本的验证后,从所述语音合成系统中提取得到所述声学模型。
4.根据权利要求2所述的方法,其特征在于,根据所述音素后验概率向量,确定所述第一文本样本中初始停顿标记的置信度,包括::
选取所述初始停顿标记对应的音素后验概率向量,得到目标音素后验概率向量;
根据所述目标音素后验概率向量中停顿音素的分布概率,确定所述第一文本样本中初始停顿标记的置信度。
5.根据权利要求1所述方法,其特征在于,根据所述第二文本样本中每个初始停顿标记具有的置信度,清除所述第二文本样本的部分初始停顿标记,包括:
计算所述第二文本样本中所有初始停顿标记的平均置信度;
根据所述平均置信度,设置置信度阈值;
将不满足所述置信度阈值的置信度对应的初始停顿标记确定为所述部分初始停顿标记;
清除所述第二文本样本中的部分初始停顿标记。
6.一种训练韵律预测模型装置,其特征在于,所述装置包括:
模型获得模块,用于获得与目标场景对应的声学模型;
第二文本样本获得模块,用于将携带有初始停顿标记的第一文本样本输入所述声学模型,得到携带有所述初始停顿标记的第二文本样本,在所述第二文本样本中,所述初始停顿标记具有置信度;
清除模块,用于根据所述第二文本样本中每个初始停顿标记具有的置信度,清除所述第二文本样本的部分初始停顿标记;
训练模块,用于利用清除部分初始停顿标记后的所述第二文本样本训练韵律预测模型,得到所述目标场景的韵律预测模型。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
插入模块,用于按照所述初始停顿标记在所述第一文本样本中的标注位置,将所述初始停顿标记插入所述第一文本样本,得到多个文本单元;
所述第二文本样本获得模块包括:
分配子模块,用于对每个文本单元分配延续时长;
转换子模块,用于按照每个文本单元对应的延续时长,依次将每个文本单元转换为音素后验概率向量;
置信度确定子模块,用于根据所述音素后验概率向量,确定所述第一文本样本中初始停顿标记的置信度,得到所述第二文本样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011054912.9/1.html,转载请声明来源钻瓜专利网。