[发明专利]一种训练韵律预测模型方法、装置、设备及存储介质在审
申请号: | 202011054912.9 | 申请日: | 2020-09-28 |
公开(公告)号: | CN112349274A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 李睿端;李健;武卫东;陈明 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G10L13/10 | 分类号: | G10L13/10;G10L13/08;G10L13/047 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 训练 韵律 预测 模型 方法 装置 设备 存储 介质 | ||
本申请提供了一种训练韵律预测模型方法、装置、设备及存储介质,涉及自然语言理解技术领域。结合声学模型优化韵律预测模型的训练样本,使训练样本标注的韵律停顿信息更加符合目标场景或目标发音人的发音特征,利用优化后的样本训练韵律预测模型,提高了练韵律预测模型的鲁棒性。方法包括:获得与目标场景对应的声学模型;将携带有初始停顿标记的第一文本样本输入声学模型,得到携带有初始停顿标记的第二文本样本,在第二文本样本中,初始停顿标记具有置信度;根据第二文本样本中每个初始停顿标记具有的置信度,清除第二文本样本的部分初始停顿标记;利用清除部分初始停顿标记后的第二文本样本训练韵律预测模型,得到目标场景的韵律预测模型。
技术领域
本申请涉及自然语言理解技术领域,特别是涉及一种训练韵律预测模型方法、装置、设备及存储介质。
背景技术
语音合成技术(text to speech)是指利用自然语言处理将文字转换为能够合成语音的模拟信号的技术,包括文本分析、文本规范化、语音分析、韵律标注等流程,属于自然语言处理技术。
韵律标注是机器模拟真人说话,摆脱“机器感”的关键流程。由于不同场景、不同发音人的停顿需求不同,针对不同的场景和不同的发音人的语音合成系统,都需要分别训练韵律预测模型。
现有技术下,训练韵律预测模型需要使用大量针对特定场景或特定发音人的音库数据,但具有特定场景或特定发音人发音特点的音库数据不易大量获得;除此之外,获得音库数据后,还需要逐一对音库数据进行人工标注韵律信息,但不同人对韵律停顿的判断标准不同,对于同样的应用场景或同样发音人的音频,或得到不同的韵律标注,最终导致韵律预测模型的训练样本中标注的停顿信息过多,从而使得最终得到韵律预测模型不能准确地对文本进行韵律标注。
发明内容
本申请实施例提供一种训练韵律预测模型方法、装置、设备及存储介质,结合声学模型优化韵律预测模型的训练样本,使训练样本标注的韵律停顿信息更加符合目标场景或目标发音人,提高训练后得到的韵律预测模型的鲁棒性。
本申请实施例第一方面提供一种训练韵律预测模型方法,所述方法包括:
获得与目标场景对应的声学模型;
将携带有初始停顿标记的第一文本样本输入所述声学模型,得到携带有所述初始停顿标记的第二文本样本,在所述第二文本样本中,所述初始停顿标记具有置信度;
根据所述第二文本样本中每个初始停顿标记具有的置信度,清除所述第二文本样本的部分初始停顿标记;
利用清除部分初始停顿标记后的所述第二文本样本训练韵律预测模型,得到所述目标场景的韵律预测模型。
可选地,在将携带有初始停顿标记的第一文本样本输入所述声学模型前,所述方法还包括:
按照所述初始停顿标记在所述第一文本样本中的标注位置,将所述初始停顿标记插入所述第一文本样本,得到多个文本单元;
得到携带有所述初始停顿标记的第二文本样本,包括:
对每个文本单元分配延续时长;
按照每个文本单元对应的延续时长,依次将每个文本单元转换为音素后验概率向量;
根据所述音素后验概率向量,确定所述第一文本样本中初始停顿标记的置信度,得到所述第二文本样本。
可选地,获得与目标场景对应的声学模型包括:
获取所述目标场景的音库数据;其中,所述音库数据包括第三文本样本,以及与所述第三文本样本对应的音频样本;
利用所述音库数据训练语音合成系统;
在所述语音合成系统输出的预测音频通过所述音频样本的验证后,从所述语音合成系统中提取得到所述声学模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011054912.9/2.html,转载请声明来源钻瓜专利网。