[发明专利]一种训练韵律预测模型方法、装置、设备及存储介质在审

申请号：	202011054912.9	申请日：	2020-09-28
公开（公告）号：	CN112349274A	公开（公告）日：	2021-02-09
发明（设计）人：	李睿端;李健;武卫东;陈明	申请（专利权）人：	北京捷通华声科技股份有限公司
主分类号：	G10L13/10	分类号：	G10L13/10;G10L13/08;G10L13/047
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100193 北京市海淀区东北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种训练韵律预测模型方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种训练韵律预测模型方法、装置、设备及存储介质，涉及自然语言理解技术领域。结合声学模型优化韵律预测模型的训练样本，使训练样本标注的韵律停顿信息更加符合目标场景或目标发音人的发音特征，利用优化后的样本训练韵律预测模型，提高了练韵律预测模型的鲁棒性。方法包括：获得与目标场景对应的声学模型；将携带有初始停顿标记的第一文本样本输入声学模型，得到携带有初始停顿标记的第二文本样本，在第二文本样本中，初始停顿标记具有置信度；根据第二文本样本中每个初始停顿标记具有的置信度，清除第二文本样本的部分初始停顿标记；利用清除部分初始停顿标记后的第二文本样本训练韵律预测模型，得到目标场景的韵律预测模型。

技术领域

本申请涉及自然语言理解技术领域，特别是涉及一种训练韵律预测模型方法、装置、设备及存储介质。

背景技术

语音合成技术(text to speech)是指利用自然语言处理将文字转换为能够合成语音的模拟信号的技术，包括文本分析、文本规范化、语音分析、韵律标注等流程，属于自然语言处理技术。

韵律标注是机器模拟真人说话，摆脱“机器感”的关键流程。由于不同场景、不同发音人的停顿需求不同，针对不同的场景和不同的发音人的语音合成系统，都需要分别训练韵律预测模型。

现有技术下，训练韵律预测模型需要使用大量针对特定场景或特定发音人的音库数据，但具有特定场景或特定发音人发音特点的音库数据不易大量获得；除此之外，获得音库数据后，还需要逐一对音库数据进行人工标注韵律信息，但不同人对韵律停顿的判断标准不同，对于同样的应用场景或同样发音人的音频，或得到不同的韵律标注，最终导致韵律预测模型的训练样本中标注的停顿信息过多，从而使得最终得到韵律预测模型不能准确地对文本进行韵律标注。

发明内容

本申请实施例提供一种训练韵律预测模型方法、装置、设备及存储介质，结合声学模型优化韵律预测模型的训练样本，使训练样本标注的韵律停顿信息更加符合目标场景或目标发音人，提高训练后得到的韵律预测模型的鲁棒性。

本申请实施例第一方面提供一种训练韵律预测模型方法，所述方法包括：

获得与目标场景对应的声学模型；

将携带有初始停顿标记的第一文本样本输入所述声学模型，得到携带有所述初始停顿标记的第二文本样本，在所述第二文本样本中，所述初始停顿标记具有置信度；

根据所述第二文本样本中每个初始停顿标记具有的置信度，清除所述第二文本样本的部分初始停顿标记；

利用清除部分初始停顿标记后的所述第二文本样本训练韵律预测模型，得到所述目标场景的韵律预测模型。

可选地，在将携带有初始停顿标记的第一文本样本输入所述声学模型前，所述方法还包括：

按照所述初始停顿标记在所述第一文本样本中的标注位置，将所述初始停顿标记插入所述第一文本样本，得到多个文本单元；

得到携带有所述初始停顿标记的第二文本样本，包括：

对每个文本单元分配延续时长；

按照每个文本单元对应的延续时长，依次将每个文本单元转换为音素后验概率向量；