[发明专利]韵律停顿等级预测的校正方法、装置、设备和介质有效

申请号：	201911119829.2	申请日：	2019-11-15
公开（公告）号：	CN110853613B	公开（公告）日：	2022-04-26
发明（设计）人：	聂志朋;陈昌滨	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/10;G10L25/30;G06N3/04;G06N3/08
代理公司：	北京品源专利代理有限公司 11332	代理人：	孟金喆
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	韵律停顿等级预测校正方法装置设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种韵律停顿等级预测的校正方法、装置、设备和介质，涉及韵律停顿等级预测技术。具体实现方案为：获取输入文本的韵律停顿等级的初始预测结果序列；获取所述初始预测结果序列的状态向量，其中，状态向量用于表示所述初始预测结果序列中各元素之间的依赖关系；将所述输入文本的语义向量与所述状态向量进行融合，得到融合向量；将所述融合向量输入条件随机场网络，得到校正后的预测结果序列。本申请实施例将语义向量与状态向量融合后再进行CRF，由于状态向量能表示预测结果序列中各元素之间的依赖关系，因此融合后不仅结合了语义信息，还结合了预测结果序列中各元素之间的依赖关系，从而提高CRF输出的最终校正后的预测结果序列的准确度。

技术领域

本申请涉及语音合成技术领域，尤其涉及一种韵律停顿等级预测技术，具体涉及一种韵律停顿等级预测的校正方法、装置、设备和介质。

背景技术

韵律停顿等级预测是语音合成中一个重要的环节，它可以通过文本内容来预测文本中的停顿位置和停顿等级，使得利用文本中的停顿位置和停顿等级合成出来的语音能够尽量符合人类自然说话的停顿和韵律习惯，提高合成语音的自然度和可懂度。

韵律停顿等级预测模型通常是根据输入的文本以及一些语义特征来得到预测结果，为了提高模型预测的准确度，通常可以在模型顶层增加CRF(conditional randomfield,条件随机场)机制以调整预测的结果，使之更加准确。然而，这种方法仍然无法满足目前对韵律停顿等级预测结果准确度的需求，从而影响合成语音的自然度和可懂度。

发明内容

本申请实施例提供一种韵律停顿等级预测的校正方法、装置、设备和介质，以提高韵律停顿等级预测结果的准确度。

第一方面，本申请实施例提供了一种韵律停顿等级预测的校正方法，包括：

获取输入文本的韵律停顿等级的初始预测结果序列；

获取所述初始预测结果序列的状态向量，其中，所述状态向量用于表示所述初始预测结果序列中各元素之间的依赖关系；

将所述输入文本的语义向量与所述状态向量进行融合，得到融合向量；

将所述融合向量输入条件随机场网络，得到校正后的预测结果序列。

上述申请中的一个实施例具有如下优点或有益效果：通过将语义向量与状态向量融合后再进行CRF，使得融合后不仅结合了语义信息，还结合了预测结果序列中各元素之间的依赖关系，从而提高CRF输出的最终校正后的预测结果序列的准确度。

可选的，所述获取所述初始预测结果序列的状态向量，包括：

利用预先训练好的预测状态网络对所述初始预测结果序列进行处理，得到所述状态向量。

可选的，所述利用预先训练好的预测状态网络对所述初始预测结果序列进行处理，得到所述状态向量，包括：

将所述初始预测结果序列输入embedding层进行转化，得到高维初始预测结果序列；