[发明专利]韵律停顿等级预测的校正方法、装置、设备和介质有效
申请号: | 201911119829.2 | 申请日: | 2019-11-15 |
公开(公告)号: | CN110853613B | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 聂志朋;陈昌滨 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/10;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 韵律 停顿 等级 预测 校正 方法 装置 设备 介质 | ||
本申请公开了一种韵律停顿等级预测的校正方法、装置、设备和介质,涉及韵律停顿等级预测技术。具体实现方案为:获取输入文本的韵律停顿等级的初始预测结果序列;获取所述初始预测结果序列的状态向量,其中,状态向量用于表示所述初始预测结果序列中各元素之间的依赖关系;将所述输入文本的语义向量与所述状态向量进行融合,得到融合向量;将所述融合向量输入条件随机场网络,得到校正后的预测结果序列。本申请实施例将语义向量与状态向量融合后再进行CRF,由于状态向量能表示预测结果序列中各元素之间的依赖关系,因此融合后不仅结合了语义信息,还结合了预测结果序列中各元素之间的依赖关系,从而提高CRF输出的最终校正后的预测结果序列的准确度。
技术领域
本申请涉及语音合成技术领域,尤其涉及一种韵律停顿等级预测技术,具体涉及一种韵律停顿等级预测的校正方法、装置、设备和介质。
背景技术
韵律停顿等级预测是语音合成中一个重要的环节,它可以通过文本内容来预测文本中的停顿位置和停顿等级,使得利用文本中的停顿位置和停顿等级合成出来的语音能够尽量符合人类自然说话的停顿和韵律习惯,提高合成语音的自然度和可懂度。
韵律停顿等级预测模型通常是根据输入的文本以及一些语义特征来得到预测结果,为了提高模型预测的准确度,通常可以在模型顶层增加CRF(conditional randomfield,条件随机场)机制以调整预测的结果,使之更加准确。然而,这种方法仍然无法满足目前对韵律停顿等级预测结果准确度的需求,从而影响合成语音的自然度和可懂度。
发明内容
本申请实施例提供一种韵律停顿等级预测的校正方法、装置、设备和介质,以提高韵律停顿等级预测结果的准确度。
第一方面,本申请实施例提供了一种韵律停顿等级预测的校正方法,包括:
获取输入文本的韵律停顿等级的初始预测结果序列;
获取所述初始预测结果序列的状态向量,其中,所述状态向量用于表示所述初始预测结果序列中各元素之间的依赖关系;
将所述输入文本的语义向量与所述状态向量进行融合,得到融合向量;
将所述融合向量输入条件随机场网络,得到校正后的预测结果序列。
上述申请中的一个实施例具有如下优点或有益效果:通过将语义向量与状态向量融合后再进行CRF,使得融合后不仅结合了语义信息,还结合了预测结果序列中各元素之间的依赖关系,从而提高CRF输出的最终校正后的预测结果序列的准确度。
可选的,所述获取所述初始预测结果序列的状态向量,包括:
利用预先训练好的预测状态网络对所述初始预测结果序列进行处理,得到所述状态向量。
可选的,所述利用预先训练好的预测状态网络对所述初始预测结果序列进行处理,得到所述状态向量,包括:
将所述初始预测结果序列输入embedding层进行转化,得到高维初始预测结果序列;
将所述高维初始预测结果序列输入所述预先训练好的预测状态网络进行处理,得到所述状态向量。
上述申请中的一个实施例具有如下优点或有益效果:利用机器学习的方法,能够快速、准确地获取状态向量,通过embedding层的转化,还能够降低运算复杂度。
可选的,所述预测状态网络是由循环神经网络构成,或者由注意力机制构成。
上述申请中的一个实施例具有如下优点或有益效果:循环神经网络或注意力机制,不仅易于实现,而且占用较少系统资源的同时,能够达到一定的准确度。
可选的,所述融合向量用如下公式表示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911119829.2/2.html,转载请声明来源钻瓜专利网。