[发明专利]声学模型训练方法、装置及语音合成方法有效

专利信息
申请号: 202210745256.X 申请日: 2022-06-29
公开(公告)号: CN114822495B 公开(公告)日: 2022-10-14
发明(设计)人: 谌明;徐欣康;胡新辉;赵旭东 申请(专利权)人: 杭州同花顺数据开发有限公司
主分类号: G10L13/027 分类号: G10L13/027
代理公司: 成都七星天知识产权代理有限公司 51253 代理人: 李宪
地址: 310023 浙江省杭州*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 声学 模型 训练 方法 装置 语音 合成
【权利要求书】:

1.一种声学模型训练方法,其特征在于,所述方法包括:

获取多个样本,所述样本包括样本文本输入、与所述样本文本输入对应的样本情感标签以及与所述样本文本输入对应的样本参考梅尔谱;

将所述多个样本输入声学模型,其中,所述声学模型包括:

编码器,用于确定所述样本文本输入的文本序列向量;

有监督模块,用于确定所述样本情感标签对应的样本情感嵌入向量;

无监督模块,用于确定所述样本参考梅尔谱对应的样本参考风格向量;

向量处理模块,用于基于所述样本情感嵌入向量和所述样本参考风格向量的加和确定综合情感向量以及确定隐状态向量;

解码器,用于基于所述文本序列向量和所述综合情感向量的级联向量,确定预测梅尔谱;

情感分类器,用于基于所述隐状态向量确定向量情感类别;

情感鉴别模块,用于确定所述预测梅尔谱对应的预测深度情感特征和所述参考梅尔谱对应的参考深度情感特征;以及

向量预测模块,用于基于所述文本序列向量,确定样本预测风格向量;

至少基于所述综合情感向量、所述预测梅尔谱、所述向量情感类别、所述预测深度情感特征、所述参考深度情感特征及损失目标,迭代调整所述声学模型的模型参数,直至训练完成;其中,所述损失目标包括所述样本预测风格向量与所述样本参考风格向量间的差异损失、所述情感类别的分类损失、所述预测梅尔谱与所述参考梅尔谱的差异损失以及所述预测深度情感特征和所述参考深度情感特征的差异损失。

2.如权利要求1所述的方法,其特征在于,所述综合情感向量为字符级嵌入向量。

3.一种语音合成方法,其特征在于,所述方法包括:

获取文本输入和所述文本输入对应的情感标签;

基于所述文本输入和所述情感标签,通过训练好的声学模型,生成所述文本输入对应的预测梅尔谱;

基于所述预测梅尔谱,生成所述文本输入对应的预测语音;其中,

所述声学模型基于如权利要求1~2中任意一项所述的方法训练得到。

4.一种声学模型训练装置,其特征在于,所述装置包括:

至少一个存储介质,所述存储介质包括计算机指令;

至少一个处理器,所述至少一个处理器用于执行所述计算机指令,以实现如权利要求1~2中任一项所述的方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州同花顺数据开发有限公司,未经杭州同花顺数据开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210745256.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top