[发明专利]声学模型训练方法、装置及语音合成方法有效
申请号: | 202210745256.X | 申请日: | 2022-06-29 |
公开(公告)号: | CN114822495B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 谌明;徐欣康;胡新辉;赵旭东 | 申请(专利权)人: | 杭州同花顺数据开发有限公司 |
主分类号: | G10L13/027 | 分类号: | G10L13/027 |
代理公司: | 成都七星天知识产权代理有限公司 51253 | 代理人: | 李宪 |
地址: | 310023 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声学 模型 训练 方法 装置 语音 合成 | ||
1.一种声学模型训练方法,其特征在于,所述方法包括:
获取多个样本,所述样本包括样本文本输入、与所述样本文本输入对应的样本情感标签以及与所述样本文本输入对应的样本参考梅尔谱;
将所述多个样本输入声学模型,其中,所述声学模型包括:
编码器,用于确定所述样本文本输入的文本序列向量;
有监督模块,用于确定所述样本情感标签对应的样本情感嵌入向量;
无监督模块,用于确定所述样本参考梅尔谱对应的样本参考风格向量;
向量处理模块,用于基于所述样本情感嵌入向量和所述样本参考风格向量的加和确定综合情感向量以及确定隐状态向量;
解码器,用于基于所述文本序列向量和所述综合情感向量的级联向量,确定预测梅尔谱;
情感分类器,用于基于所述隐状态向量确定向量情感类别;
情感鉴别模块,用于确定所述预测梅尔谱对应的预测深度情感特征和所述参考梅尔谱对应的参考深度情感特征;以及
向量预测模块,用于基于所述文本序列向量,确定样本预测风格向量;
至少基于所述综合情感向量、所述预测梅尔谱、所述向量情感类别、所述预测深度情感特征、所述参考深度情感特征及损失目标,迭代调整所述声学模型的模型参数,直至训练完成;其中,所述损失目标包括所述样本预测风格向量与所述样本参考风格向量间的差异损失、所述情感类别的分类损失、所述预测梅尔谱与所述参考梅尔谱的差异损失以及所述预测深度情感特征和所述参考深度情感特征的差异损失。
2.如权利要求1所述的方法,其特征在于,所述综合情感向量为字符级嵌入向量。
3.一种语音合成方法,其特征在于,所述方法包括:
获取文本输入和所述文本输入对应的情感标签;
基于所述文本输入和所述情感标签,通过训练好的声学模型,生成所述文本输入对应的预测梅尔谱;
基于所述预测梅尔谱,生成所述文本输入对应的预测语音;其中,
所述声学模型基于如权利要求1~2中任意一项所述的方法训练得到。
4.一种声学模型训练装置,其特征在于,所述装置包括:
至少一个存储介质,所述存储介质包括计算机指令;
至少一个处理器,所述至少一个处理器用于执行所述计算机指令,以实现如权利要求1~2中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州同花顺数据开发有限公司,未经杭州同花顺数据开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210745256.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高速公路施工质量监理设备及方法
- 下一篇:紧固件力矩评估方法及系统