[发明专利]声音转换模型的训练方法、电子设备及存储介质在审
| 申请号: | 202011627564.X | 申请日: | 2020-12-31 |
| 公开(公告)号: | CN112802462A | 公开(公告)日: | 2021-05-14 |
| 发明(设计)人: | 陈言年;刘利娟;胡亚军;江源 | 申请(专利权)人: | 科大讯飞股份有限公司 |
| 主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L25/18;G10L25/24;G10L13/02 |
| 代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何倚雯 |
| 地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 声音 转换 模型 训练 方法 电子设备 存储 介质 | ||
1.一种声音转换模型的训练方法,其特征在于,包括:
从第一语音数据集中获取第一训练语音数据,其中,所述第一语音数据集中包括目标说话人的多条语音数据,所述第一训练语音数据对应第一声学特征;
获取所述第一声学特征对应的后验概率特征;
将所述第一声学特征对应的后验概率特征和第一辅助音色特征输入所述声音转换模型,得到第一平行特征,其中,所述第一辅助音色特征不属于所述目标说话人;
获取所述第一平行特征对应的后验概率特征;
将所述第一平行特征对应的后验概率特征和目标音色特征输入所述声音转换模型,得到第二声学特征,其中,所述目标音色特征属于所述目标说话人;
基于所述第二声学特征和所述第一声学特征之间的差异,调整所述声音转换模型的参数。
2.根据权利要求1所述的方法,其特征在于,在所述将所述第一声学特征对应的后验概率特征和第一辅助音色特征输入所述声音转换模型之前,包括:
获取至少一条第一辅助语音数据对应的音色特征;
对所述至少一条第一辅助语音数据对应的音色特征做插值处理,得到所述第一辅助音色特征。
3.根据权利要求1所述的方法,其特征在于,在所述将所述第一平行声学特征对应的后验概率特征和目标音色特征输入所述声音转换模型之前,包括:
从所述第一语音数据集中,获取至少一条所述语音数据对应的音色特征;
利用所述至少一条语音数据对应的音色特征构造所述目标音色特征。
4.根据权利要求1所述的方法,其特征在于,在所述将所述第一声学特征对应的后验概率特征和第一辅助音色特征输入所述声音转换模型,得到第一平行特征之前,包括:
对所述声音转换模型进行预训练。
5.根据权利要求4所述的方法,其特征在于,对所述声音转换模型进行预训练,包括:
从第二语音数据集中获取第二训练语音数据,其中,所述第二语音数据集中包括多个其他说话人的语音数据,所述第二训练语音数据对应第三声学特征;
获取所述第三声学特征对应的后验概率特征;
将所述第三声学特征对应的后验概率特征和第二辅助音色特征输入声音转换模型,得到第二平行特征,其中,所述第二辅助音色特征所属的所述说话人与所述第三声学特征所属的所述说话人不同;
获取所述第二平行特征对应的后验概率特征;
将所述第二平行特征对应的后验概率特征和所述第三声学特征所属的所述说话人的音色特征输入声音转换模型,得到第四声学特征;
基于所述第四声学特征和所述第三声学特征之间的差异,调整所述声音转换模型的参数。
6.根据权利要求5所述的方法,其特征在于,在所述将所述第三声学特征对应的后验概率特征和第二辅助音色特征输入声音转换模型,得到第二平行特征之前,包括:
从所述第二语音数据集中,获取至少一条第二辅助语音数据及对应的音色特征;
利用所述至少一条第二辅助语音数据对应的音色特征构造所述第二辅助音色特征。
7.根据权利要求5所述的方法,其特征在于,在所述将所述第二平行特征对应的后验概率特征和所述第三声学特征所属的所述说话人的音色特征输入声音转换模型,得到第四声学特征之前,包括:
从所述第二语音数据集中,获取所述第三声学特征所属的所述说话人的至少一条语音数据及对应的音色特征;
对所述第三声学特征所属的所述说话人的所述至少一条语音数据对应的音色特征插值处理,得到第三声学特征所属的所述说话人的音色特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011627564.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电压校准电路和方法
- 下一篇:存取款机的调整方法、装置、电子设备以及存储介质





