[发明专利]语音转换及相应的模型训练方法、装置、设备及存储介质有效
| 申请号: | 202011375355.0 | 申请日: | 2020-11-30 |
| 公开(公告)号: | CN112466275B | 公开(公告)日: | 2023-09-22 |
| 发明(设计)人: | 王俊超;陈昌滨;袁俊;聂志朋 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G10L13/04 | 分类号: | G10L13/04;G10L13/10;G10L25/03;G10L25/30 |
| 代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 转换 相应 模型 训练 方法 装置 设备 存储 介质 | ||
本申请公开了一种语音转换及相应的模型训练方法、装置、设备及存储介质,涉及机器学习与智能语音等人工智能技术领域。具体实现方案为:基于源语音的音频,提取源语音的特征信息;基于所述源语音的特征信息和要转换的目标音色信息,采用预先训练的语音转换模型,生成目标语音的声学特征信息;基于所述目标语音的声学特征信息,采用预先训练的声码器,合成目标语音的音频。本申请能够避免语音转换中信息的损失,有效地提高合成的目标语音的音频的准确性。
技术领域
本申请涉及计算机技术领域,具体涉及机器学习与智能语音等人工智能技术领域,尤其涉及一种语音转换及相应的模型训练方法、装置、设备及存储介质。
背景技术
语音转换在市场上变得越来越受关注。语音转换的目的是将源说话人的语音转为目标说话人的音色,并保持语音的表达内容不变。
现有技术中主要采用平行语料的语音转换。在录制所需的语料时,需要源说话人和目标说话人录制相同文本的音频。在模型训练时,由于每个人在读同一句话时,录得语音的时长肯定会有一些差异,因此从文本内容相同的音频中提取出的源说话人和目标说话人的特征序列长度也不同。因此需要通过一些对齐方法将源说话人和目标说话人的音频特征序列长度进行对齐,这样就可以构造一个模型,输入源说话人的特征序列去预测目标说话人的特征序列。在测试阶段,将源说话人语音提取特征输入模型,就可以预测得到目标说话人的特征序列,再通过声码器就可以将预测的特征序列转为语音了。
发明内容
本申请提供了一种语音转换及相应的模型训练方法、装置、设备及存储介质。
根据本申请的一方面,提供了一种语音转换方法,其中所述方法,包括:
基于源语音的音频,提取源语音的特征信息;
基于所述源语音的特征信息和要转换的目标音色信息,采用预先训练的语音转换模型,生成目标语音的声学特征信息;
基于所述目标语音的声学特征信息,采用预先训练的声码器,合成目标语音的音频。
根据本申请的另一方面,提供了一种语音转换模型的训练方法,其中,所述方法包括:
采集数条训练语音的音频;
基于各所述训练语音的音频,提取所述训练语音的训练特征信息和训练音色信息;
基于各所述训练语音对应的所述训练特征信息和所述训练音色信息,训练语音转换模型。
根据本申请的再一方面,提供了一种语音转换模型的训练装置,其中,所述装置包括:
采集模块,用于采集数条训练语音的音频;
提取模块,用于基于各所述训练语音的音频,提取所述训练语音的训练特征信息和训练音色信息;
训练模块,用于基于各所述训练语音对应的所述训练特征信息和所述训练音色信息,训练语音转换模型。
根据本申请的又一方面,提供了一种语音转换模型的训练装置,其中,所述装置包括:
采集模块,用于采集数条训练语音的音频;
提取模块,用于基于各所述训练语音的音频,提取所述训练语音的训练特征信息和训练音色信息;
训练模块,用于基于各所述训练语音对应的所述训练特征信息和所述训练音色信息,训练语音转换模型。
根据本申请的再另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011375355.0/2.html,转载请声明来源钻瓜专利网。





