[发明专利]语音转换方法、电子装置及计算机可读存储介质在审

申请号：	202010063801.8	申请日：	2020-01-19
公开（公告）号：	CN111261177A	公开（公告）日：	2020-06-09
发明（设计）人：	马坤;赵之砚;施奕明	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L21/013	分类号：	G10L21/013;G10L25/03;G10L25/18;G10L25/24
代理公司：	深圳市沃德知识产权代理事务所(普通合伙) 44347	代理人：	高杰;于志光
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音转换方法电子装置计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及语音处理技术，揭露了一种语音转换方法，该方法包括：接收用户发出的携带真实语音及目标音色的转换指令，从真实语音中提取出第一声学特征，并将第一声学特征的输入第一转换模型中进行音色转换得到第二声学特征，基于第二声学特征构建低音质的第一频谱图，然后将第一频谱图输入第二转换模型中进行音质转换得到高音质的第二频谱图，利用第二频谱图还原出语音信号得到与目标音色对应的目标语音，并将所述目标语音反馈给用户。本发明还揭露了一种电子装置及计算机存储介质。利用本发明，可以实现实时、高质量的语音转换。

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音转换方法、电子装置及计算机可读存储介质。

背景技术

自然风格迁移(neural style transfer)，是人工智能领域新兴的重要领域，尤其在图像领域已经取得很多的进展，如图像转换方面image-to-image translation，绘画风格迁移等。

但在语音领域，相关的研究取得的进展仍然比较少，目前语音转换技术中最接近人声效果的信号-声波采用的是wavenet，其特点为自回归，需要对样本数据中所有样本数据进行学习训练，音质效果特别好，然而这种方法存在以下问题：1)需要大量用户和转换目标的内容成对的语音数据，而在实际应用过程中难以获取较多的成对语音数据支持训练，使得模型效果不佳，无法得到高质量的转换语音；2)鉴于需要对整个样本中所有样本数据进行学习训练，造成训练过程特别慢。

因此，亟需提供一种能快速转换出高质量的转换语音的方法。

发明内容

鉴于以上内容，本发明提供一种语音转换方法、电子装置及计算机可读存储介质，其主要目的在于实现实时、高质量的语音转换。

为实现上述目的，本发明提供一种语音转换方法，该方法包括：

步骤S1，接收用户通过客户端发出的语音转换指令，所述语音转换指令中包括待转换的真实语音及目标音色；

步骤S2，从所述真实语音中提取出第一声学特征，将所述真实语音的第一声学特征输入预先训练好的与所述目标音色对应的第一转换模型进行音色转换，输出所述真实语音的与所述目标音色对应的第二声学特征；

步骤S3，基于所述第二声学特征，构建与所述目标音色对应的有关所述真实语音的第一频谱图；

步骤S4，将所述第一频谱图输入预先训练好的第二转换模型进行音质转换，输出与所述目标音色对应的有关所述真实语音的第二频谱图；及

步骤S5，基于语音重建算法对所述第二频谱图进行还原，得到与所述目标音色对应的有关所述真实语音的目标语音，并通过所述客户端将所述目标语音反馈给用户。

此外，为实现上述目的，本发明还提供一种电子装置，该装置包括：存储器、处理器，所述存储器中存储有可在所述处理器上运行的语音转换程序，所述语音转换程序被所述处理器执行时可实现如上所述语音转换方法中的任意步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括语音转换程序，所述语音转换程序被处理器执行时，可实现如上所述语音转换方法中的任意步骤。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于平安科技（深圳）有限公司，未经平安科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010063801.8/2.html，转载请声明来源钻瓜专利网。

上一篇：一种液压拉马自动测试设备
下一篇：一种磷酸根离子的定量检测方法及其应用

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音转换方法、电子装置及计算机可读存储介质在审

专利文献下载