[发明专利]一种语音处理方法、装置、电子设备及存储介质有效
申请号: | 202110530110.9 | 申请日: | 2021-05-14 |
公开(公告)号: | CN113409767B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 张颖 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/30;G10L19/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;贾允 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 处理 方法 装置 电子设备 存储 介质 | ||
本公开关于一种语音处理方法、装置、电子设备及存储介质,所述方法包括:对待转换语音信息进行语音识别,得到所述待转换语音信息中包含的音素特征信息;将所述音素特征信息,以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合,得到语音编码耦合信息;将所述语音编码耦合信息输入到语音转换模型的语音解码模块进行信息解码,得到与所述音素特征信息对应的目标声学特征信息;基于所述目标声学特征信息生成已转换语音信息。本公开能够解决相关技术中语音转换的说话人音色有限且固定,无法满足用户个性化语音转换需求的问题。
技术领域
本公开涉及深度学习技术领域,尤其涉及一种语音处理方法、装置、电子设备及存储介质。
背景技术
语音转换是指在保留语言内容不变的情况下,将一句话的音色从原始说话人转移为目标说话人;其在电影配音、短视频变声、虚拟人等方面可以发挥重要作用。
相关技术中,基于语音识别技术以及神经网络模型能够实现不同说话人到特定目标说话人音色的映射,这里的目标说话人为对神经网络模型进行训练时训练集中的说话人,即相关技术中的语音转换方法只能实现将语音转化为有限的说话人音色,不能转换为训练集中说话人以外的说话人音色,从而无法满足用户的个性化语音转换需求。
发明内容
本公开提供一种语音处理方法、装置、电子设备及存储介质,以至少解决相关技术中语音转换的说话人音色有限且固定,无法满足用户个性化语音转换需求的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种语音处理方法,包括:
对待转换语音信息进行语音识别,得到所述待转换语音信息中包含的音素特征信息;
将所述音素特征信息,以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合,得到语音编码耦合信息;所述语音转换模型是基于预设对象数据集合进行训练得到的,所述预设对象数据集合中包括多个预设对象的标记信息;其中所述目标对象的标记信息是基于至少两个所述预设对象的标记信息生成的;
将所述语音编码耦合信息输入到所述语音转换模型的语音解码模块进行信息解码,得到与所述音素特征信息对应的目标声学特征信息;所述目标声学特征信息中包含所述目标对象的音色特征信息;
基于所述目标声学特征信息生成已转换语音信息。
在一示例性实施例中,所述预设对象的标记信息为预设对象的特征向量;
所述方法还包括:
对至少两个所述预设对象的特征向量进行加权求和,得到所述目标对象的特征向量;其中每个所述预设对象的特征向量对应的权重之和为1;
将所述目标对象的特征向量确定为所述目标对象的标记信息。
在一示例性实施例中,所述语音编码模块包括音素特征编码模块、标记信息编码模块和特征耦合模块;
所述将所述音素特征信息,以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合,得到语音编码耦合信息包括:
将所述音素特征信息输入到所述音素特征编码模块进行特征提取,得到音素特征向量;
将所述目标对象的标记信息输入到所述标记信息编码模块进行特征维度转换,得到对象特征向量;
将所述音素特征向量和所述对象特征向量输入到所述特征耦合模块进行特征向量耦合,得到所述语音编码耦合信息。
在一示例性实施例中,所述标记信息编码模块包括标记信息映射模块和归一化模块;
所述将所述目标对象的标记信息输入到所述标记信息编码模块进行特征维度转换,得到对象特征向量包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110530110.9/2.html,转载请声明来源钻瓜专利网。