[发明专利]一种语音处理方法、装置、电子设备及存储介质有效

申请号：	202110530110.9	申请日：	2021-05-14
公开（公告）号：	CN113409767B	公开（公告）日：	2023-04-25
发明（设计）人：	张颖	申请（专利权）人：	北京达佳互联信息技术有限公司
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/02;G10L15/30;G10L19/00
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	郝传鑫;贾允
地址：	100085 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音处理方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开关于一种语音处理方法、装置、电子设备及存储介质，所述方法包括：对待转换语音信息进行语音识别，得到所述待转换语音信息中包含的音素特征信息；将所述音素特征信息，以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合，得到语音编码耦合信息；将所述语音编码耦合信息输入到语音转换模型的语音解码模块进行信息解码，得到与所述音素特征信息对应的目标声学特征信息；基于所述目标声学特征信息生成已转换语音信息。本公开能够解决相关技术中语音转换的说话人音色有限且固定，无法满足用户个性化语音转换需求的问题。

技术领域

本公开涉及深度学习技术领域，尤其涉及一种语音处理方法、装置、电子设备及存储介质。

背景技术

语音转换是指在保留语言内容不变的情况下，将一句话的音色从原始说话人转移为目标说话人；其在电影配音、短视频变声、虚拟人等方面可以发挥重要作用。

相关技术中，基于语音识别技术以及神经网络模型能够实现不同说话人到特定目标说话人音色的映射，这里的目标说话人为对神经网络模型进行训练时训练集中的说话人，即相关技术中的语音转换方法只能实现将语音转化为有限的说话人音色，不能转换为训练集中说话人以外的说话人音色，从而无法满足用户的个性化语音转换需求。

发明内容

本公开提供一种语音处理方法、装置、电子设备及存储介质，以至少解决相关技术中语音转换的说话人音色有限且固定，无法满足用户个性化语音转换需求的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音处理方法，包括：

对待转换语音信息进行语音识别，得到所述待转换语音信息中包含的音素特征信息；

将所述音素特征信息，以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合，得到语音编码耦合信息；所述语音转换模型是基于预设对象数据集合进行训练得到的，所述预设对象数据集合中包括多个预设对象的标记信息；其中所述目标对象的标记信息是基于至少两个所述预设对象的标记信息生成的；

将所述语音编码耦合信息输入到所述语音转换模型的语音解码模块进行信息解码，得到与所述音素特征信息对应的目标声学特征信息；所述目标声学特征信息中包含所述目标对象的音色特征信息；

基于所述目标声学特征信息生成已转换语音信息。