[发明专利]一种语音处理方法、装置、电子设备及存储介质在审
申请号: | 202110478784.9 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113314101A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 张颖;杨鹏;李楠;王芮;张晨;郑羲光;车浩 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16;G10L21/007 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;贾允 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 处理 方法 装置 电子设备 存储 介质 | ||
本公开关于一种语音处理方法、装置、电子设备及存储介质,所述方法包括:获取原始对象的第一语音信息;基于所述第一语音信息生成所述原始对象的声学特征信息;将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别,得到所述第一语音信息中包含的音素信息;将所述音素信息输入到语音转换模型进行声学特征转换,得到目标对象的声学特征信息;基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息;其中,所述原始对象与所述目标对象不同,所述第一语音信息与所述第二语音信息的语音内容相同。本公开能够解决相关技术中转换语音自然度差以及语音转换结果不准确的问题。
技术领域
本公开涉及深度学习技术领域,尤其涉及一种语音处理方法、装置、电子设备及存储介质。
背景技术
语音转换是指在保留语言内容不变的情况下,将一句话的音色从原始说话人转为目标说话人,语音转换技术在电影配音、短视频变声、虚拟人等方面发挥着重要作用。
相关技术中,一般采用基于数字信号处理的语音转换方法,基频和共振峰是语音信号中的两个重要特征,通过直接对原始语音中基频和共振峰的修改,使其和目标说话人特征分布尽量一致,从而达到改变语音信号中音色的目的;但是通过修改基频和共振峰所合成的转换语音自然度差,并且不同原始说话人的基频和共振峰千差万别,即使目标说话人确定,通过数字信号处理后的转换语音音色也会有较大的差异;另外在修改基频时会产生语音混叠,引入噪声,从而使得语音转换结果不准确。
发明内容
本公开提供一种语音处理方法、装置、电子设备及存储介质,以至少解决相关技术中转换语音自然度差以及语音转换结果不准确的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种语音处理方法,包括:
获取原始对象的第一语音信息;
基于所述第一语音信息生成所述原始对象的声学特征信息;
将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别,得到所述第一语音信息中包含的音素信息;
将所述音素信息输入到语音转换模型进行声学特征转换,得到目标对象的声学特征信息;
基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息;
其中,所述原始对象与所述目标对象不同,所述第一语音信息与所述第二语音信息的语音内容相同。
在一示例性实施例中,所述方法还包括:
获取第一神经网络模型;所述第一神经网络模型包括音素识别模块和分类模块;
获取多项样本声学特征信息,以及与每项样本声学特征信息对应的音素特征向量;
将每项样本声学特征信息输入到所述音素识别模块进行音素识别,得到第一音素特征信息;
将所述第一音素特征信息输入到所述分类模块进行音素分类,得到音素分类概率向量;
根据每项样本声学特征信息对应的音素特征向量,以及每项样本声学特征信息对应的所述音素分类概率向量,确定音素信息损失;
基于所述音素信息损失对所述第一神经网络模型进行训练,得到训练完成的第一神经网络模型;
基于所述训练完成的第一神经网络模型生成所述语音识别模型。
在一示例性实施例中,所述基于所述训练完成的第一神经网络模型生成所述语音识别模型包括:
基于所述训练完成的第一神经网络模型的音素识别模块生成所述语音识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110478784.9/2.html,转载请声明来源钻瓜专利网。