[发明专利]信息处理方法及装置、电子设备及存储介质有效
申请号: | 201810068595.2 | 申请日: | 2018-01-24 |
公开(公告)号: | CN108198566B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 徐嵚嵛;李琳;周冰 | 申请(专利权)人: | 咪咕文化科技有限公司;中国移动通信集团有限公司 |
主分类号: | G10L21/007 | 分类号: | G10L21/007;G10L25/24;G10L21/013 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 王姗姗;张颖玲 |
地址: | 100032 北京市西城区德*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 方法 装置 电子设备 存储 介质 | ||
本发明实施例公开了一种信息处理方法及装置、电子设备及存储介质。所述信息处理方法,包括:提取源语音的第一频域特征;提取目标语音的第二频域特征;基于所述第一频域特征及所述第二频域特征,构建高斯模型;将位于第一空间的所述第一频域特征和所述第二频域特征,通过非线性映射映射到第二空间,其中,所述第二空间的维度高于所述第一空间的维度;对映射到所述第二空间的频域特征进行核非负矩阵进行分解,得到第一转换函数;将所述第一转换函数和所述高斯模型进行混合,得到第二转换函数,其中,所述第二转换函数,用于将所述源语音的声音参数转换为所述目标语音的声音特征参数,从而提升语音转换的效果。
技术领域
本发明涉及信息技术领域,尤其涉及一种信息处理方法及装置、电子设备及存储介质。
背景技术
语音转换是在保留原有语义的条件下,将将一个人的声音转换成另一个人的声音,从而实现保留语义条件下的声音替换。
语音转换已经被广泛应用于语音增强、语音辅助及保密通信等应用场景中。
现有的语音转换包括:利用矢量量化谱映射方法、多元线性回归等方法进行语音转换。但是由于语音具有较多非线性分量,导致转换效果不佳的问题。在现有技术中,提出了一种基于高斯混合模型的语音转换方法,极大的提升了语音转换的效果,但是高斯混合模型中存在着过度拟合或者不连续的问题,导致转换后的声音相对真人说话的声音有较大的失真,从而导致转换后依然比较很怪异,故在现有技术中声音转换的效果依然有待进一步以提升。
发明内容
有鉴于此,本发明实施例期望提供一种信息处理方法及装置、电子设备及存储介质,至少部分解决上述问题。
为达到上述目的,本发明的技术方案是这样实现的:
第一方面,本发明实施例提供一种信息处理方法,包括:
提取源语音的第一频域特征;
提取目标语音的第二频域特征;
基于所述第一频域特征及所述第二频域特征,构建高斯模型;
将位于第一空间的所述第一频域特征和所述第二频域特征,通过非线性映射映射到第二空间,其中,所述第二空间的维度高于所述第一空间的维度;
对映射到所述第二空间的频域特征进行核非负矩阵进行分解,得到第一转换函数;
将所述第一转换函数和所述高斯模型进行混合,得到第二转换函数,其中,所述第二转换函数,用于将所述源语音的声音参数转换为所述目标语音的声音特征参数。
可选地,所述提取源语音的第一频域特征,包括:
提取源语音的第一频域特征其中,为所述源语音的第t帧的频域特征;为所述源语音的第t-1帧的频域特征;为所述源语音的第t+1帧的频域特征;
所述提取目标语音的第二频域特征,包括:
获取目标语音的第二频域特征其中,为所述目标语音的第t帧的频域特征;为所述目标语音的第t-1帧的频域特征;为所述目标语音的第t+1帧的频域特征。
可选地,所述第一频域特征为所述源语音的梅尔频率倒谱系数特征;
所述第二频域特征为所述目标语音的梅尔频率倒谱系数特征。
可选地,所述将所述第一转换函数和所述高斯模型进行混合,得到第二转换函数,包括:
对所述高斯模型的高斯分量的第一后验概率进行平滑处理,得到平滑处理后的第二后验概率;
将所述第一转换函数及所述第二后验概率性,以获得所述第二转换函数。
可选地,所述对所述高斯模型的高斯分量的第一后验概率进行平滑处理,得到平滑处理后的第二后验概率,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于咪咕文化科技有限公司;中国移动通信集团有限公司,未经咪咕文化科技有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810068595.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:混音处理方法、装置、计算机设备和存储介质
- 下一篇:一种新型语音除噪系统