[发明专利]语音信号重构方法及装置有效
| 申请号: | 201710539484.0 | 申请日: | 2017-07-04 |
| 公开(公告)号: | CN107274883B | 公开(公告)日: | 2020-06-02 |
| 发明(设计)人: | 王东;李蓝天 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G10L13/033 | 分类号: | G10L13/033;G10L13/08;G10L17/04;G10L25/18 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;曹杰 |
| 地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 信号 方法 装置 | ||
1.一种语音信号重构方法,其特征在于,包括:
获取样本语音信号,将所述样本语音信号转换成log域频谱;
基于所述样本语音信号的log域频谱,利用预先训练的内容因子提取模型,提取每一帧样本语音信号的内容因子,以及利用预先训练的说话人因子提取模型,提取每一帧样本语音信号的说话人因子;
基于所提取的内容因子和说话人因子,训练得到用于将内容因子重构成内容谱的内容谱重构模型和用于将说话人因子重构成声纹谱的声纹谱重构模型;
将目标语音信号输入所述声纹谱重构模型,获得所述目标语音信号中的声纹谱,以及将目标语音信号输入所述内容谱重构模型,获得所述目标语音信号中的内容谱;
将所述内容谱和所述声纹谱相加,获得所述目标语音信号重构后的log域频谱。
2.根据权利要求1所述的方法,其特征在于,将目标语音信号输入所述声纹谱重构模型,获得所述目标语音信号中的声纹谱,以及将目标语音信号输入所述内容谱重构模型,获得所述目标语音信号中的内容谱,包括:
获取目标语音信号,将所述目标语音信号转换成log域频谱;
基于所述目标语音信号的log域频谱,利用预先训练的内容因子提取模型提取每一帧目标语音信号的内容因子,以及利用预先训练的说话人因子提取模型提取每一帧目标语音信号的说话人因子;
利用所述内容谱重构模型,将每一帧目标语音信号的内容因子重构成内容谱,以及利用所述声纹谱重构模型,将每一帧目标语音信号的说话人因子重构成声纹谱。
3.根据权利要求2所述的方法,其特征在于,所述将所述样本语音信号转换成log域频谱,包括:
将所述样本语音信号进行傅立叶变换,获得所述样本语音信号的log域频谱;
相应地,所述将所述目标语音信号转换成log域频谱,包括:
将所述目标语音信号进行傅立叶变换,获得所述目标语音信号的log域频谱。
4.根据权利要求1所述的方法,其特征在于,在基于所述样本语音信号的log域频谱,利用预先训练的内容因子提取模型,提取每一帧样本语音信号的内容因子,以及利用预先训练的说话人因子提取模型,提取每一帧样本语音信号的说话人因子之前,所述方法还包括:
对内容因子提取模型进行预先训练,以使所述内容因子提取模型对音素的区分能力最大化,以及对说话人因子提取模型进行预先训练,以使所述说话人因子提取模型对说话人的区分能力最大化。
5.根据权利要求4所述的方法,其特征在于,所述对内容因子提取模型进行预先训练,以使所述内容因子提取模型对音素的区分能力最大化,包括:
基于Fisher准则,对内容因子提取模型进行预先训练,以使所述内容因子提取模型对音素的区分能力最大化;
相应地,
所述对说话人因子提取模型进行预先训练,以使所述说话人因子提取模型对说话人的区分能力最大化,包括:
基于Fisher准则,对说话人因子提取模型进行预先训练,以使所述说话人因子提取模型对说话人的区分能力最大化。
6.根据权利要求4所述的方法,其特征在于,所述对内容因子提取模型进行预先训练,以使所述内容因子提取模型对音素的区分能力最大化,包括:
基于交叉熵,对内容因子提取模型进行预先训练,以使所述内容因子提取模型对音素的区分能力最大化;
相应地,
所述对说话人因子提取模型进行预先训练,以使所述说话人因子提取模型对说话人的区分能力最大化,包括:
基于交叉熵,对说话人因子提取模型进行预先训练,以使所述说话人因子提取模型对说话人的区分能力最大化。
7.根据权利要求3所述的方法,其特征在于,所述说话人因子提取模型、所述内容因子提取模型、所述声纹谱重构模型和所述内容谱重构模型均是基于深度神经网络来实现的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710539484.0/1.html,转载请声明来源钻瓜专利网。





