[发明专利]语音增强模型的训练方法和装置及语音增强方法和装置有效

申请号：	202110096168.7	申请日：	2021-01-25
公开（公告）号：	CN112927707B	公开（公告）日：	2023-10-03
发明（设计）人：	张新;张旭;郑羲光;张晨;郭亮	申请（专利权）人：	北京达佳互联信息技术有限公司
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L21/0224;G10L21/0232;G10L21/0272;G10L25/24;G10L25/30
代理公司：	北京铭硕知识产权代理有限公司 11286	代理人：	苏银虹;曾世骁
地址：	100085 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音增强模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开关于一种语音增强模型的训练方法和装置及语音增强方法和装置，所述训练方法包括：获取多个说话人的含噪语音样本和第一纯净语音样本的特征向量，其中，每个说话人的含噪语音样本是根据与该说话人对应的第二纯净语音样本添加噪声数据得到的；将含噪语音样本的幅度谱输入语音增强网络，得到估计的第一掩膜比；将估计的第一掩膜比和特征向量输入到注意力机制网络，得到估计的第二掩膜比；根据估计的第二掩膜比和幅度谱，确定估计的幅度谱，并根据估计的幅度谱和第二纯净语音样本的幅度谱确定语音增强模型的损失函数；通过根据损失函数调整语音增强网络和注意力机制网络的参数，对语音增强模型进行训练。

技术领域

本公开涉及音频技术领域，更具体地说，涉及一种语音增强模型的训练方法和装置及语音增强方法和装置。

背景技术

嘈杂的环境会影响人们在语音沟通中的效果，在当前的主流通讯软件中，通常采用不同语音增强算法实现对通话过程中含噪音频进行处理，传统方法可以实现对稳态噪声的处理，优点是运算复杂度低，深度学习方法通常用来去除瞬态噪声，效果较传统方法要好，但是运算复杂度高。

含噪语音中通常会含有背景噪声或其他说话人的声音，为了提高沟通效率，需要获取特定说话人的纯净语音，常规的语音增强可以做到去除背景噪声，分理出各个说话人的声音，但是仍然面临着说话人的排序问题，不知道应该输出哪个说话人的声音，因此针对特定说话人的语音增强的效果一般。

发明内容

本公开提供一种语音增强模型的训练方法和装置及语音增强方法和装置，以至少解决上述相关技术中的问题，也可不解决任何上述问题。

根据本公开实施例的第一方面，提供一种语音增强模型的训练方法，所述语音增强模型包括语音增强网络和注意力机制网络，所述训练方法包括：获取多个说话人的含噪语音样本和所述多个说话人的第一纯净语音样本的特征向量，其中，每个说话人的含噪语音样本是根据与该说话人对应的第二纯净语音样本添加噪声数据得到的；将所述含噪语音样本的幅度谱输入所述语音增强网络，得到估计的第一掩膜比，其中，掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；将所述估计的第一掩膜比和所述特征向量输入到所述注意力机制网络，得到估计的第二掩膜比；根据所述估计的第二掩膜比和所述幅度谱，确定估计的幅度谱，并根据所述估计的幅度谱和第二纯净语音样本的幅度谱确定所述语音增强模型的损失函数；通过根据所述损失函数调整所述语音增强网络和所述注意力机制网络的参数，对所述语音增强模型进行训练。

可选地，第一纯净语音样本和第二纯净语音样本可不同。

可选地，所述特征向量可使用特征提取网络对第一纯净语言样本进行特征提取而得到。

可选地，所述将所述估计的第一掩膜比和所述特征向量输入到所述注意力机制网络，得到第二掩膜比，可包括：将每个说话人的特征向量扩充至与每个说话人对应的所述估计的第一掩膜比相同的维度；分别将每个说话人对应的所述估计的第一掩膜比与相应说话人的扩充后的特征向量进行串联以获得每个说话人对应的串联特征；将每个说话人对应的所述串联特征作为所述注意力机制网络的输入。

可选地，所述注意力机制网络可包括线性变换层、第一矩阵乘法层、缩放层、柔性最大值传输函数层、第二矩阵乘法层，其中，所述线性变换层包括三个全连接层，其中，所述将所述估计的第一掩膜比和所述特征向量输入到所述注意力机制网络，得到估计的第二掩膜比，可包括：将所述串联特征输入所述线性变换层的三个全连接层，分别获得第一特征向量、第二特征向量和第三特征向量；将第一特征向量和第二特征向量输入所述第一矩阵乘法层，以将第一特征向量和第二特征向量进行矩阵相乘，获得内积特征向量；将所述内积特征向量输入所述缩放层，以将所述内积特征向量除以预定值以进行缩放，获得第一掩膜比分数；将第一掩膜比分数输入所述柔性最大值传输函数层，以将第一掩膜比分数经过柔性最大值传输函数，获得第二掩膜比分数；将第二掩膜比分数和第三特征向量输入所述第二矩阵乘法层，以将第二掩膜比分数和第三特征向量进行矩阵相乘，获得所述估计的第二掩膜比。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司，未经北京达佳互联信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110096168.7/2.html，转载请声明来源钻瓜专利网。

上一篇：深层页岩吸附气含量的确定方法、装置和服务器
下一篇：一种用于复杂岩质高边坡的组合支护结构及施工方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音增强模型的训练方法和装置及语音增强方法和装置有效

专利文献下载