[发明专利]一种基于自学习复数卷积神经网络的鲁棒性语音增强方法在审

申请号：	202210212480.2	申请日：	2022-03-04
公开（公告）号：	CN114566178A	公开（公告）日：	2022-05-31
发明（设计）人：	张睿;张鹏云;高美蓉;潘理虎;白晓露;马健喆	申请（专利权）人：	太原科技大学
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L21/0224;G10L21/0232;G10L25/30;G10L25/36;G10L25/39;G06N3/04
代理公司：	太原科卫专利事务所(普通合伙) 14100	代理人：	侯小幸
地址：	030024 山***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于自学习复数卷积神经网络鲁棒性语音增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于自学习复数卷积神经网络的鲁棒性语音增强方法，其特征在于：包括如下步骤：

一、将一维语音信号映射至多个空间域中生成基础域和辅助域；

候选多辅助域设置：将语音一维信号样本映射入多个空间域中以得到更多的语音信息，数据样本高维映射空间域包括基础域的时频域即短时傅里叶变换STFT和辅助域的递归图域RPF、格拉姆角和场域GASF、格拉姆角差场域GADF、马尔科夫转移场域MTF；

二、搭建MDCCRN语音增强模型，通过复数自注意力机制更深层次的提取基础域的信息，并通过所设计的复数多头注意力机制将基础域和表征能力强的辅助域的特征信息相融合实现更好的自寻优：

1)复数域自注意力机制构建：在深度卷积模型的两层复数LSTM层CLSTM后添加根据自注意力机制设计的复数自注意力机制层CSelf-Attention，给语音时序数据分配不同的权重以区分语音和噪声：

所述复数自注意力机制层CSelf-Attention内设置复数自注意力机制模块，包含Q、K与V三个变量，Q指Query，K指Key与V指Value，所述复数自注意力机制模块涉及两个复数矩阵相乘运算，其中复数矩阵Q被定义为Q＝Q_r+jQ_i，实值矩阵Q_r和Q_i分别表示实部和虚部，(·)^T表示矩阵转置操作，×表示矩阵乘法；复数自注意力机制计算公式如式(1)-(5)，计算原理为：使用Softmax函数将W相关分数转换为概率值，将计算获得的概率值与V相乘，概率值可以反映V值的重要程度；在计算Output时，需对W的实部矩阵W_r和虚部矩阵W_i分别计算Softmax后再与V_r和V_i对应相乘，最后将实部矩阵和虚部矩阵叠加得到Output，然后通过维度重构将Output的维度重构到与Input相同：

Q＝reshape(1×1ComplexConv2d(Input)) (1)

K＝reshape(1×1ComplexConv2d(Input)) (2)

V＝reshape(1×1ComplexConv2d(Input)) (3)

W＝Q×K^T＝(Q_r×K_r^T-Q_i×K_i^T)+j(Q_r×K_i^T+Q_i×K_r^T) (4)

Output＝Softmax(W)×V (5)

2)基础域与辅助域多域特征融合：

在候选多辅助域设置的基础上，设计复数多头注意力机制CMulti-Head-Attention，复数多头注意力机制多域辅助融合方法具体为：将辅助域作为特征Q，基础域STFT作为特征K、V，并在融合过程中应用一种相对位置编码机制来实现状态重用，不会造成语音帧之间时间混乱，以便融合处理后的反向还原操作；由于两个域使用复数多头注意力机制融合时需将特征图embedding为一维序列，且可能存在embedding后长度不同的问题，因此特征Q与特征K、V融合时，通过Linear层将特征Q的长度转换，使其长度与特征K、V相同，在运算过程中必须保持embedding的长度可以整除复数多头注意力机制中头的个数，若遇到embedding为质数无法整除的情况，需将其填充0后再进行计算，并在运算结束后删除补0位置的信息；若辅助域存在没有虚部的情况，则将两个域的实部进行融合即可；

经过复数多头注意力机制多域辅助融合后，网络提取出两个域的不同语音特征信息进行融合并将得到的特征信息进行反STFT转换为一维语音信号输出系统；

三、PGSSA并行全局寻优策略构建：

1)采用麻雀搜索算法SSA，将麻雀抽象为发现者、追随者及警戒者三种个体，三种个体的迭代公式分别如式(6)-(8)所示：

其中，n为麻雀个体的数目，表示第i只麻雀在第d维的位置，t表示当前迭代次数，T为最大迭代次数；表示第t次迭代时麻雀在第d维的最劣位置；表示种群t+1次迭代时麻雀在d维上的最优位置，表示当前的全局最优位置；β为步长控制参数，是服从均值为0，方差为1的正态分布的随机数；a∈(0,1]的随机数，K∈[-1,1]的随机数，Γ是服从标准正态分布的随机数，L是一维的全1矩阵；R₂∈[0,1]，ST∈[0.5,1]分别表示预警值和安全值的取值范围，ε是防止分母为0的极小常数；f_g和f_W分别是当前麻雀种群的全局最优和全局最差适应度值，f_i表示当前麻雀个体的适应度值；

2)以麻雀搜索算法SSA为基础，构建博弈论麻雀并行机制：

引入种群适应度值方差；系统生成三个子种群，构造并行麻雀搜索算法；每个子种群独立运行且每隔一定的时间相互交换个体信息；每个子种群都是游戏问题中的决策主体，并假设其各自具备集体理性，达成合作协议，每个参与者的目的是最小化自己子种群的适应度值；此外，引入方差的作用来评估进化过程中种群的多样性，当三个种群多样性都较好时，则种群间处于竞争关系，以使自己种群更好发展；当三个种群发展都进入缓速期时开始合作关系，通过合作吸收其他种群的优质信息，为下一次的竞争做准备；

当种群优化到K(K＝1,2,...,evo-1)代时，计算3个子种群的适应度值方差得到Q_n(n＝1,2,3)；

①竞争关系：当min(Q_n)S时，Q_n(n＝1,2,3)均大于阈值S，说明三个子种群的多样性均较好，具有较强的搜索能力，种群间处于竞争关系；用3个子种群中最好个体替换其余两个子种群中最坏个体；

②合作关系：当max(Q_n)S时，Q_n(n＝1,2,3)均小于阈值S，说明三个子种群的多样性均较差，全局搜索能力弱，开始合作关系；将3个子种群合并去除后20％的个体，并打乱所有个体均匀划分在3个种群，并在剩余的80％的个体附近生成随机的个体，补齐种群；

③其他关系：若子种群关系既不属于合作关系也不属于竞争关系，则定义子种群为第三状态，将每个种群后10％的个体之间相互交叉，即为遗传算法的交叉，增强各子种群间的交流，加快有效信息的获取和收敛速度；

阈值S的设置：

阈值S的变更方法如式(9)：

S＝yα＝ylog_evo(evo-K)，K＝1，2，...，evo-1 (9)

其中，y为经过步骤2)进化的3个种群方差的均值，evo为总进化次数，K为当前的进化次数；

3)在2)的基础上构建全局寻优策略，得到PGSSA搜索策略：

①强化学习通过与环境的反复交互和试错，根据获得的反馈不断对决策进行优化：SSA式(6)中有随机变量警戒值R₂，每轮麻雀搜索迭代开始时，均会随机初始化R₂变量的值，选取哪一个公式来更新麻雀发现者位置与R₂的随机值具有很大的关系，因此随机参数与SSA的寻优性能关系密切；为了使参数变化符合种群进化需求且减少随机变量造成的问题，利用强化学习与种群环境进行交互，针对SSA中的警戒值R₂，设计了一种基于DQN算法的参数自动调整策略，DQN算法设置如下：

状态空间定义为两位小数表示的警戒值R₂∈(0.00，1.00)；

动作空间设置为警戒值的减小、不变、增大三种情况，动作幅值设置为0.01；

奖励机制的主要依据适应度值指标，奖励R计算如式(10)：

其中f_b为种群最优适应度值，f为当前迭代的适应度值；

②采用迭代映射产生混沌序列来初始化种群，提高初始种群的多样性，迭代映射表达式如式(11)所示，生成由混沌初始化的种群后将混沌个体转换到对应的搜索空间中，转换式如式(12)所示；式中为第i个个体的第d个维度，为第i+1个个体的第d个维度，X_ub,d、X_lb,d分别为第d个维度个体的上下边界；通过迭代映射，麻雀个体在初始化时被分散到整个搜索空间中：

③将随机游走算法与SSA进行融合，使用随机游走算法对每轮迭代的最优麻雀个体位置进行扰动，随机游走的表达式如式(13)所示：

X_i(t)＝[0,cussum(2r(t)-1),…,cussum(2r(t)-1)] (13)

式中X_i(t)为最优麻雀第i维随机游走t步的位置集，t为总迭代次数，cussum为计算累加和，r(t)为一个随机函数，rand∈[0,1]的随机数，如式(14)：

随着迭代次数增加，麻雀个体越来越接近最优值，因此随机游走范围应逐渐变小；由于可行域存在边界，无法直接用式(13)更新麻雀位置；为确保在可行域范围内随机游走，根据式(15)对麻雀位置进行计算并归一化；

式中为第t次迭代最优麻雀第i维的位置，a_i、b_i为最优麻雀第i维随机游走位置集中的最小值、最大值，c_i为最优麻雀第i维的下边界；

④在麻雀原追随者更新公式(7)中，麻雀追随者向最优位置移动时，易出现种群在短时间内迅速集聚的情况，使种群多样性骤降且种群个体之间缺乏信息交流；针对此问题，对麻雀追随者公式进行改进，改进后的公式如式(16)所示，f_i表示第i只麻雀本次迭代的适应度值，f_s表示任意麻雀本次迭代的适应度值，其余参数均与公式(7)相同：

四、MDCCRN模型自优化：将PGSSA运用在MDCCRN语音增强模型上，实现6个模型关键参数自适应构建，得到构建后的AMDCCRN模型：

提出一种模型自适应寻优方法，构建了适应度函数F_g提高PGSSA寻优效果，将改良后的PGSSA用于MDCCRN模型寻优以减小模型设计难度同时提高模型自适应寻优能力，得到优化后的语音增强模型AMDCCRN：

将改良后的PGSSA用于MDCCRN模型寻优以减小模型设计难度同时提高模型自适应寻优能力，得到优化后的语音增强模型AMDCCRN；将每只麻雀的6个维度分别对应于MDCCRN模型中多域融合基础域STFT对应的辅助域D_S、LSTM层隐藏单元个数Hid_s、LSTM层的个数Lstm_s、复数多头注意力机制中头的个数Head_s、学习率L_rate、批次大小Batch Size；根据PGSSA中各麻雀位置信息建立AMDCCRN模型；训练AMDCCRN模型并利用式(17)的适应度函数计算其在测试集上的性能；式中i，i＝1,2,3,4,5分别代表信噪比为0dB，5dB，10dB，15dB，20dB下的五个测试集；其中STOI和PESQ为语音质量评估最常用的两个评价指标；求取出F_g作为PGSSA中的适应度函数进行种群更新，最优个体信息被用来建立最终的AMDCCRN模型：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于太原科技大学，未经太原科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210212480.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种提升微服架构程序发布效率的方法及系统
下一篇：一种笼具周转筐自动叠放装置及工作方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于自学习复数卷积神经网络的鲁棒性语音增强方法在审

专利文献下载