[发明专利]一种对抗攻击免疫的自动语音识别方法有效
| 申请号: | 202110357849.4 | 申请日: | 2021-04-01 |
| 公开(公告)号: | CN113223515B | 公开(公告)日: | 2022-05-31 |
| 发明(设计)人: | 徐东亮;姜开勋;郗浩宇 | 申请(专利权)人: | 山东大学 |
| 主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/26;G10L25/24;G10L15/06 |
| 代理公司: | 郑州睿途知识产权代理事务所(普通合伙) 41183 | 代理人: | 李伊宁 |
| 地址: | 264209 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 对抗 攻击 免疫 自动 语音 识别 方法 | ||
1.一种对抗攻击免疫的自动语音识别方法,其特征在于:依次包括以下步骤:
A:选取语音数据集,并将语音数据集中的音频根据设定的采样频率进行采样,选取最长音频的采样结果作为长度标准,然后对低于长度标准的所有采样结果分别进行数据补零对齐,最终得到语音采样数据;
B:根据步骤A中得到的语音采样数据生成语音对抗样本;
步骤B中,利用步骤A中得到的语音采样数据生成两种类型的语音对抗样本;
步骤B包括具体步骤:
B1:根据CW方法生成第一种语音对抗样本;CW方法指Carlini and Wagner Attacks方法;
根据CW方法生成语音对抗样本的具体方法如下:
B11:将步骤A中得到的语音采样数据加上一个随机的噪声δ,随机的噪声δ符合高斯分布;
B12:首先将混入随机的噪声δ的语音采样数据通过梅尔频率倒谱系数进行特征提取,得到语音特征;然后将语音特征输入到语音识别模型中,得到以文本形式输出的识别结果;
B13:利用损失函数对加入语音采样数据中的随机的噪声δ进行反向传播训练,最终得到训练后的噪声δ;
损失函数为:
其中,minimize表示最小化,δ为添加的随机的噪声;||δ||2表示δ的L2范式,c为权值,x表示语音采样数据,x+δ表示添加噪声δ后的语音采样数据;T(x+δ)表示步骤B12中得到的添加噪声δ的语音数据经过处理后输入语音识别模型中输出的识别结果文本,t表示目标语音对应的文本;l(T(x+δ),t)表示添加噪声δ后的语音采样向量经过MFCC处理后放入DeepSpeech中的识别结果与目标语音对应的文本经过CTC编码对齐后得到损失值,l(T(x+δ),t)的逻辑意义表示添加噪声的语音特征的识别结果与目标语音差异最小,dBx(δ)≤τ为该损失函数的约束条件,dBx(δ)=dB(δ)-dB(x),表示添加的噪声与原语音采样数据的差异,τ为常数;
B14:将步骤B13迭代生成的训练后的噪声δ与步骤A中生成的语音采样数据相加,写入wav格式的文件,得到第一种语音对抗样本;
B2:根据有目标的PGD攻击方法生成第二种语音对抗样本:PGD攻击方法指ProjectGradient Descent攻击方法;
根据有目标的PGD攻击方法生成第二种语音对抗样本的具体方法如下:
B21:定义参数取值,参数包括学习率、每一次迭代的步幅大小及迭代次数;
B22:根据下述公式进行梯度下降,迭代生成对抗语音数据;
其中,表示第i次迭代生成的对抗语音数据,clip表示每次迭代的步幅,α表示学习率,x表示步骤A中获得语音采样数据,t表示目标语音对应的文本,表示第i次迭代产生的对抗语音数据输入到语音识别模型DeepSpeech中的识别结果文本与目标语音对应的文本t经过CTC编码对齐后得到损失值,表示模型的梯度值经过符号函数sign处理的结果;
B23:将最后一次迭代生成的对抗语音数据写入wav格式的文件,得到第二种语音对抗样本;
C:对步骤A中选取的语音数据集中的音频以及步骤B中的语音对抗样本根据设定的采样率进行采样,然后选取语音数据集和语音对抗样本中的最长的采样结果作为长度标准,对低于长度标准的语音数据集和语音对抗样本中的每一个采样结果分别进行补零对齐,得到防御模型的输入;将语音数据集中的音频对应的数据称为原音频,语音对抗样本对应的数据称为对抗音频;
D:构建基于GAN模型的DD-GAN防御模型;DD-GAN模型包括生成模型和判别模型,生成模型G模型用于将对抗音频进行去对抗性处理,生成无对抗性的音频;判别模型D模型用于判断G模型生成的音频是否具有对抗性;DD-GAN模型指Deep Defense GAN模型;
步骤D中,G模型的构建过程如下:
D11:构造G模型的编码部分;
G模型包含12个编码器,每一个编码器均为一个卷积的过程,编码器结构包括卷积类型、步长、激活函数和卷积核大小;
D12:构建隐变量;
D13:构造G模型的解码部分;
G模型包含12个解码器,每一个解码器均为一个反卷积的过程,解码器的结构包括反卷积类型、步长、激活函数和卷积核大小;
其中,12个解码器依次为第一解码器,第二解码器,……,第十二解码器;12个编码器依次为第一编码器,第二编码器,……,第十二编码器;
G模型的生成过程如下:
D21:将步骤C中获得的原音频作为输入,依次使用每一个编码器进行编码操作;将最后一次编码操作后得到的特征向量与隐变量进行拼接;
D22:将特征向量与隐变量进行拼接后的特征向量,依次使用每一个解码器进行解码操作,在第一解码器至第十一解码器每次解码完成后,分别将解码得到的特征向量,与对应的编码器编码得到的特征向量进行拼接作为下一次解码的输入;其中,第一解码器与第十一编码器对应,第二解码器与第十编码器对应,……,第十一解码器与第一编码器对应;
D23:第十二解码器解码后得到的特征向量,与步骤D21中作为输入的原音频为大小相等的特征向量;最终得到G模型生成的语音数据,记为生成音频;
D模型的结构构建过程如下:
D31:构造与G模型编码部分相同的编码器;
D32:构造一个一维全卷积,使得编码得到的特征向量的通道数变为1,卷积核的大小为1,步长为1;
D33:构造一个全连接层,全连接层的输入为上一步的输出向量,全连接层的输出为一个表示概率值的神经元,若神经元为1则表示输入的音频不具有对抗性,若神经元为0则表示输入的音频具有对抗性;
D模型的前向传播过程为:
D41:D模型的输入为变量组,变量组有两种情况:
第一种情况,输入的变量组为对抗音频与原音频组合,D模型中全连接层输出的神经元为1,表示原音频不具有对抗性;第二种情况为生成音频与对抗音频的组合,D模型中全连接层输出的神经元为0,表示生成音频具有对抗性;
D42:将输入进行编码得到的编码向量经过一维卷积得到通道数为1的特征向量;
D43:将步骤D42中生成的特征向量进行全连接,得到D模型中全连接层输出的神经元;
步骤D中:
G模型的构建过程中,
在步骤D11中:编码器的卷积类型为一维卷积,步长为2,卷积核大小为31;激活函数为LeakyRelu;
其中,a的取值为0.01;
在步骤D12中:隐变量的大小为经过12个编码器编码后形成的特征向量的大小;
在步骤D13中:解码器的卷积类型为一维反卷积,步长为2,激活函数为LeakyRelu,卷积核的大小为31;
G模型的生成过程中,
在步骤D21中:将步骤C中获得的原音频作为输入并依次使用每一个编码器进行编码操作后,得到大小为4×1024的特征向量,其中1024为通道的数量;原音频为一维特征向量,大小为16384;将最后一次编码操作后得到的特征向量与隐变量进行拼接后,得到大小为4×2048的特征向量;
在步骤D22中:将大小为4×2048的特征向量依次使用每一个解码器进行解码操作;
D模型的前向传播过程中,
在步骤D41中:输入的变量组为对抗音频大小为16384,原音频大小为16384,抗音频与原音频组合后大小为16384×2;生成音频大小为16384,生成音频与对抗音频的组合后大小为16384×2;
在步骤D42中:将大小为16384×2的输入进行编码,得到大小为4×1024的编码向量;大小为4×1024的编码向量经过一维卷积得到通道数为1且大小为4×1的特征向量;
在步骤D43中:将步骤D42中生成的大小为4×1的特征向量进行全连接;
E:分别确定G模型与D模型的损失函数,并根据损失函数对防御模型DD-GAN进行训练;
步骤E中:
G模型的损失函数为:
其中,n为原音频的训练集的音频个数,为第i个原音频对应的对抗音频,x(i)为第i个原音频,为G模型产生的生成音频,表示D模型判断G模型产生的生成音频是否具有对抗性的概率,λ为调节参数,表示L2范式,z为隐变量;
D模型的损失函数为:
F:将待识别语音利用步骤E中训练好的防御模型DD-GAN处理后,再通过语音识别模型进行识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110357849.4/1.html,转载请声明来源钻瓜专利网。





