[发明专利]面向语音识别系统黑盒攻击模型的防御方法及防御装置有效

申请号：	201911031043.5	申请日：	2019-10-28
公开（公告）号：	CN110992934B	公开（公告）日：	2022-04-26
发明（设计）人：	陈晋音;叶林辉;杨奕涛	申请（专利权）人：	浙江工业大学
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/26;G06N3/08;H04L9/00
代理公司：	杭州天勤知识产权代理有限公司 33224	代理人：	曹兆霞
地址：	310014 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	面向语音识别系统黑盒攻击模型防御方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向语音识别系统黑盒攻击模型的防御方法，包括以下步骤：

(1)获取原始音频文件，利用基于深度学习的语音识别模型对原始音频文件进行筛选，获得能够被正确识别的音频文件，作为原始样本，在原始样本中添加模拟环境噪声后，复制原始样本到设定种群数量；

(2)在步骤(1)的基础上，对原始样本添加随机噪声以进行变异形成初代对抗样本；

(3)以对抗样本的解码短语与目标短语的相似度作为评价函数的选择依据，当相似度小于0.5时，以CTC损失函数作为评价函数，当相似度大于0.5时，以CTC损失函数和对抗样本的解码短语和目标短语的Levenshtein距离作为评价函数，利用遗传算法对对抗样本进行优化迭代，直至Levenshtein距离小于2为止获得接近目标短语的对抗样本；

(4)当Levenshtein距离小于2时，利用梯度估计的方法替换遗传算法对对抗样本进行优化，获得精确对抗样本；

(5)利用原始样本和精确对抗样本对所述语音识别模型重训练进行优化，获得能够防御对抗攻击的语音识别模型；

(6)利用能够防御对抗攻击的语音识别模型对待识别音频文件进行识别，以防御对待识别音频文件的对抗攻击。

2.如权利要求1所述的面向语音识别系统黑盒攻击模型的防御方法，其特征在于，以DeepSpeech作为基于深度学习的语音识别模型。

3.如权利要求1所述的面向语音识别系统黑盒攻击模型的防御方法，其特征在于，在干净音频文件中添加模拟环境噪声为高斯白噪声。

4.如权利要求1所述的面向语音识别系统黑盒攻击模型的防御方法，其特征在于，步骤(3)中，对抗样本的解码短语与目标短语的相似度R(x')为：

其中，Levenshtein(C(x'),t)为对抗样本的解码短语C(x')和目标短语的Levenshtein距离，len(t)为目标短语t的长度。

5.如权利要求4所述的面向语音识别系统黑盒攻击模型的防御方法，其特征在于，步骤(4)的具体过程为：

相似度R(x')小于0.5，将CTC loss函数l_ctc(x')作为评价函数F₁(·)，当相似度R(x')大于0.5后，将Levenshtein距离引入评价函数，此时评价函数F₂(·)表示为：

F₂(x')＝(1-a)·l_ctc(x')+a·Levenshtein(C(x'),t)

其中，a为权重系数；

按照评价函数获得对抗样本的评价函数评分，根据得分情况从种群中选择评分最高的m条样本作为精英群体；然后，根据评价函数评分，从精英群体中挑选k次，组成父辈1，再挑选k次组成父辈2；通过从父辈1和父辈2中各取一半的数据来生成子代，m和k为自然数；