[发明专利]一种具有听觉高保真度特点的语音对抗样本修复方法有效

申请号：	202111170083.5	申请日：	2021-10-08
公开（公告）号：	CN113948067B	公开（公告）日：	2022-05-27
发明（设计）人：	王斌;方永强;曾颖明;张箐碚;陈志浩;郭敏;童帅鑫;马晓军;桓琦	申请（专利权）人：	北京计算机技术及应用研究所
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/22;G10L19/005;G10L25/18;G10L25/30;H04L9/40
代理公司：	中国兵器工业集团公司专利中心 11011	代理人：	王雪芬
地址：	100854***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种具有听觉保真度特点语音对抗样本修复方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种具有听觉高保真度特点的语音对抗样本修复方法，其特征在于，包括以下步骤：

(1)构建对抗样本修复训练数据集；

(2)搭建RAE网络并设置网络结构参数；

(3)构建高保真音频重构损失；

(4)基于步骤1、步骤2、步骤3设置训练参数并训练RAE网络；

(5)利用训练好的RAE网络修复对抗样本；

步骤1中，采集n条原始音频数据，求取音频数据最大序列长度，将每一条音频数据均补零至最大长度，得到所述对抗样本修复训练数据集；

步骤2包括：

(2a)设置网络结构参数，包括输入层、基于BiLSTM网络的编码器隐藏层、隐变量层、基于BiLSTM网络的解码器隐藏层、输出层；

(2b)结合BiLSTM网络与AE网络的结构特点搭建RAE网络，RAE网络的结构中，依次为：输入层→基于BiLSTM网络的编码器隐藏层→隐变量层→基于BiLSTM网络的解码器隐藏层→输出层，从而得到初始RAE网络；

AE网络是指自编码器网络，是一种无监督学习模型，包括从输入层到隐藏层的原始数据x的编码过程，以及从隐藏层到输出层的解码过程，则原始数据x与重构数据之间的距离即为数据x的误差损失，RAE网络即RNN-AE网络，是一种循环自编码器网络，在编码器和解码器中使用BiLSTM网络，将原始音频数据输入编码器中，通过BiLSTM网络的学习，编码器当前时刻的输出Z_t受到当前时刻状态h_t与未来时刻状态c_t的共同影响，编码器最终时刻的输出Z_t进入解码器中，再次通过BiLSTM网络的学习，解码器当前时刻的输出Z_t受到当前时刻状态h_t与未来时刻状态c_t的共同影响，最终解码器输出终止时刻的输出Z_t，最后通过全连接层转变输出格式；

步骤3包括：

(3a)利用输入与重构的音频样本，按照公式计算均方误差，其中，l为音频长度，x_t表示时刻t的原始数据，表示时刻t的重构数据；

(3b)利用输入音频样本，按照公式计算每一个时刻音频数据的重构误差权重，其中，x_t²表示时刻t的语音信号强度，权值w随着x_t²的增大而减小，λ＞0，为尺度参数，λ越大，权值w随x_t²的增大而减小得越快；

(3c)将所述均方误差与重构误差权重对应相乘，即按照公式计算得到高保真音频重构损失；

由公式表达的高保真音频重构损失函数是一种自适应加权均方误差损失函数，允许在语音信号强度大的地方产生大的重构误差，在语音信号强度小的地方限制误差；

步骤4包括：

(4a)设置训练参数，包括迭代轮次T、小批量尺寸s以及学习率η，并选择优化算法，优化算法是指基于1阶梯度的优化算法；

(4b)读取所述对抗样本修复训练数据集，进行将原始音频数据集划分为个小批量数据集的预处理操作，得到预处理后的对抗样本修复训练数据集；表示向上取整；

(4c)利用预处理后的对抗样本修复训练数据集，采用所选择的优化算法，根据所述高保真音频重构损失与学习率η进行反向传播训练初始RAE网络：将个小批量数据依次输入到RAE网络中，利用所选择的优化算法，按照前向传播、反向传播、权重更新的顺序，重复T轮，共计迭代次后停止训练，得到训练好的RAE网络。

2.如权利要求1所述的方法，其特征在于，所述优化算法为Adam算法。

3.如权利要求1所述的方法，其特征在于，步骤5包括：

(5a)读取对抗样本，利用训练好的RAE网络模型修复所述对抗样本，输出修复后的样本；所述对抗样本是通过语音对抗样本生成算法所生成的一种音频数据，其通过在干净样本上添加扰动而诱导语音识别模型产生错误识别结果；

(5b)将对抗样本与修复后的样本输入语音识别模型，观察对抗样本修复效果，若对抗样本修复效果表示修复后的样本识别结果正确，则修复成功，否则，修复失败。

4.如权利要求3所述的方法，其特征在于，所述对抗样本修复效果具体包括两方面内容，一方面观察对抗样本与修复后的样本的声谱差异，另一方面观察对抗样本与修复后的样本输入到语音识别模型识别后的结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所，未经北京计算机技术及应用研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111170083.5/1.html，转载请声明来源钻瓜专利网。

上一篇：一种大型空分消除分子筛切换影响主塔工况的方法
下一篇：一种低温低压阀门密封装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种具有听觉高保真度特点的语音对抗样本修复方法有效

专利文献下载