[发明专利]一种基于一类分类的轻量级语音欺骗检测算法在审

申请号：	202210193172.X	申请日：	2022-03-01
公开（公告）号：	CN114566170A	公开（公告）日：	2022-05-31
发明（设计）人：	彭海朋;任叶青;李丽香;赵洁;薛晓鹏;赵猛猛;孟寅;暴爽	申请（专利权）人：	北京邮电大学
主分类号：	G10L17/04	分类号：	G10L17/04;G10L17/14;G10L25/51;G06V10/774;G06V10/764
代理公司：	北京挺立专利事务所(普通合伙) 11265	代理人：	高福勇
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于一类分类轻量级语音欺骗检测算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于一类分类的轻量级语音欺骗检测算法，针对真实语音和欺骗语音特性设计了新的损失函数DOC‑Softmax，即在一类分类损失函数OC‑Softmax的欺骗语音空间中引入分散损失函数来缓解训练数据和测试数据之间特征分布不匹配的问题，从而提高语音欺骗检测模型的准确率和泛化能力。同时，利用知识蒸馏框架将语音欺骗检测算法设计为轻量级的语音欺骗检测算法，减少了模型的参数量，使其便于部署到移动端或嵌入式设备中。此模型比使用完全相同的模型结构、训练数据和只使用硬标签训练方法得到的模型拥有更好的泛化能力。

技术领域

本发明涉及声纹识别技术领域，尤其涉及一种基于一类分类的轻量级语音欺骗检测算法。

背景技术

声纹识别是指根据语音信号中的说话人信息来识别说话人身份的一项生物特征识别技术，具有非集中、非接触、不惧遮挡、需主观意识配合等特点，已广泛应用于金融、社保、政企、物联网等场景中。

但实际应用环境中存在很多不确定性，尤其是人为的恶意欺骗攻击，使得现有声纹识别系统性能急剧下降。语音欺骗是指通过录音、语音合成、语音转换等手段，将一段非法的、未经过自动说话人验证系统认证的声音进行“修改仿冒”以通过自动说话人验证系统的检测。当前，主要有三种欺骗攻击：(1)其他说话人的刻意模仿；(2)通过语音合成或语音转换技术得到的逼真语音；(3)高保真录音设备的录音回放或录音拼接。在上述三种欺骗攻击中，刻意模仿这种欺骗攻击方式可被主流声纹识别系统辨识出真伪。

然而，录音设备质量的提高以及语音合成、语音转换等语音处理技术的快速发展给语音欺骗检测和声纹识别系统的安全性带来越来越严峻的挑战。语音欺骗检测是指利用深度学习或机器学习方法，通过将手工特征或者原始语音输入到深度学习或机器学习模型中进行学习，最终达到语音鉴伪的目的。接下来介绍残差网络、知识蒸馏、Softmax损失函数和AM-Softmax损失函数。

(1)残差网络

2015年何恺明等人提出残差网络(Residual network,ResNet)来缓解深度神经网络中增加网络深度带来的梯度消失问题，广泛应用于图像分类、目标检测、语音识别等领域中。残差网络通过引入深度残差学习框架来解决退化问题，其主要思想是去掉相同的主体部分，突出微小的变化，利用一些堆叠的非线性层去拟合一个残差映射F(x):＝H(x)-x而不是直接拟合一个底层映射H(x)，这样原始的映射就变成了F(x)+x，并且优化残差映射比优化原始的映射更容易。这种残差学习结构可以通过前向神经网络+shortcut连接实现，如图1所示，shortcut连接相当于执行了同等映射，不会产生额外的参数，也不会增加计算复杂度，并且整个网络仍可以通过端到端的反向传播训练。

(2)知识蒸馏

深度学习在计算机视觉、语音识别、自然语言处理等众多领域中均取得了令人难以置信的性能。然而，大多数的深度学习模型在计算上过于昂贵，无法在移动端或嵌入式设备上运行。因此需要对模型进行压缩，知识蒸馏是模型压缩中重要的技术之一。知识蒸馏最早由Hinton等人提出，主要包括三种蒸馏设置，一是模型压缩，将复杂模型的知识蒸馏到小模型上；二是跨模态的迁移知识，将知识从一个模态迁移到另一个模态；三是集成蒸馏，将多个模型的知识蒸馏到单个模型上。本发明利用知识蒸馏框架对一类分类语音欺骗检测模型进行模型压缩，其核心思想是先训练一个复杂网络模型，然后使用这个复杂网络的输出和数据的真实标签去训练一个更小的网络，因此知识蒸馏框架通常包含一个复杂模型(称为Teacher模型)和一个小模型(称为Student模型)，复杂模型一般是单个复杂网络或者是若干网络的集合，拥有良好的性能和泛化能力，而小模型由于网络规模较小，表达能力有限。知识蒸馏框架就是利用大模型学习到的知识去指导小模型训练，即利用Teacher模型预测的Soft-target来辅助Hard-target训练，使得Student模型具有与Teacher模型相当的性能，大幅度减少了模型的参数量，从而实现模型压缩、降低模型推理时延。

(3)Softmax损失函数和AM-Softmax损失函数

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京邮电大学，未经北京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210193172.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种淋巴细胞染色体核型制片方法
下一篇：基于统计信息的多尺度多相岩心结构模拟退火建模方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于一类分类的轻量级语音欺骗检测算法在审

专利文献下载