[发明专利]一种基于变分信息瓶颈的声纹识别方法及系统有效
申请号: | 202110709415.6 | 申请日: | 2021-06-25 |
公开(公告)号: | CN113488060B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 熊盛武;王丹;董元杰 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/02;G10L17/18;G10L17/20;G06N3/04;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息 瓶颈 声纹 识别 方法 系统 | ||
本发明提供了一种基于变分信息瓶颈的声纹识别方法及系统,解决现有声纹识别模型提取的说话人嵌入鲁棒性差和区分性不强的问题。首先提出了一个由VovNet和超轻量级子空间注意力机制(ULSAM)组成的特征提取网络,用于提取多尺度多频率的帧级说话人信息;然后引入变分信息瓶颈作为一种正则化方法,对说话人特征向量进一步压缩,去除说话人无关的信息,只保留与判别说话人身份相关的信息,使得最终提取的说话人嵌入更具鲁棒性。相比于现有的声纹识别技术,本发明提升了声纹识别在噪声背景下的识别准确率,使得声纹识别技术更适用于实际生活场景。
技术领域
本发明涉及深度学习和声纹识别领域,尤其涉及一种基于变分信息瓶颈的声纹识别方法及系统。
背景技术
声纹识别,又称为说话人识别,是一种根据声音波形中反映说话人生理和行为特征的语音参数自动识别说话人身份的技术。深度学习的出现极大推动了声纹识别的发展,基于深度神经网络的端到端声纹识别已经成为目前的主流技术,即利用深度神经网络强大的学习能力,从语音信号中学习一种说话人表征向量,称为说话人嵌入。
基于深度说话人嵌入的声纹识别通常由三部分组成:特征提取网络、特征聚合层和训练损失函数。卷积神经网络(CNNs),如时延神经网络(TDNNs)和残差网络(ResNet),通常用于从声学特征中提取帧级说话人信息。随后,特征聚合层将帧级特征聚合成句子级特征,得到一个低维向量,称为深度说话人嵌入。常用的聚合方法包括平均池化、统计池化和注意力统计池化。训练声纹识别模型的损失函数主要分为分类损失和度量损失两大类,常用的分类损失函数包括 softmax损失及其一系列变体,例如A-softmax、AM-softmax和AAM-softmax;度量损失如三元组损失(Triplet loss)、广义端到端损失(GE2E)和角度原型损失(Angular Prototypical loss)均已表现出优异的性能。
本申请发明人在实施本发明的过程中,发现现有技术中存在如下技术问题:
上述基于深度神经网络的声纹识别技术已经具有较高的识别准确率,然而这种高准确率依赖于干净语音。在实际应用中,输入语音不可避免会包含各种背景噪声,导致声纹识别网络的识别准确率大幅降低。为了解决噪声干扰问题,目前已有的方法主要有两种:语音增强和数据增强。语音增强方法首先去除语音中的背景噪声,然后将去噪后的干净语音输入到声纹识别网络进行身份识别;数据增强方法人为向干净语音中叠加各种类型的噪声,然后用噪声数据和干净数据共同训练声纹识别模型,使得神经网络生成的说话人嵌入对噪声鲁棒。上述两种方法都存在各自的问题:在去噪过程中,去噪网络很可能去除语音中与说话人身份相关的信息,导致识别准确率下降;人为添加噪声难以覆盖生活中各种各样的噪声类型,并且随着数据量增加,训练声纹识别模型的资源需求计算量也会增加。
发明内容
本发明提出一种基于变分信息瓶颈的声纹识别方法及系统,用于解决或者至少部分解决实际应用场景中声纹识别准确率不高的技术问题。
为了解决上述技术问题,本发明第一方面提供了一种基于变分信息瓶颈的声纹识别方法,包括:
S1:获取原始语音数据;
S2:构建引入变分信息瓶颈的声纹识别模型,其中,声纹识别模型包括声学特征参数提取层、帧级特征提取网络、特征聚合层、变分信息瓶颈层以及分类器,其中,声学特征参数提取层用于将输入的原始语音波形转换为声学特征参数 FBank,帧级特征提取网络用于采用一次聚合方式从声学特征参数FBank中提取多尺度多频率的帧级说话人信息,得到帧级特征向量,特征聚合层用于将帧级特征向量转换为低维句子级特征向量,变分信息瓶颈层用于对句子级特征向量中的信息进一步压缩,保留与说话人身份相关的信息,去除与说话人身份无关的信息,得到说话人嵌入,说话人嵌入为表示说话人身份的特征向量,分类器用于根据说话人嵌入得到声纹识别的结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110709415.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置