[发明专利]基于通道注意力深度可分卷积网络的小样本话者辨认方法有效
申请号: | 202110954659.0 | 申请日: | 2021-08-19 |
公开(公告)号: | CN113823292B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 李艳雄;陈昊;曹文昌;黄启晟;江钟杰 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/18;G10L17/02;G10L25/24;G06N3/0464;G06N3/048 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 詹丽红 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 通道 注意力 深度 卷积 网络 样本 辨认 方法 | ||
本发明公开了一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,步骤如下:从训练语音提取对数梅尔谱特征,训练得到通道注意力深度可分卷积网络;将注册(小样本)语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算所有注册语音的深度特征均值矢量并作为对应话者的中心矢量;将测试语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算测试语音深度特征与注册语音各话者中心矢量之间的距离,距离最小的中心矢量所对应的话者即为测试语音所属话者。本发明方法既减小了网络规模又降低了网络训练难度,有效缓解小样本话者辨认的过拟合问题,获得更满意话者辨认结果。
技术领域
本发明涉及小样本学习和语音信号处理领域,具体涉及一种基于通道注意力深度可分卷积网络的小样本话者辨认方法。
背景技术
每个人的声音特征是不同的,利用各个话者(说话人)声音特性的差异,能够有效地对不同语音对应的话者进行分类与识别,这就是话者识别任务。话者识别包括话者确认和话者辨认两种任务。前者是一个二分类问题,旨在确认测试语音是否来自所声称的话者;后者是一个多分类问题,旨在辨认测试语音来自声纹库中的哪个话者。
近些年深度神经网络已经被广泛应用到图像、文本、语音领域中,并取得了显著的效果。深度神经网络之所以有如此优秀的性能表现,主要依赖于各类高性能计算设备的更新发展与各种大规模标注数据集的出现。但是在现实生活中,并不是所有任务都有大规模数据集的支持。一方面在特定任务下能够获取的数据资源是十分有限的,另一方面想要构建大规模数据集,标注工作所耗费的人力和物力成本是巨大的。因此想要构建特定任务下的大规模数据集显然是很困难的。没有大规模数据集的支持,深度神经网络就会出现过拟合问题,其性能将会大幅下降。在此情况下提出的小样本学习能很好地应对数据集规模较小情况下的深度神经网络训练问题。因此,将小样本学习应用于图像处理、文本处理和语音处理等任务,是具有实际意义的。
卷积神经网络作为最常用的神经网络之一,其核心是利用卷积核对输入特征图的局部信息进行感知,再对信息进行加权,以此得到更高语义层次的深度特征。在常规卷积运算的基础上,人们提出了空洞卷积、分组卷积、深度可分卷积等卷积运算以适应不同的任务需求。其中,深度可分卷积一方面能够提高训练时的计算速度,另一方面,与传统卷积计算相比,大幅减小了计算量与参数量,在减小网络规模的同时获得了更高的精度。同时,通道注意力可以实现通道间的信息交互,从输入特征图中提取出对当前任务更为有益的信息,以此调整网络结构使其能专注当前任务,达到进一步降低网络训练难度的目的。由此看来深度可分卷积和通道注意力非常适合小样本学习任务。
发明内容
本发明的目的是为了解决样本量不足时的话者辨认问题,提供一种基于通道注意力深度可分卷积网络的小样本话者辨认方法。本发明将通道注意力深度可分卷积网络与小样本学习结合,设计了一种在低资源、少样本条件下进行话者辨认的方法。本发明一方面在减小网络规模的同时能够提升网络性能,缓解小样本数据集训练时产生的过拟合问题,另一方面实现了各特征通道间的信息交互,降低了训练难度,进一步提升了网络的泛化能力。
本发明的目的可以通过采取如下技术方案达到:
一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,所述小样本话者辨认方法包括以下步骤:
S1、从输入语音提取对数梅尔谱特征,其中,所述输入语音包括训练语音、注册语音和测试语音;
S2、初始化通道注意力深度可分卷积网络,所述神经网络包括顺序连接的3个深度可分卷积模块、1个通道注意力模块和1个输出模块;
S3、将训练语音的对数梅尔谱特征输入通道注意力深度可分卷积网络,迭代更新神经网络参数直至神经网络收敛;
S4、将注册语音的对数梅尔谱特征输入已训练的神经网络,得到注册语音的深度特征,计算所有注册语音的深度特征均值矢量并作为对应话者的中心矢量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110954659.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:合成手性烯丙基羧酸酯的方法
- 下一篇:一种瓦楞纸切割装置