[发明专利]一种基于重参数化的解耦方式的音频特征提取方法及装置在审

申请号：	202110460111.0	申请日：	2021-04-27
公开（公告）号：	CN113160850A	公开（公告）日：	2021-07-23
发明（设计）人：	许敏强;马雨枫;赵淼;刘敏	申请（专利权）人：	广州国音智能科技有限公司
主分类号：	G10L25/30	分类号：	G10L25/30;G10L17/18;G10L17/02;G06N3/04;G06N3/08
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	黄忠
地址：	510000 广东省广州市黄埔区科学***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于参数方式音频特征提取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种基于重参数化的解耦方式的音频特征提取方法及装置，包括：获取目标说话人的待测语音样本；将待测语音样本进行预处理；提取预处理后的待测语音样本的声学特征；将声学特征输入到网络推理模块中得到声纹特征向量，网络推理模块是由训练好的多层网络训练模块经过重参数化转换成的单路结构的网络模型。本申请在训练阶段，使用多分支结构，以达到更好的收敛效果，在推理阶段，重参数化为单路结构，以获得比参数量相当的多分支结构更好的效果，并且能使速度更快，消耗内存更低。

技术领域

本申请涉及声纹特征提取技术领域，尤其涉及一种基于重参数化的解耦方式的音频特征提取方法及装置。

背景技术

现有的高性能网络结构包括多分支结构和性能优异的网络组件。其中多分支结构较之前的单路结构，性能可以得到极大提升。像GoogleNet，Inception等，都属于多路结构。而性能优异的网络组件，包括深度可分离卷积，分组卷积等等，这些都可以显著增加网络性能。然而多分支结构和性能优异的组件虽然能显著提高模型性能，但是又会最终导致模型在推理时速度变慢且耗内存，这非常不利于工业场景，尤其是在算力受限的情况下。

近年来也有很多在单路网络上的尝试。这些尝试的核心都在于训练更深的网络，但是并没有很好的成果，性能上普遍不如多分支结构，得到的模型往往既不简单也不实用。

发明内容

本申请提供了一种基于重参数化的解耦方式的音频特征提取方法及装置，使得在训练阶段，使用多分支结构，以达到更好的收敛效果，在推理阶段，重参数化为单路结构，以获得比参数量相当的多分支结构更好的效果，并且能使速度更快，消耗内存更低。

有鉴于此，本申请第一方面提供了一种基于重参数化的解耦方式的音频特征提取方法，所述方法包括：

获取目标说话人的待测语音样本；

将所述待测语音样本进行预处理；

提取预处理后的所述待测语音样本的声学特征；

将所述声学特征输入到网络推理模块中得到声纹特征向量，所述网络推理模块是由训练好的多层网络训练模块经过重参数化转换成的单路结构的网络模型。

可选的，在所述将所述声学特征输入到所述网络推理模块中得到声纹特征向量，之前还包括：

采集大量目标说话人的语音样本作为训练语音样本；

将所述训练语音样本进行预处理；

提取预处理后的所述训练语音样本的声学特征；