[发明专利]具备未知类别内部划分能力的声纹开集识别方法在审
申请号: | 202011566172.7 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112735435A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 庄旭;袁鑫;尹可鑫;甘翼;丛迅超 | 申请(专利权)人: | 西南电子技术研究所(中国电子科技集团公司第十研究所) |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/18;G10L17/20;G10L17/22 |
代理公司: | 成飞(集团)公司专利中心 51121 | 代理人: | 郭纯武 |
地址: | 610036 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具备 未知 类别 内部 划分 能力 声纹 识别 方法 | ||
1.一种具备未知类别内部划分能力的声纹开集识别方法,其特征在于,包括如下步骤:
首先,以某一语言为母语,带有不同口音的语言使用者的多个语音片段,构建文本无关的声纹开集识别数据集;其次,将不同说话人的语音数据作为声纹开集识别系统的输入,逐条计算语音数据的梅尔频率倒谱系数特征,对数据集中的原始音频数据进行特征变换,经过预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔滤波器组过滤、取对数、离散余弦变换(DCT)这几个预处理步骤后,将数据集中的音频进行特征变换,得到关于音频数据的梅尔频率倒谱系数特征;再次,将音频数据的梅尔倒谱系数特征作为音频编码模块GE2E的输入,音频编码模块GE2E的采用广义端到端损失函数GE2E进行训练,生成关于音频的固定维向量映射,优化音频的特征编码,加强不同个体音频特征编码的差异性,有效消除说话者之间的歧义;然后,将梅尔倒谱系数的GE2E音频编码作为概率阶梯深度神经网络模块CGDL的输入,梯深度神经网络模块CGDL结合多元高斯模型,设置概率阶梯网络,在隐空间生成已知类别的条件后验分布,导出已知类别的多元高斯分布,判断任意音频数据是否属于已知类别,对CGDL判定为已知类别的音频数据进行分类,同时将CGDL判定为未知类别数据存储在内存中,最后,对于由CGDL模块判定为未知类别的音频数据,构造并训练无界交错状态神经网络UISRNN,对音频数据进行在线聚类,得到的聚类数目即是说话人的数目,某一聚类中的所有音频数据从属同一说话人。
2.如权利要求1所述的具备未知类别内部划分能力的声纹开集识别方法,其特征在于:在预加重预处理步骤中,语音信号通过一个高通滤波器进行预加重,补偿语音信号受到发音系统所抑制的高频部分,将变得平坦的频谱保持在低频到高频的整个频带中。
3.如权利要求2所述的具备未知类别内部划分能力的声纹开集识别方法,其特征在于:预加重后,为了避免相邻两帧的变化过大,将N个采样点集合成一个观测单位,称为帧,将信号切分为帧后,根据采样点两相邻帧之间包含了M个取样点的一段重叠区域,将信号分成短时帧,在这个短时间帧内,采用短时傅里叶变换STFT,通过连接相邻帧来获得信号的近似频率轮廓。
4.如权利要求1所述的具备未知类别内部划分能力的声纹开集识别方法,其特征在于:在帧、加窗、快速傅里叶变换(FFT)预处理步骤中,分信号分帧后,将一个窗口函数应用于窗口随时间滑动(Slide)或跳跃(hop)的每个帧,然后对分帧加窗后的各帧信号进行快速傅里叶变换FFT得到各帧的频谱,并对语音信号的频谱取模平方,得到语音信号的功率谱;短时傅里叶变换STFT将信号的特性转换为频域上的能量分布,被计算为一系列加窗数据帧,快速傅里叶变换FFT将每一帧乘以汉明窗增加帧左端和右端的连续性,各帧信号再经过快速傅里叶变换FFT得到各帧在频谱上能量分布的频谱。
5.如权利要求1所述的具备未知类别内部划分能力的声纹开集识别方法,其特征在于:在梅尔滤波器组过滤、取对数预处理步骤中,将上述FFT得到的各帧在频谱上能量分布的频谱送入Mel滤波器组进行滤波,将线性的自然频谱转换为体现人类听觉特性的Mel频谱,在Mel频谱上面进行倒谱分析,取对数,通过DCT离散余弦变换DCT做逆变换,然后取DCT后的第2个到第13个系数作为语音特征是梅尔倒谱系数MFC,获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所),未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011566172.7/1.html,转载请声明来源钻瓜专利网。