[发明专利]基于改进时延神经网络的说话人识别方法在审
申请号: | 202210353301.7 | 申请日: | 2022-04-06 |
公开(公告)号: | CN115294992A | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 王燕清;王子豪;刘雨佳 | 申请(专利权)人: | 南京晓庄学院 |
主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L17/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211171 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 神经网络 说话 识别 方法 | ||
本发明公开了基于改进时延神经网络的说话人识别方法,通过TDNN网络训练音频的特征获取部分说话人的特征表达,然后由加入的量化和计数算子(Quantization and Counting Operators,QCO)同时处理,QCO能够充分利用音频的低层纹理特征,得到特征的细节信息。实验结果表明,改进的时延神经网络在相对较少的数据量中即可由网络训练获取更多信息的特征表达,在小数量训练集的网络中有明显优势。当数据量进一步增多时效果更为明显,训练加入了纹理统计方法的结构提取的细节特征使说话人识别表现更好。
技术领域
本发明涉及说话人识别技术领域,具体为基于改进时延神经网络的说话人识别方法。
背景技术
传统的说话人识别大都是用i-vector[6]加PLDA打分的方法,后来随着深度学习的发展分别出现了d-vector[7]和x-vector[1],d-vector首次尝试将深度神经网络(DeepNeural Network,DNN)应用在文本相关的说话人识别领域,因其识别效果能够达到传统的i-vector,且训练参数大为减少,成为了广泛应用的说话人识别方法。后来提出的TDNN是DNN在说话人识别领域的实现并改进,称为x-vector,该方法设计了一个包含多帧的神经网络,可以结合前后多帧同时提取特征,这在表达语音特征的时间关系上非常有帮助,多层网络的设置也使网络对特征有较强的抽象能力。x-vector分为帧级别(frame-level)和段级别(segment-level)两种不同层的处理,时延体现在开始的帧级别,中间的statisticspooling层将帧级别转换成段级别,之后得到特征表达。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明改进后的系统增加了量化和计数算子(QCO)的统计方法[3],本发明称之为qco-vector,结构如图1所示。QCO将输入特征量化为多个层次,每个级别都可以表示一种纹理统计信息,通过它可以很好地采样连续的纹理,以便于描述,量化后,计算每一层的强度,进行纹理特征编码。本系统所使用的特征处理方式同上,输入的39维mfcc先进入frame层处理,第一层frame可得到前后5帧时间序列的信息,第二层得到前后9帧时间序列的信息,这里本发明把第二层得到的结果送入第三次frame的同时,也将其输入到纹理增强模块(TEM),TEM模块处理后得到的即为QCO统计的纹理特征。TDNN过程中,前5层frame处理后,同样进入statistics pooling层计算出均值方差,等待TEM的输出。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:基于改进时延神经网络的说话人识别方法,对说话人识别方法包括以下步骤:
a.通过TDNN网络训练音频的特征获取部分说话人的特征表达;
b.用大量不包括识别集在内的其他说话者的语音特征训练提出的网络得到一个通用模型;
c.由加入的量化和计数算子(QCO)同时处理;
d.量化和计数算子能够充分利用音频的低层纹理特征,得到特征的细节信息。
作为本发明优选的技术方案:所述步骤c中量化和计数算子将输入特征量化为多个层次,每个级别都可以表示一种纹理统计信息,通过它可以很好地采样连续的纹理,以便于描述,量化后,计算每一层的强度,进行纹理特征编码;
此时的输入记为A∈RC×H×W,计算得到全局平均特征g∈RC×1×1;随后计算特征图A中的每个特征点Ai,j(i∈[1,W],j∈[1,H])与g的余弦相似度,得到S∈R1×H×W:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京晓庄学院,未经南京晓庄学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210353301.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有并环N,O-缩醛骨架的化合物及其制备方法与应用
- 下一篇:显示装置