[发明专利]基于改进时延神经网络的说话人识别方法在审
申请号: | 202210353301.7 | 申请日: | 2022-04-06 |
公开(公告)号: | CN115294992A | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 王燕清;王子豪;刘雨佳 | 申请(专利权)人: | 南京晓庄学院 |
主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L17/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211171 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 神经网络 说话 识别 方法 | ||
1.基于改进时延神经网络的说话人识别方法,其特征在于:对说话人识别方法包括以下步骤:
a.通过TDNN网络训练音频的特征获取部分说话人的特征表达;
b.用大量不包括识别集在内的其他说话者的语音特征训练提出的网络得到一个通用模型;
c.由加入的量化和计数算子(QCO)同时处理;
d.量化和计数算子能够充分利用音频的低层纹理特征,得到特征的细节信息。
2.根据权利要求1所述的基于改进时延神经网络的说话人识别方法,其特征在于:所述步骤c中量化和计数算子将输入特征量化为多个层次,每个级别都可以表示一种纹理统计信息,通过它可以很好地采样连续的纹理,以便于描述,量化后,计算每一层的强度,进行纹理特征编码;
此时的输入记为A∈RC×H×W,计算得到全局平均特征g∈RC×1×1;随后计算特征图A中的每个特征点Ai,j(i∈[1,W],j∈[1,H])与g的余弦相似度,得到S∈R1×H×W:
之后把S量化成N等级的L=[L1,L2,...,LN],从S的最小值和最大值中均分出N个量化等级,Ln的计算:
对每个特征点Si∈R(i∈[1,HW])将其量化编码为Ei∈RN(i∈[1,HW]),最终得到E∈RN×HW,Ei,n的计算公式为:
得到量化编码矩阵E之后,进一步得到计数图C∈RN×2:
Cat表示连接操作,
量化计数图C反应的是输入特征图的相对统计,为获取绝对统计信息,把全局平均特征g编码进C得到D,g需要先上采样至RN×C:
D=Cat(MLP(C),g) (5)。
3.根据权利要求1所述的基于改进时延神经网络的说话人识别方法,其特征在于:所述步骤c中再经过BN+Conv1D得到最终的纹理增强模块(TEM)特征输出;TEM处理结束后,其输出同frame5层计算的均值方差连接得到的维度为256,经过BN+Conv1D后维度保持不变,这里得到的即为qco-vector结果,训练时需要得到说话人数量的结果输出,此时通过最后一层全连接层,我们将得到说话人的预测输出,维度256*N。
4.根据权利要求1所述的基于改进时延神经网络的说话人识别方法,其特征在于:所述步骤d中得到的特征细节信息可表达为:
第i个说话人的第j个语音片段用PLDA的公式表示为:
xij=μ+Fhi+Gωij+εij (6)
其中μ表示训练数据的全局均值;F表示说话人身份空间;G可以看做是噪声空间;εij∈N(0,Σ)表示噪声协方差;hi可以看作是第i个说话人的隐变量,即xij在说话人空间的表示;ωij可以看作是第i个说话人的第j个语音片段的隐变量,即xij在噪声空间的表示。
5.根据权利要求1所述的基于改进时延神经网络的说话人识别方法,其特征在于:PLDA模型拆成两部分来看,第一部分是μ+Fhi,这部分只与说话人有关而与不同语音片段无关,称为信号部分,反映了说话人的类间差异;第二部分是Gωij+εij,这部分反映的是同一说话人的不通语音片段间的差异,称为噪声部分,模型中存在隐变量,因此使用EM算法迭代估计其中的变量θ={μ,F,G,Σ};
测试时用PLDA模型中训练好的参数打分,计算两个语音片段的对数似然比:
式中两个语音片段来自同一空间的假设为Ηs,来自不通空间的假设为Ηd,得分越高,则两个语音片段来自同一说话人的概率越大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京晓庄学院,未经南京晓庄学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210353301.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:具有并环N,O-缩醛骨架的化合物及其制备方法与应用
- 下一篇:显示装置