[发明专利]一种基于多监督多特征融合的语音测谎方法在审
| 申请号: | 202111117671.2 | 申请日: | 2021-09-23 |
| 公开(公告)号: | CN113851112A | 公开(公告)日: | 2021-12-28 |
| 发明(设计)人: | 刘曼;庄志豪;耿磊;陶华伟;傅洪亮 | 申请(专利权)人: | 河南工业大学 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 450001 河南省郑州市高新技*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 监督 特征 融合 语音 方法 | ||
1.一种基于多监督多特征融合的语音测谎方法,其特征在于,包括以下步骤:
(1)语音信号预处理:在语音处理预处理阶段先给语音添加上真话与谎言的标签,然后再对语音进行分帧加窗等处理;
(2)语音特征提取:对(1)中经分帧加窗处理后的数据进行语音特征提取,提取预处理后语音的mels谱数据,并按帧输入LSTM网络中,提取帧级特征,其次将mels谱数据构建成3D图片,输入Alexnet网络,提取全局特征;再次采用人工设计特征提取人工设计特征,输入AE网络中;
(3)搭建网络模型:首先构建了基于CNN网络、LSTM网络、AE网络网络的混合神经网络模型,实现不同特征的互补,从特征层面确保模型的性能,然后利用网络中的无监督误差、半监督误差及监督误差对实现反向微调的过程:
A.首先,将(2)中提取的语音特征作为输入发送(3)中构建的混合神经网络,其中该输入特征中包含了大量的无标签数据和少量的有标签数据,并对无标记数据的AE特征进行加噪,于是得到加噪后的数据如公式并(1)所示,将其作为强增强数据同时输入网络,于是网络的输入数据可以用公式(2)表示:
X={xl,xu_weak,xu_strong} (2)
其中,为加噪后输入AE的人工统计特征,为随机噪声,xl所代表的是少量的有标签数据,而xu_weak、xu_strong分别同一批数据的弱增强版本和强增强版本的无标签数据;
B.本发明中提取深层语音谎言特征之后,先利用少量的有标签数据训练模型,并对弱增强数据进行伪标签的生成,然后计算强增强数据的预测,并采用交叉熵损失对模型训练,最后结合AE的重构损失,对模型进行反复的训练,以生成置信度最高的伪标签用于模型反复训练,其中本发明的伪标签选择的约束条件使用以下公式表示:
max(P(y'|x;θ))>τ (3)
其中P(y'|x;θ)表示网络对弱增强无标签数据的标签预测输出,当输出最大概率大于所设置的阈值τ时,将该预测标签作为伪标签用于网络训练;
(4)将构建的三种不同的网络提取的不同特征输出进行深层融合,该过程保留语音中更丰富的谎言信息;
(5)本发明所提方法的优化过程由三部分误差函数共同实现,其中,利用AE对数据进行重构的功能,构建了AE的输入特征与重构特征之间的误差,同时利用模型为无标记数据生成伪标签,并获取伪标签预测误差,另外根据少量的有标签数据获取模型的监督识别误差;根据三部分的误差对网络进行训练,重复以上过程得到最佳语音测谎识别方法;
(6)分类识别输出:将步骤(4)得到的融合后的特征送入全连接层,并采用有标签的数据通过softmax层进行识别分类,该过程可以表示为:
ypre=f(W·c+b) (7)
其中,c是三个网络模块输出特征的融合数据集合,ypre是融合后数据经分类器后的分类结果,W,b分别是编码网络与分类器间的权重和偏置;
(7)为优化该发明提出的方法,采用梯度下降法来最小化误差函数(无监督重构误差、伪标签预测误差、有监督识别误差),并根据误差函数进行网络参数的调整,此外,采用余弦退火衰减学习率对学习率进行调整,原理如公式(7),以使该发明所提出的语音测谎方法性能达到最佳,全部损失用公式(8)表示;
Lall=LS+LU+LR (9)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111117671.2/1.html,转载请声明来源钻瓜专利网。





