[发明专利]模型训练的方法、声纹识别的方法、系统、设备及介质有效
| 申请号: | 201911256610.7 | 申请日: | 2019-12-10 |
| 公开(公告)号: | CN111091835B | 公开(公告)日: | 2022-11-29 |
| 发明(设计)人: | 任君;罗超;胡泓 | 申请(专利权)人: | 携程计算机技术(上海)有限公司 |
| 主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/18 |
| 代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;张冉 |
| 地址: | 200335 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 模型 训练 方法 声纹 识别 系统 设备 介质 | ||
1.一种模型训练的方法,其特征在于,所述方法包括:
获取多个客户的音频数据;
将所述音频数据进行预处理转化为具有预设音频时长的待训练音频数据;
从所述待训练音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练;
其中,所述三元组音频数据包括第一音频数据、第二音频数据以及第三音频数据,所述第一音频数据和所述第二音频数据为所述客户的两个不同的音频数据,所述第三音频数据为其他客户的音频数据;
所述卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数,所述第一损失函数为构造三元组判断相似性的损失函数,所述第二损失函数为基于性别进行二分类的交叉熵损失函数。
2.如权利要求1所述的模型训练的方法,其特征在于,所述卷积神经网络模型使用的损失函数通过以下公式获得:
Lcross-triplet=λLtriplet+μLcross
其中,Lcross-triplet表示所述损失函数,Ltriplet表示所述第一损失函数,Lcross表示所述第二损失函数,λ、μ表示所述损失函数的调节因子。
3.如权利要求2所述的模型训练的方法,其特征在于,所述第一损失函数通过以下公式获得:
其中,表示第i个所述第一音频数据与所述第二音频数据的余弦距离,表示第i个所述第一音频数据与所述第三音频数据的余弦距离,α为软间隔参数,N为整数,[x]+=Max(x,0)。
4.如权利要求2所述的模型训练的方法,其特征在于,所述第二损失函数通过以下公式获得:
Lcross=-[y log(p)+(1-y)·log(1-p)]
其中,y表示所述客户的性别标签,若所述客户的性别标签为男性时y取值为0,若所述客户的性别标签为女性时y取值为1,p为所述客户预测为女性时的概率。
5.如权利要求1所述的模型训练的方法,其特征在于,所述将所述音频数据进行预处理转化为具有预设音频时长的待训练音频数据的步骤包括:
将所述音频数据的音频长度与所述预设音频时长进行比较;
若所述音频长度小于所述预设音频时长,则复制所述音频数据并添加至所述音频数据的尾部,以生成长度为所述预设音频时长的待训练音频数据;
若所述音频长度大于所述预设音频时长,则根据所述预设音频时长创建滑动窗口,通过所述滑动窗口在所述音频数据中截取若干所述预设音频时长的音频样本,对所述音频样本的音频特征进行加和平均后,生成长度为所述预设音频时长的待训练音频数据;
若所述音频长度等于所述预设音频时长,则直接将所述音频数据作为待训练音频数据。
6.如权利要求1所述的模型训练的方法,其特征在于,获取多个客户的音频数据的步骤之前包括:
对酒店客服与客户的语音通话过程进行实时录音,获取酒店客服与客户通话的音频文件;
将所述音频文件进行左右声道分离,获取客户对应的客户语音音频片段;
所述获取多个客户的音频数据的步骤具体包括:
对所述客户语音音频片段进行静音分离,得到所述多个客户的音频数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程计算机技术(上海)有限公司,未经携程计算机技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911256610.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:制造和填充包装的方法以及这样的包装
- 下一篇:一种实验室用升降型细胞离心机





