[发明专利]模型训练的方法、声纹识别的方法、系统、设备及介质有效
| 申请号: | 201911256610.7 | 申请日: | 2019-12-10 |
| 公开(公告)号: | CN111091835B | 公开(公告)日: | 2022-11-29 |
| 发明(设计)人: | 任君;罗超;胡泓 | 申请(专利权)人: | 携程计算机技术(上海)有限公司 |
| 主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/18 |
| 代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;张冉 |
| 地址: | 200335 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 模型 训练 方法 声纹 识别 系统 设备 介质 | ||
本发明公开了一种模型训练的方法、声纹识别的方法、系统、设备及介质,其中模型训练的方法,包括以下步骤:获取多个客户的音频数据;将音频数据进行预处理转化为具有预设音频时长的待训练音频数据;从待训练音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练;其中,三元组音频数据包括第一音频数据、第二音频数据以及第三音频数据,卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数。本发明利用第一损失函数和第二损失函数对神经网络模型进行联合优化,提高了利用模型对客户来电语音的声纹识别的准确度。
技术领域
本发明涉及声纹识别技术领域,特别涉及一种模型训练的方法、声纹识别的方法、系统、设备及介质。
背景技术
每个人都有固定的性别且独有特点的声纹信息,声纹可以作为个人的身份证。通过对语音进行处理可生成用于指示该语音输入者身份信息的身份向量,可通过计算两段语音的身份向量之间的相似度来确定两端语音的输入者是否是同一人。
在OTA(Online Travel Agency,在线旅游)行业中用户下完酒店订单后,存在酒店伪装用户或者用户亲属对酒店订单进行取消或者修改的行为,该行为损害了用户和OTA平台的利益,需要利用声纹识别模型解决酒店订单中假冒客户进行修改和取消订单的问题。但是由于客户与酒店客服接通电话的场景非常复杂,例如,存在环境噪声、多方沟通等因素对识别结果造成偏差,除此之外,未考虑性别因素对声纹识别带来的影响。
现有模型对于客户的声纹识别准确度较低,无法确定同一订单数据所对应的客户是否相同是亟待解决的问题。
发明内容
本发明要解决的技术问题是为了克服现有技术中在噪音环境下,未考虑性别因素带来的影响,常规的模型识别的准确性。会降低提供一种模型训练的方法、声纹识别的方法、系统、设备及介质。
本发明是通过下述技术方案来解决上述技术问题:
第一方面,本发明提供一种模型训练的方法,所述方法包括:
获取多个客户的音频数据;
将所述音频数据进行预处理转化为具有预设音频时长的待训练音频数据;
从所述待训练音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练;
其中,所述三元组音频数据包括第一音频数据、第二音频数据以及第三音频数据,所述第一音频数据和所述第二音频数据为所述客户的两个不同的音频数据,所述第三音频数据为其他客户的音频数据;
所述卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数,所述第一损失函数为构造三元组判断相似性的损失函数,所述第二损失函数为基于性别进行二分类的交叉熵损失函数。
较佳地,所述卷积神经网络模型使用的损失函数通过以下公式获得:
Lcross-triplet=λLtriplet+μLcross
其中,Lcross-triplet表示所述损失函数,Ltriplet表示所述第一损失函数, Lcross表示所述第二损失函数,λ、μ表示所述损失函数的调节因子。
较佳地,所述第一损失函数通过以下公式获得:
其中,表示第i个所述第一音频数据与所述第二音频数据的余弦距离,表示第i个所述第一音频数据与所述第三音频数据的余弦距离,α为软间隔参数,N为整数,[x]+=Max(x,0)。
较佳地,所述第二损失函数通过以下公式获得:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程计算机技术(上海)有限公司,未经携程计算机技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911256610.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:制造和填充包装的方法以及这样的包装
- 下一篇:一种实验室用升降型细胞离心机





