首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]模型训练的方法、声纹识别的方法、系统、设备及介质有效

申请号：	201911256610.7	申请日：	2019-12-10
公开（公告）号：	CN111091835B	公开（公告）日：	2022-11-29
发明（设计）人：	任君;罗超;胡泓	申请（专利权）人：	携程计算机技术（上海）有限公司
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/04;G10L17/18
代理公司：	上海弼兴律师事务所 31283	代理人：	薛琦;张冉
地址：	200335 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	模型训练方法声纹识别系统设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种模型训练的方法，其特征在于，所述方法包括：

获取多个客户的音频数据；

将所述音频数据进行预处理转化为具有预设音频时长的待训练音频数据；

从所述待训练音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练；

其中，所述三元组音频数据包括第一音频数据、第二音频数据以及第三音频数据，所述第一音频数据和所述第二音频数据为所述客户的两个不同的音频数据，所述第三音频数据为其他客户的音频数据；

所述卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数，所述第一损失函数为构造三元组判断相似性的损失函数，所述第二损失函数为基于性别进行二分类的交叉熵损失函数。

2.如权利要求1所述的模型训练的方法，其特征在于，所述卷积神经网络模型使用的损失函数通过以下公式获得：

L_{cross-triplet}＝λL_triplet+μL_cross

其中，L_{cross-triplet}表示所述损失函数，L_triplet表示所述第一损失函数，L_cross表示所述第二损失函数，λ、μ表示所述损失函数的调节因子。

3.如权利要求2所述的模型训练的方法，其特征在于，所述第一损失函数通过以下公式获得：

其中，表示第i个所述第一音频数据与所述第二音频数据的余弦距离，表示第i个所述第一音频数据与所述第三音频数据的余弦距离，α为软间隔参数，N为整数，[x]₊＝Max(x,0)。

4.如权利要求2所述的模型训练的方法，其特征在于，所述第二损失函数通过以下公式获得：

L_cross＝-[y log(p)+(1-y)·log(1-p)]

其中，y表示所述客户的性别标签，若所述客户的性别标签为男性时y取值为0，若所述客户的性别标签为女性时y取值为1，p为所述客户预测为女性时的概率。

5.如权利要求1所述的模型训练的方法，其特征在于，所述将所述音频数据进行预处理转化为具有预设音频时长的待训练音频数据的步骤包括：

将所述音频数据的音频长度与所述预设音频时长进行比较；

若所述音频长度小于所述预设音频时长，则复制所述音频数据并添加至所述音频数据的尾部，以生成长度为所述预设音频时长的待训练音频数据；

若所述音频长度大于所述预设音频时长，则根据所述预设音频时长创建滑动窗口，通过所述滑动窗口在所述音频数据中截取若干所述预设音频时长的音频样本，对所述音频样本的音频特征进行加和平均后，生成长度为所述预设音频时长的待训练音频数据；

若所述音频长度等于所述预设音频时长，则直接将所述音频数据作为待训练音频数据。

6.如权利要求1所述的模型训练的方法，其特征在于，获取多个客户的音频数据的步骤之前包括：

对酒店客服与客户的语音通话过程进行实时录音，获取酒店客服与客户通话的音频文件；

将所述音频文件进行左右声道分离，获取客户对应的客户语音音频片段；

所述获取多个客户的音频数据的步骤具体包括：

对所述客户语音音频片段进行静音分离，得到所述多个客户的音频数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于携程计算机技术（上海）有限公司，未经携程计算机技术（上海）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911256610.7/1.html，转载请声明来源钻瓜专利网。

上一篇：制造和填充包装的方法以及这样的包装
下一篇：一种实验室用升降型细胞离心机

同类专利

专利分类

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top